亚洲农村老熟妇肥BBBB_无码人妻精品一区二区蜜桃色_精品亚洲AⅤ无码午夜在线观看_中文字幕熟妇人妻在线视频_囯产色无码精品视频免费

當(dāng)前位置: 首頁(yè) > 科技新聞 >

傳播信息而不是病毒!程序員借助AI,用500多種語(yǔ)

時(shí)間:2020-04-11 16:17來(lái)源:網(wǎng)絡(luò)整理 瀏覽:
大數(shù)據(jù)文摘出品作者:Daniel Whitenack編譯:lin、曹培信這個(gè)世界上有多少種語(yǔ)言?7117種。沒錯(cuò),不是方言,而是正在被使用的
傳播信息而不是病毒!程序員借助AI,用500多種語(yǔ)言翻譯“洗手”

大數(shù)據(jù)文摘出品

作者:Daniel Whitenack

編譯:lin、曹培信


這個(gè)世界上有多少種語(yǔ)言?


7117種。沒錯(cuò),不是方言,而是正在被使用的語(yǔ)言。


人類傳遞信息的載體是語(yǔ)言,不同語(yǔ)言之間的交流靠的是翻譯,比如世衛(wèi)組織在疫情防控中,在官網(wǎng)上發(fā)布了一個(gè)公告,號(hào)召大家勤洗手以預(yù)防感染。


傳播信息而不是病毒!程序員借助AI,用500多種語(yǔ)言翻譯“洗手”


作為一個(gè)國(guó)際組織,這里使用的默認(rèn)語(yǔ)言是英語(yǔ),但是在網(wǎng)站的右上角也有一個(gè)切換語(yǔ)言的地方,提供包括中文在內(nèi)的6種語(yǔ)言可以選擇。


傳播信息而不是病毒!程序員借助AI,用500多種語(yǔ)言翻譯“洗手”


盡管這6種語(yǔ)言覆蓋了世界超過(guò)35億的人口,但是顯然是遠(yuǎn)遠(yuǎn)不夠的。


求助于翻譯軟件?以目前世界上適用范圍最廣的谷歌翻譯來(lái)說(shuō),現(xiàn)在只能支持100多種語(yǔ)言,也是現(xiàn)存語(yǔ)言的零頭。


傳播信息而不是病毒!程序員借助AI,用500多種語(yǔ)言翻譯“洗手”


像WHO發(fā)布的這種關(guān)于全球疫情的消息,肯定是希望能夠覆蓋到更多的人,但是目前很多地區(qū)面臨語(yǔ)言障礙而導(dǎo)致信息的傳播受阻,哪怕只是想告訴人們要勤洗手。


為了讓更多的人能夠了解洗手的重要性,一位名叫Daniel Whitenack的AI大佬用使用了多語(yǔ)言無(wú)監(jiān)督方法來(lái)訓(xùn)練500多種語(yǔ)言的跨語(yǔ)言詞向量,然后從現(xiàn)有目標(biāo)語(yǔ)言文檔中提取“洗”、“手”的部分,然后將這些部分組合起來(lái),生成了510種語(yǔ)言中“洗手”的短語(yǔ)翻譯。


Daniel用的是Facebook開發(fā)的MUSE(Multilingual Unsupervised and Supervised Embeddings)庫(kù),訓(xùn)練了544種語(yǔ)言和英語(yǔ)之間的跨語(yǔ)言詞向量,而這些向量允許從現(xiàn)有文檔中提取與目標(biāo)短語(yǔ)“洗手”相似的短語(yǔ)。


Daniel與語(yǔ)言社區(qū)SIL International的同事合作完成了這項(xiàng)工作,他們的成果可以在Ethnologue指南頁(yè)面上看到——一份有著454種譯文的新冠病毒指南。


傳播信息而不是病毒!程序員借助AI,用500多種語(yǔ)言翻譯“洗手”

鏈接:

https://www.ethnologue.com/guides/health


下面就跟著文摘菌一起來(lái)看看他是怎么做的吧!


拆解“洗腳”和“你的手”,變成“洗手”


首先,SIL International已經(jīng)完成了2000多種語(yǔ)言的語(yǔ)義工作,目前管理著1600多種語(yǔ)言項(xiàng)目文檔。所以我想他們可能已經(jīng)將“洗手”或類似的短語(yǔ)多次翻譯成數(shù)百種語(yǔ)言,這個(gè)猜想得到了證實(shí)!


因此我能夠從我們的900多種語(yǔ)言檔案庫(kù)中快速收集文檔,主要是完整的教學(xué)材料和圣經(jīng)等。這些文檔中的每一個(gè)都有英文對(duì)照,其中必然包含短語(yǔ)“洗手”或類似的短語(yǔ),例如“洗臉”。此外,這些文檔的質(zhì)量都很高,并與當(dāng)?shù)卣Z(yǔ)言社區(qū)合作進(jìn)行了翻譯和核查。


語(yǔ)言數(shù)據(jù)集有了!


但是,這里有兩個(gè)問(wèn)題需要克服。首先,此數(shù)據(jù)只有大多數(shù)語(yǔ)言的數(shù)千個(gè)樣本,這與用于訓(xùn)練機(jī)器翻譯模型的數(shù)百萬(wàn)個(gè)樣本相比還是太少;其次,即使文檔中包含目標(biāo)語(yǔ)言中的“洗手”一詞,我們也不知道該詞在周圍文本中的確切位置。


對(duì)于低資源語(yǔ)言數(shù)據(jù)集,我們當(dāng)然可以利用機(jī)器翻譯中的一些最新技術(shù),但是需要花費(fèi)一些時(shí)間來(lái)調(diào)整自動(dòng)化的方法,以快速適應(yīng)每種語(yǔ)言配對(duì)中的翻譯模型。此外,我們定位的許多語(yǔ)言都沒有現(xiàn)有的基準(zhǔn),可以與之比較評(píng)估指標(biāo),例如BLEU得分。


于是我選擇嘗試通過(guò)在現(xiàn)有文檔中找到短語(yǔ)本身或短語(yǔ)的組成部分(例如“洗手”或“你的手”)來(lái)構(gòu)建“洗手”一詞。


為了找到這些,我使用Facebook Research的Multilingual Unsupervised and Supervised Embedding(MUSE)庫(kù)訓(xùn)練了每個(gè)跨語(yǔ)言詞向量。MUSE將單語(yǔ)言詞向量作為輸入(我使用fasttext生成了這些向量),并使用對(duì)抗性方法學(xué)習(xí)了從英語(yǔ)到目標(biāo)向量空間的映射,該過(guò)程的輸出是跨語(yǔ)言詞向量。


傳播信息而不是病毒!程序員借助AI,用500多種語(yǔ)言翻譯“洗手”


一旦生成跨語(yǔ)言詞向量后,我們便可以在目標(biāo)語(yǔ)言文檔中找到短語(yǔ)。事實(shí)證明,整個(gè)文檔中非常清楚地使用了“洗臉”一詞以及“手”,“洗你的”等分離的實(shí)例。


對(duì)于每種語(yǔ)言,我都會(huì)在期望該短語(yǔ)出現(xiàn)的區(qū)域中搜索N-gram(基于英語(yǔ)并行匹配中的用法)。使用跨語(yǔ)言詞向量對(duì)N-gram進(jìn)行矢量化處理,并使用各種距離度量將其與英語(yǔ)短語(yǔ)的矢量化版本進(jìn)行比較,向量空間中最接近英語(yǔ)短語(yǔ)的N-gram被確定為目標(biāo)語(yǔ)言匹配。


最后,將與他們的英語(yǔ)對(duì)應(yīng)詞相匹配的組成短語(yǔ)組合在一起,以生成目標(biāo)語(yǔ)言中的“洗手”短語(yǔ)。這種組合再次利用了跨語(yǔ)言向量,以確保以適當(dāng)?shù)姆绞浇M合。


例如,如果我們?cè)谀繕?biāo)語(yǔ)言中匹配了短語(yǔ)“洗腳”,則必須將與“腳”相對(duì)應(yīng)的N-gram替換成與“手”相對(duì)應(yīng)的N-gram,下面是伯利茲·克里奧爾(Belize Kriol)英語(yǔ)的示例:


傳播信息而不是病毒!程序員借助AI,用500多種語(yǔ)言翻譯“洗手”


當(dāng)然,在此匹配過(guò)程中我們做了些假設(shè),所以這個(gè)過(guò)程很可能不會(huì)產(chǎn)生語(yǔ)法上正確的預(yù)測(cè)。例如,我假設(shè)在大多數(shù)語(yǔ)言中,“手””一詞和“腳”一詞都是一個(gè)詞長(zhǎng)(詞之間用空格和標(biāo)點(diǎn)符號(hào)隔開)。這個(gè)假設(shè)肯定跟實(shí)際是有出入的,以后我們可以克服其中的一些局限性并擴(kuò)展該系統(tǒng),但是就目前而言,該方法可以在沒有任何翻譯系統(tǒng)支持的情況下提供相對(duì)可靠的多語(yǔ)言翻譯結(jié)果。


探索一條低數(shù)據(jù)條件下的短語(yǔ)翻譯方法


到目前為止,我已經(jīng)能夠訓(xùn)練544種語(yǔ)言的跨語(yǔ)言詞向量,我使用上面的方法嘗試為找出這些語(yǔ)言 如何表示“洗手”。


因?yàn)槿狈υS多語(yǔ)言對(duì)的一致數(shù)據(jù),所以我使用了單獨(dú)的保留文檔,其中也包含“洗手”的成分,以幫助驗(yàn)證所構(gòu)造短語(yǔ)中的標(biāo)記。


以下是來(lái)自Ethnologue語(yǔ)言統(tǒng)計(jì)數(shù)據(jù)的翻譯樣本:


傳播信息而不是病毒!程序員借助AI,用500多種語(yǔ)言翻譯“洗手”


構(gòu)造的短語(yǔ)類似于參考譯文,或者是“洗手”的替代表達(dá)方式。例如,在保加利亞語(yǔ)中,我預(yù)測(cè)為“умийръцете”,而在Google翻譯中,預(yù)測(cè)為“Измийсиръцете”。但是,如果我使用Google翻譯對(duì)我的預(yù)測(cè)進(jìn)行回譯,我仍然會(huì)得到“洗手”。


在某些不確定性因素下,我無(wú)法與參考譯文(例如,所羅門群島的Pijin [pis]或帶有人工注釋范疇進(jìn)行比較,但我仍然可以驗(yàn)證“洗手”(wasim)和“手”(han) )分別用于其他必然談及洗或手的參考文件中。使用此方法可以驗(yàn)證大約15%的翻譯,我希望在收集參考詞典時(shí)能進(jìn)行更多的驗(yàn)證。


請(qǐng)注意,即使對(duì)于像意大利語(yǔ)這樣的高資源語(yǔ)言,我最多都使用每種語(yǔ)言的大約7000個(gè)句子來(lái)獲得以上翻譯,也不依賴于語(yǔ)言對(duì)之間對(duì)齊的句子。盡管存在數(shù)據(jù)非常匱乏,無(wú)監(jiān)督情景,但對(duì)于兩個(gè)系統(tǒng)都支持的語(yǔ)言,我仍然能夠獲得質(zhì)量與Google Translate相似的短語(yǔ)。


從某種程度上來(lái)說(shuō),這證明了我使用的這種“混合”方法(詞向量的無(wú)監(jiān)督對(duì)齊+基于規(guī)則的匹配)在將短語(yǔ)翻譯成數(shù)據(jù)化很少的語(yǔ)言中,是行之有效的。


相關(guān)報(bào)道:

https://datadan.io/blog/wash-your-hands

推薦內(nèi)容