AI可以將歐洲罕見和瀕危語言避免滅絕嗎?

很快就更容易看到全球200種口語較小的語言中的Facebook和Instagram帖子。

梅塔(Meta)在本月發表的一篇論文中宣布了梅塔(Meta)的《無語言》(NLLB)項目,稱他們擴展了原始技術。

該項目包括十幾種“低資源”歐洲語言,例如蘇格蘭蓋爾語,加利西亞語,愛爾蘭語,lingurian,波斯尼亞,冰島和威爾士語。

根據Meta的說法,這是一種可以使用的數據句子少於一百萬的語言。

專家說,為了改善服務,Meta應該諮詢母語者和語言專家,因為該工具仍然需要工作。

該項目如何工作

Meta使用Opus存儲庫中的數據訓練其人工智能(AI),這是一個開源平台,該平台具有一系列真實的語音文本或可以編寫機器學習的各種語言的真實文本或寫作。

數據集的貢獻者是自然語言處理的專家(NLP):AI研究的子集,使計算機具有翻譯和理解人類語言的能力。

梅塔(Meta)表示,他們還使用了來自Wikipedia等源數據庫中的挖掘數據組合。

根據他們的網站,數據用於創建META所謂的多語言語言模型(MLM),根據其網站,AI可以在其中翻譯“在任何一對……不依賴英語數據的語言之間”。

NLLB團隊通過他們創建的人類翻譯句子的基準評估了他們的翻譯質量,這也是開源的。這包括一個“毒性”單詞或短語的列表,這些單詞或短語可以教導該軟件在翻譯文本時過濾掉。

根據他們的最新論文,NLLB團隊將翻譯的準確性提高了44%,該模型於2020年發布。

當該技術完全實施時,META估計每天將在Facebook News Feed,Instagram和其他平台上進行超過250億個翻譯。

“與人民交談”

愛丁堡大學蓋爾語民族學和語言學教授威廉·蘭姆(William Lamb)是蘇格蘭蓋爾語(Scottish Gaelic)的專家,這是Meta在其NLLB項目中確定的低資源語言之一。

蘇格蘭約有2.5%的人口,大約有13萬人,他告訴2022年的人口普查,他們在13世紀的凱爾特語中具有一些技能。

加拿大東部也有大約2,000名蓋爾語揚聲器,這是一種少數派語言。聯合國教科文組織將這種語言歸類為“威脅”,因為很少有人經常講話。

蘭姆指出,儘管他們使用的“心臟在正確的位置”,但梅塔在蘇格蘭蓋爾語中的翻譯“還不是很好”。

蘭姆說:“他們應該做的……如果他們真的想改善翻譯,那就是與人們交談,人們仍然活著並呼吸這種語言。”

說起來容易做起來難,羔羊繼續說。大多數母語人士都在70年代,並且不使用計算機,而年輕的演講者則“習慣性地使用蓋爾語,而不是祖父母的方式”。

一個很好的替代方法是,Meta與BBC達成許可協議,BBC通過在其中創建高質量的在線內容來維護該語言。

“這需要由專家完成”

西班牙聖地亞哥大學AI教授AlbertoBugarín-Diz認為,像Lamb這樣的語言學家應該與大型科技公司合作,以完善他們可用的數據集。

Bugarin-Diz說:“這需要由可以修改文本,糾正和使用我們可以使用的元數據更新的專家來完成。”

他補充說:“來自人文科學和工程師等技術背景的人需要共同努力,這是一個真正的需求。”

Meta在使用Wikipedia時,Bugarin-Diz繼續說,這是一個優勢,因為數據將反映“人生的幾乎每個方面”,這意味著語言的質量比使用更正式的文本要好得多。

但是,Bugarin-Diz建議Meta和其他AI公司花時間在線尋找優質數據,然後仔細研究使用它所需的法律要求,而無需違反知識產權法。

同時,蘭姆說,除非元數據對數據集進行一些更改,否則他不會建議人們使用它,因為數據中的錯誤。

蘭姆說:“我不會說他們的翻譯能力正處於工具實際上有用的時刻。”

“我不鼓勵任何人作為可靠的語言工具;我認為他們也會提前這樣說。”

Bugarín-Diz採取了不同的立場。

他認為,如果沒有人使用元翻譯,他們“不願意”花費時間和資源來改善它們。

像其他AI工具一樣,Bugarin-Diz認為,使用該技術之前的弱點是一個問題。