機器翻譯技術雖有改進,但仍然會出現錯誤

手機翻譯軟件技術越來越強,但遠遠稱不上完美,人工智能和深度學習能解決翻譯誤區嗎?

今年夏天在俄羅斯舉辦的世界杯足球賽期間,谷歌翻譯使用流量爆出一波高峰,因為從世界各地而來的球迷和俄羅斯人彼此溝通需要用到這個翻譯軟件。

谷歌的數據顯示,世界杯期間所有的翻譯詞組當中,「體育場」和「啤酒」這兩個字的使用量特別高。

在幾乎人人手裏都有一支智能手機的時代,誰還需要查找字典或外語常用語手冊,有三分之二16至34歲的人出國旅遊的時候使用手機翻譯軟件解決語言問題。

但手機翻譯軟件絶非完美,有五分之一的人出國旅遊時因為手機翻譯錯誤而導致溝通障礙或彼此誤解,尤其是非主流語言的機器翻譯技術仍未完善。

除了翻譯問題之外,電腦程式還會出現技術錯誤,有網友就發現輸入「dog」一詞18次就會出現不知所云的英語翻譯。

「低級錯誤」

那麼,為什麼在現在這個超級電腦和機器深度學習的時代,翻譯還會出現一些「低級錯誤」呢?

其中一個大問題就是,同一個單字通常會有超過一個意思,同形異義字不但造成旅遊者的困擾,有時候連政府公文都會出錯。

例如,今年7月英國政府的脫歐白皮書裏面提到了「democratic exercise」(民主制度的運用),翻譯成德文就成了「demokratische Übung」,德語「Übung」一詞指的是肢體鍛煉,而非權利的行使。

人類水平

為了解決類似的問題,翻譯軟件持續優化機器學習的方法,軟件會使用一些已經翻譯好的文字,還會參考上下文來選擇一個字詞最適當的翻譯。

今年早些時候,微軟公司宣佈他們的人工智能翻譯質量已經到達人類水平,他們將一組中文新聞用機器翻譯成英文,一個獨立的專家小組評估後發現AI翻譯結果和兩名專業的人類翻譯者翻譯的結果不相上下。

微軟表示,他們能做到這個突破,最重要的是他們使用了人工智能深度神經網絡的幫助,以及參考大規模的機器翻譯數據。

簡單來說,人工智能翻譯先得出一個「草稿」,這個草稿再經過不斷的完善過程,進行文本對照、比較、學習,和人類翻譯的過程非常相似。

黃學東表示,機器翻譯靠的是學習語言的規則

人工智能翻譯軟件能夠根據它之前學習過的文件,來對一個語言掌握到大致的文法概念。

微軟研究(Microsoft Research)的語音和語言技術研究員黃學東表示,人工智能翻譯技術使用的不是語言之間的翻譯規則,而是將翻譯作為一個問題來解決,學習人工翻譯不同語言文字之間的轉換。

但是微軟也承認,翻譯新聞文件和翻譯人類即時交談是不同的,後者使用更多的語言習慣用法,不同的說話口音和不同的方言更增添困難度。

去年,谷歌推出了無線翻譯耳機「Pixel Buds」,被戲稱為能即時翻譯40種語言的「翻譯神器」,但是它的功能和使用性能還是有瑕疵,非主流語言問題也比較大。

谷歌无线翻译耳机被戏称为「翻译神器」

這是因為非主流語言不存在大量的翻譯文本,因此人工智能翻譯技術也「無從學起」,例如把僧伽羅語(Sinhala)翻譯成普什圖語(Pashto),類似這樣的問題面臨更大的挑戰。

當然翻譯軟件可以把僧伽羅語先翻譯成英語,然後再翻譯成普什圖語,但這一過程無疑地更容易出現之前說過的翻譯錯誤。

臉書人工智能研究員蘭普爾(Guillaume Lample)表示,如果能夠收集到夠多的翻譯文本,就有辦法解決小語種的翻譯問題。

他說,同樣的道理,如果小語種的翻譯問題能夠解決,那麼也許有一天人類也能和外星人交談。

「我們也許有一天能學會和外星人溝通對話,但首先我們必須說很多話,使用我們常用的語言。」

(Visited 9 times, 1 visits today)