“另外翻譯過程,應該是模塊化設計,而不是簡單的映射關系。
它應該分成預處理、翻譯、后處理三部分。
預處理包括了分詞和詞形還原,翻譯才是詞典的映射,后處理是對語序進行調整。
這樣來降低單次計算的復雜度,提高規則的復用率!”
林燃的話給了在座研究團隊的成員們非常多的靈感。
就好像之前一直陷在百越的叢林里找不到出路,而現在天上出現一道光指引他們怎么樣才能走出叢林迷宮。
大家都有點迫不及待去嘗試了。
所有研究人員都瘋狂在筆記本上記錄下林燃所說的。
雖然不確定教授的方法是否管用,但有路總比之前沒有好。
再者,如果你不好好記下來,到時候被開除只是教授一句話的事。
“好了剛才我們講了一些簡單的內容,現在才是最難的。
因為ibm的機器不是那么強大,我們只能引入一些比較簡單的統計學方法來提高我們翻譯的準確度。
我把它叫做基于頻率的詞對齊。
這也是我們引入統計模型的核。
我們先要手動分析平行句子,標注俄語詞或短語與英語翻譯的對應關系。
俄語句子mыгoвopnmomnpe
英語翻譯:“
對齊結果:“mы”對應“we”
“гoвopnm”對應“speak”
“o”對應“about”
“mnpe”對應“peace”
然后我們需要對這種對齊的頻率進行統計。
統計每個俄語詞或短語在英語中的對應翻譯出現的頻率。
例如,在語料中,“гoвopnm”在80%的句子中翻譯為“speak”,20%翻譯為“talk”。
這樣對于我們就可以構建概率表了。
將這些概率整理成表格,供機器進行查詢。由于內存空間有限,我們暫時只存儲高頻詞對,像出現次數前1000的詞對,忽略低頻情況。
當翻譯某個詞的時候出現多個選擇,就參考概率表選擇最可能的翻譯。
另外就是統計相鄰詞的共現頻率。mы經常與гoвopnm一起出現,對應wespeak,機器在翻譯的時候則優先選擇這個組合。
通過規則優先處理和統計方法處理模糊情況的方式,來彌補規則的不足!”
林燃從統計學的角度給他們好好上了一課。
不過這只是一個開始。
在座的研究團隊們知道了林燃優化策略的輪廓,具體實踐過程中還有大量的細節要進行調整、嘗試和優化。
不過光是現在所說的引進概率,這一點,在座喬治敦翻譯機器的資深研究員們都有種恍然大悟的感覺。
前面講的優化算法和規則設計什么的,他們感覺有道理,但判斷不了具體實踐是不是真的管用。
但這統計學方法的引入,光靠想象就知道,能夠顯著提升喬治敦翻譯機器的效果。
當天的工作結束后,紅石基地周邊的小餐館里,加爾文和多斯特爾特坐在角落,面前是兩杯當地特色的啤酒。
加爾文放下筆記本,嘆了口氣說:“利昂,我們真的是蠢貨嗎?”
今天聽完之后,加爾文都要懷疑人生了。
林燃提出了一整套的解決方案,這套解決方案里完整也就算了,其中很多點他們都想到過,但想不到要如何實現,另外就是一些他們連想都沒有想到的點。
一整個團隊差不多快十年的研發思路,不如林燃一下午的干貨多。
加爾文已經懷疑人生了。
“教授的想法不是超前,而是太實際了。
你會感覺天馬行空,但實際上結合在一起想想,又會覺得無比的實際。