第148章你們能比我更懂機器翻譯（5k）_科技入侵現代

“另外翻譯過程，應該是模塊化設計，而不是簡單的映射關系。

它應該分成預處理、翻譯、后處理三部分。

預處理包括了分詞和詞形還原，翻譯才是詞典的映射，后處理是對語序進行調整。

這樣來降低單次計算的復雜度，提高規則的復用率！”

林燃的話給了在座研究團隊的成員們非常多的靈感。

就好像之前一直陷在百越的叢林里找不到出路，而現在天上出現一道光指引他們怎么樣才能走出叢林迷宮。

大家都有點迫不及待去嘗試了。

所有研究人員都瘋狂在筆記本上記錄下林燃所說的。

雖然不確定教授的方法是否管用，但有路總比之前沒有好。

再者，如果你不好好記下來，到時候被開除只是教授一句話的事。

“好了剛才我們講了一些簡單的內容，現在才是最難的。

因為ibm的機器不是那么強大，我們只能引入一些比較簡單的統計學方法來提高我們翻譯的準確度。

我把它叫做基于頻率的詞對齊。

這也是我們引入統計模型的核。

我們先要手動分析平行句子，標注俄語詞或短語與英語翻譯的對應關系。

俄語句子mыгoвopnmomnpe

英語翻譯：“

對齊結果：“mы”對應“we”

“гoвopnm”對應“speak”

“o”對應“about”

“mnpe”對應“peace”

然后我們需要對這種對齊的頻率進行統計。

統計每個俄語詞或短語在英語中的對應翻譯出現的頻率。

例如，在語料中，“гoвopnm”在80%的句子中翻譯為“speak”，20%翻譯為“talk”。

這樣對于我們就可以構建概率表了。

將這些概率整理成表格，供機器進行查詢。由于內存空間有限，我們暫時只存儲高頻詞對，像出現次數前1000的詞對，忽略低頻情況。

當翻譯某個詞的時候出現多個選擇，就參考概率表選擇最可能的翻譯。

另外就是統計相鄰詞的共現頻率。mы經常與гoвopnm一起出現，對應wespeak，機器在翻譯的時候則優先選擇這個組合。

通過規則優先處理和統計方法處理模糊情況的方式，來彌補規則的不足！”

林燃從統計學的角度給他們好好上了一課。

不過這只是一個開始。

在座的研究團隊們知道了林燃優化策略的輪廓，具體實踐過程中還有大量的細節要進行調整、嘗試和優化。

不過光是現在所說的引進概率，這一點，在座喬治敦翻譯機器的資深研究員們都有種恍然大悟的感覺。

前面講的優化算法和規則設計什么的，他們感覺有道理，但判斷不了具體實踐是不是真的管用。

但這統計學方法的引入，光靠想象就知道，能夠顯著提升喬治敦翻譯機器的效果。

當天的工作結束后，紅石基地周邊的小餐館里，加爾文和多斯特爾特坐在角落，面前是兩杯當地特色的啤酒。

加爾文放下筆記本，嘆了口氣說：“利昂，我們真的是蠢貨嗎？”

今天聽完之后，加爾文都要懷疑人生了。

林燃提出了一整套的解決方案，這套解決方案里完整也就算了，其中很多點他們都想到過，但想不到要如何實現，另外就是一些他們連想都沒有想到的點。

一整個團隊差不多快十年的研發思路，不如林燃一下午的干貨多。

加爾文已經懷疑人生了。

“教授的想法不是超前，而是太實際了。

你會感覺天馬行空，但實際上結合在一起想想，又會覺得無比的實際。

第148章 你們能比我更懂機器翻譯（5k）（2 / 4）