“教授,你不是做語言翻譯的,語言是規則的游戲,概率這太不靠譜了。”保羅·加爾文還想再掙扎一下。
當然他確實也不信翻譯和統計學能扯上什么關系。
詞語之間一一對應。
英文單詞和俄語單詞一一對應,直接直譯,擴充語料庫。
在當時的思維里,這才是正道。
也就是所謂窮舉法。
把所有的詞語做好一一對應之后,自動翻譯也就實現了。
統計學,概率游戲,不談如果林燃是對的,他們的無能會暴露無遺,光是林燃提到的改進原理從直覺上來說就是錯誤的。
簡單來說,反直覺。
就像在gpt大模型出來之前,大家都覺得算法最重要。
gpt出來之后,大家開始都一窩蜂力大飛磚。
等到deepseek的時候,好像算法有點用。
哪怕是頂級的研究人員,也會有盲從的問題,會有迷茫、找不到方向、走不出來的情況。
在這個計算機的混沌年代,會這樣再正常不過了。
“精確?精確意味著出錯,現在的計算機遠遠達不到精確這一點。
你們難道不清楚,你們在54年之所以演示出了良好的效果,是因為那些俄語句子是你們精挑細選出來的。
實際自然語言的復雜性要遠超你們預期。
你們只做了語料庫的擴展,規則覆蓋都沒有做,上下文依賴處理也沒有。
你們能比我更懂機器翻譯?”
林燃怒吼道:“你們做了九年都沒有進展,現在立刻馬上按照我說的去做!”
林燃的地位、實力和權力擺在這,他們根本沒有拒絕的選擇。
沃森會信林燃就不說了,畢竟深藍項目才結束,國防部的麥克納馬拉那更是林燃說什么就是什么。
你們這幫搞計算機的能比數學大師更懂計算機?
林燃在博弈論和統計學上展現出來的風采,麥克納馬拉還沒忘呢。
ibm的ceo支持林燃,國防部部長支持林燃,喬治敦大學的研究團隊只能被按在地上摩擦。
“我們要做的一共五點,優化算法和規則設計,擴充語料和詞匯,改進數據處理的效率,引入統計方法和硬件最大化利用。
其中改進數據處理效率和硬件最大化利用由ibm方面負責。
另外三點則由喬治敦大學的成員們負責。
我們先來談優化算法和規則設計。
你們一直的問題在于,你們對于規則集的擴張沒有引入更加細化的句法規則。
因為存儲有限,你們覺得擴充對照詞匯庫就夠了。
實際上句法規則顯得更加重要。
你們需要做到,引進常見的高頻句型。
對上下文進行依賴處理。使詞匯翻譯考慮前后詞,通過有限的上下文窗口來減少歧義。
比如cвet同時有光和世界的意思。
這個完全可以根據前詞判斷是光還是世界。”
沃森弱弱提醒道:“教授,你還會俄語啊?”
林燃一副理所當然的樣子:“當然,我都和科羅廖夫見了兩面,我不會俄語怎么和他交流的?
我同時會俄語、德語、英語和漢語。”
多語言大師的身份,給林燃的理論增添了幾分可信度。
在這個時代,科學家們會幾門語言并不奇怪。
當然一些敏感部門會提高對你的懷疑。
以前面提到的約翰·麥卡錫為例,他就精通俄語,從小接受俄語教育長大,盡管他出生在阿美莉卡。