對于許多人來說,這場熱鬧也就看到這里了,但對從業者、研發人員來說,真正的部分才剛剛開始,不論易科還是谷歌都在深度學習d領域有很深的研究,這種圍棋對弈只是展露出的表象,內里的運轉與思考才是更讓人重視的。
吳恩達作為易科「ven」項目的負責人之一,與谷歌旗下公司的席爾瓦就d的模型邏輯進行了交流。
不管太白還是阿爾法,它們都是基于卷積神經網絡的發展而來,這一基礎是類似的,而它的突破源于2012年aex、iya和hton合作發表的關于aex深度卷積神經網絡的論文,也正是在這之后,相關的研究出現了爆炸式的增長。
吳恩達與席爾瓦談的是在aex之后的架構創新,是將傳統的搜索算法與深度學習模型的有效整合,以及,整個團隊在局部感受野、參數共享與稀疏連接、平移不變性這些方面做出的努力。
這種易科與谷歌以及場下嘉賓的交流極其愉快,也讓方卓頗為滿意,他雖然不懂,但瞧著這樣的場面就覺得知識被塞進了腦子里。
只是,等到第二天,當吳恩達提出團隊在研發上的困惑時,激烈的辯論到來了。
易科是有「siri」這樣的語音助手作為人工智能的實踐,而吳恩達的團隊不僅在做卷積神經網絡的研究,也在做循環神經網絡rnn的研究,他們認為后者更適合與語音助手相結合,但效果并不算很好,完全達不到想要的成績。
問題出在哪里
吳恩達表述了困惑,也談了談易科內部的解決方向。
參會的一部分人贊同易科的解題思路,但谷歌方面卻出現了不同的聲音。
「為什么非要使用循環神經網絡」谷歌的烏思克爾特本來正在休假,但因為對d的交流感興趣便報名過來,「為什么不試試自注意力sefattention我認為它對n領域將會有更優秀的改變。」
「sefattention可以進行更好的并行計算能力,而不是像rnn那樣進行順序處理,它還能直接比較序列中任意兩個位置的向量表示,這樣就能更有效的捕捉和利用長距離依賴關系,但rnn不行」
「rnn雖然理論上也能捕捉長距離依賴,但實際上往往因梯度消失或爆炸問題而難以實現」
烏思克爾特研究的是谷歌的機器翻譯改進方法,他的父親就是計算語言學的教授,盡管剛開始進入谷歌時對語言翻譯的工作很不喜歡,但最終還是專注于這一領域的研究,而他近期正在琢磨的便是「自注意力sefattention」在相關領域的改善。
吳恩達很快明白這位谷歌研究員的意思,也在幾經思索后給予反駁「自注意力沒有顯式地編碼位置信息,這就意味著如果以它為核心的模型無法區分序列中相同詞語在不同位置的意義差異,而在自然語言的處理中,詞語的語義又與位置緊密相關。」
「而且,自注意力模型必然因為序列中每對元素計算的注意力權重而有巨大的參數量,這極可能導致過擬合。」
他這邊剛說話,谷歌自家d的席爾瓦也反駁了烏思克爾特提出的新路線,其中一個重要原因在于rnn的循環結構太符合大家對序列數據處理的理解,即當前狀態依賴于過去的信息,而自注意力的全局依賴一看就不如rnn直觀。
易科與谷歌的兩大領導者都批評了自注意力sefat
tention,但烏思克爾特并不服氣,他直接登臺闡述自己更多的想法。
而且,針對吳恩達與席爾瓦抨擊的缺點也給出一些解決思路,比如,引入位置編碼,比如,進行多頭注意力的研究。
有人覺得眼前一亮,有人覺得異想天開,還有人現場進行快速的分析和演算。
第一排的方卓極其茫然,他扭頭詢問旁邊沉思的英偉達掌門人黃仁勛「他們在討論什么」
「烏思克爾特說,gu是最適合深度學習技術的硬件。」黃仁勛給出一句總結。
方卓「」
他納悶道「我怎么完全沒聽到類似的表述」