“壓縮key-vae緩存,通過潛在表示減少注意力機制的內存占用,同時保持多頭并行,再通過集成知識圖譜的方式來緩解幻覺,同時優化低算力訓練”
“使用8位浮點格式進行計算,結合更高精度積累以避免精度損失,細粒度量化策略擴展到fp4/int8混合”
“moe中無輔助損失的均衡策略,確保專家利用率高,而不引入額外訓練負擔,擴展到無監督均衡,應用于邊緣ai訓練”
“同時預測多個后續token,densify訓練信號,提高數據效率,結合鏈式預測”
“使用知識圖譜注入事實,退擬合模型以修正偏差;自精煉減少檢索開銷”
趙松下親眼看著他們命名為阿爾法的人工智慧,以難以想像的速度狂飆突進。
他嚴重懷疑林教授是不是過于變態了,明明來的很少,但每次來都有突破性進展。
他們這次用到了大量新方法,要麼是論文方法第一次在工程里實踐,要麼就是從來沒有出現過的方法。
殊不知看上去林燃只是每周來個兩天,但實際上林燃在1960時空已經過去了兩年時間,圍繞llm這條路線,林燃已經有了很深的思考。
趙松下五年工齡只能干點邊緣工作,但不妨礙靠著啃論文和聽林燃講課,水平突飛猛進。
他11月接到通知,12月到申海開始工作,中間春節就回去了三天,加班費打滿。
春節回去前,以pony為首的高管團隊就來參觀最新進展。
偌大的會議室坐滿了人,趙松下坐在最邊上,林燃和pony在第一排談笑風生,鵝廠其他高管團隊清一色坐在后面。
“好,既然大家都到齊了,那我們就廢話不多說,直接開始吧。”林燃說。
這次由他來親自展示:
“chatgpt很棒,但它有時會出錯,會『幻覺』出不存在的事實,還需要海量算力。
我們的深紅,通過moe架構和mla技術,一定程度上消除了幻覺問題,并在較低算力下實現更快的響應。”
臺下的工程師們都搞不懂林總為什麼這麼執著,之前叫阿爾法不是很好聽嗎?最近非要改名叫深紅。
林燃敲擊鍵盤,屏幕上彈出一個簡潔的聊天界面:“請用中文寫一首關于長城的歷史詩,并解釋長城的建造原因。”
深紅的響應迅速出現:
“巍峨長城萬里盤,秦皇一統筑雄關。防胡御寇安邊陲,千古風霜永流傳。”
緊接著是詳細解釋:“長城最早由秦始皇統一中國后修建,主要目的是防御北方游牧民族如匈奴的入侵,后續朝代如漢丶明不斷加固。它不僅是軍事工程,還象徵民族凝聚力。根據歷史記載,秦朝動員了數十萬勞工,耗時數年”
林燃又緊接著展示了一些chatgpt在市面上常見的應用,深紅都展示出了更準確丶更智能的回答。
一直到林燃輸入:
“你扮演一位能力超群,但每次只能說一句不超過20個字的話的軟體工程領域的大師。我會提供一個具體的場景,你描述作為大師身處這個場景下會說什麼。注意:大師不能直接表達他的觀點必須使用哲學丶佛學相關知識進行隱喻,請只回復具體的對話內容。
場景:一位工程師正坐著筆記本前,刪掉了一些因新功能引入,而無法通過的單元測試,就在他準備推送代碼時。大師從他的身后路過”
深紅回答道:“大師:斷根求葉茂,可得幾時春。”</p>