吳財滿臉好奇,追問道:“芯片的問題都解決了,難道還有其他難題?”
葉老微微嘆了口氣,神色中帶著幾分憂慮:“還不是算力的問題嘛!
就說咱們的gpu制造,和星耀相比,差距還很大。
鷹尾巴的幻光100芯片,擁有800億晶體管,80gb顯存,帶寬高達3tb\/s,專為超大數據、超復雜的計算任務設計,像ai訓練、大規模計算、氣候模擬這些,它都能輕松應對。
反觀咱們國產的gpu,明月的輝光9系列,性能大概只和鷹尾巴幻光1050相當,橘子的耀光910b算力勉強能和鷹尾巴的幻影100較量一下,可跟幻光100比起來,尤其是在顯存和帶寬上,差距就太明顯了,耀光910b的帶寬只有56gb\/s。
不僅如此,芯片之間的互聯技術上,幻光100支持高效的多gpu協作,能讓多個芯片同時工作,效率能提升好幾倍,國產gpu在這方面技術差得遠,帶寬低,芯片間協作能力不行,想做高效并行計算,難如登天。”
吳財若有所思地點點頭,又問道:“你說的是ai領域嗎?”
葉老肯定地點點頭:“沒錯,就是ai。
雖說在工業生產和應用領域,咱們國家的ai技術比山鷹國領先,像國內很多工廠引入ai實現生產流程自動化,提升了生產效率和產品質量,港口利用ai優化貨物裝卸和運輸調度,提高了運營效率。
但在生成式ai方面,因為算力不足,和山鷹國還是有不小的差距。
像訓練山鷹目前最強那種超大規模的語言模型,需要大量的gpu算力支持,才能完成海量數據的處理和復雜模型的訓練,從而實現自然語言處理、文本生成、對話交互等強大功能。
咱們由于算力受限,在訓練同等規模和復雜度的模型時,就會面臨效率低、成本高,甚至難以實現的問題,這就導致生成式ai的發展受到制約。”
吳財皺眉問道:“既然我們的算力受限,為什么不多弄點gpu堆呢?”
葉老無奈地搖了搖頭,說道:“吳財啊,你這話說起來簡單,可實際操作起來,那成本高得超乎想象。
就說要趕超山鷹目前最強大語言模型cgt吧,咱們先從算力需求來講。”
“cgt訓練所使用的算力是極其龐大的。據估算,它訓練一次的算力消耗,大概需要數百萬個鷹尾巴的幻影100運行數周時間。咱們就算找到性能相當的國產gpu來替代,成本也低不了。
以鷹尾巴的幻影100為例,一顆市場價格大概在1萬刀左右,這還不算配套的服務器、散熱設備等周邊硬件成本。”
“假設我們要搭建一個算力集群來追趕cgt的訓練水平,保守估計需要500萬個gpu。
光gpu采購成本就得500億刀,這還只是硬件的基礎投入。”
“除了硬件,還有運行成本。這些gpu需要24小時不間斷運行,電力消耗就是天文數字。
按照一個gpu一天消耗3度電來算,500萬個gpu一天就需要1500萬度電。以工業用電每度1元來計算,一天的電費就是1500萬元,一年下來電費就得54.75億元。
而且,數據中心的維護、管理,專業技術人員的薪酬等,每年又是一筆巨額開支,至少幾十億。”
“另外,訓練過程中,為了保證數據的準確性和多樣性,還需要購買和處理海量的數據,數據的采集、清洗、標注等環節,又得花費大量資金,至少數十億甚至上百億美元。
這樣算下來,從硬件采購到運行維護,再到數據處理等一系列環節,想要達到趕超cgt的算力水平,前期投入至少得1000億刀以上,每年的持續運營成本也得幾百億刀。”