目前就我了解到的情況,類似研究數據非常稀缺,最多的數據也要少于4000個樣本。
特征工程是ai模型成功的關鍵,但其設計在材料屬性預測中尤為復雜。
物理元素性質,像原子量、電負性這些和材料結構,像晶格類型、鍵長這些,都要轉化為數值特征,提供給模型學習。
其中特征選擇直接影響模型準確性,錯誤選擇可能導致性能下降。
目前整個過程仍然需要依賴研究人員去手動處理特征值,去做篩查。
非常依賴研究者經驗和直覺,極可能遺漏重要信息。
nature去年的子刊他們整出了一個modnet的學習框架,就是一個材料屬性預測的機器學習框架。
(《通過特征選擇和modnet的聯合學習實現有限數據集的材料屬性預測》于2021年6月3日刊登在nature子刊npj上)
他們發現要預測材料的振動熵時,反向鍵長和p價電子是關鍵特征,但手動識別這些特征需深厚領域知識。
這些數據的提取需要有足夠豐富經驗的科研民工來做,同時還要確保數據的精確,降低誤差,整個過程非常繁瑣。
因為我們要做的東西遠比他們更復雜,我們要做的是一個更大的,更復雜的模型,特征數據的歸納總結和收集,速度肯定很慢。
畢竟這件事無法像網絡空間的數據那樣,可以通過特征值剔除,各種辦法來確保數據的準確,它的數據用計算機術語來說,從外表看上去是結構化數據,但內核卻非常的不結構化。
因此按照我的估計,至少前五年,前五年華為的計算卡都夠用。
至于五年之后,華為的計算卡也會與時俱進,加上我們本身也會和華為合作來推進他們計算卡的進度。”
pony聽完后大致能夠理清思路,不說完全聽懂,畢竟你想讓一個五十歲的人聽懂振動熵、反向鍵長和p價電子這些東西,那還是太為難pony了。
但林燃要表達的點,他都理解了。
pony說道:“林生,我沒有反對和華為合作的意思,同樣的,我們面臨的形勢我很清楚,固然有寒武紀、阿里、百度這些廠商都有自己的計算卡,但一方面他們的計算卡代工需要依賴臺積電,另外一方面在生態上,華為走的最遠,從長期來看,他們在長期構建生態這件事上有著最大的決心和能力。
我只是感慨,我們當前面臨的局面困難。
林生,我有一個問題,我們是不是應該和一些高校的化學系、物理系之類的搞橫向課題?讓他們來幫我們完善我們的數據池?”
此時市面上不止華為有計算卡,pony提到的哪幾家都有在推,但計算卡這玩意不僅僅是看硬件,和硬件配套的軟件生態也同樣重要。
英偉達為什么如此強勢,amd不也有在造ai芯片嗎?為什么都是阿美利肯企業,amd的計算卡威脅不了英偉達?英偉達的護城河在于它常年培養起來圍繞著計算卡名為cuda的生態。
同樣,華為有建鴻蒙的決心,在計算卡這個領域,他們就是最好的選擇。
加上大家都是阿美利肯的眼中釘肉中刺,大家報團取暖再正常不過。
林燃說:“當然,我有想過,但不是現在。”
阿波羅登月都能薅學生羊毛,在建材料科學人工智能預測模型這件事上又怎么可能不利用華國廣大的理工科學生呢。
這都是優質的純天然苦力。
與其幫導師做橫向課題,還不如來給阿波羅科技做橫向課題,后者好歹真的能改變世界。