馬斯克還在短暫思考。
youtube上的彈幕已經炸鍋了,“”
“200美元的激光雷達”
“不是,200美元還不到”
清一色的問號。
在阿美莉卡記憶里,他們還停留在激光雷達動輒大幾萬美元一個的印象中。
velodyne的激光雷達單價高達七萬五到八萬美元之間,當然這是幾年前的價格。
但哪怕是去年2023年,全年下來激光雷達的出貨平均價也是4000美元左右。
現在華國的大佬出來說,兩百美元不到一個,為啥不用
可想而知,對知道價格的阿美莉卡網友的沖擊,數字擺在這,堪比小紅書對賬的沖擊力了。
“蝙蝠確實用聲吶,但人類不是蝙蝠。
我們要造的是給人類開的車,而不是給蝙蝠開的車。
人類有眼睛,大腦就是用視覺在駕駛。
你想讓車學會像人一樣駕駛,那就用人類的感知方式。
你說激光雷達便宜了,是的,比三年前便宜很多,但關鍵不在價格。
關鍵是它沒能解決核心問題:理解世界。
激光雷達給你的是點云,一個距離場,它不知道交通燈是紅的還是綠的,它不知道這個是小孩還是塑料袋。
它只是一個更貴的尺子。
在人工智能領域,多數據不等于好數據。
我們當然可以往模型里灌更多輸入,但信息要有信息熵,要有對理解世界有用的信號。
激光雷達在高速公路上,或者高度規則化的場景下可能有用,但在日常城市駕駛,它反而會讓系統依賴一個捷徑,不去構建真正的世界模型。
你提到大語言模型,對,規模很重要。
但語言模型的前提是人類語言本身就包含了整個世界的復雜性,視覺輸入也一樣,視覺包含了駕駛所需的全部復雜性。
如果我們加進激光雷達,神經網絡可能會依賴‘簡化的答案’,而不去學習真正困難但關鍵的部分。
所以,這不是偷懶。
恰恰相反,純視覺是更難的路線,需要更強的網絡,更大的算力,更聰明的訓練,激光雷達是捷徑,但走捷徑你到不了終點。”
馬斯克攤手笑道:“如果你愿意在你的車頂上裝一堆傳感器,造一輛‘科研用的高價玩具’,當然可以。
但如果你想讓全世界幾千萬輛車都能自動駕駛,就必須走視覺路線,規模化的未來只有一條路。”
林燃說:“多模態多模態,如果連視覺和傳感器的數據都沒有辦法融入到同一個世界里,那又談什么多模態。
如果我們真的追求的是簡單的,單一的,人是怎么理解世界,人工智能或者機器人就應該要怎么理解世界,這是一種傲慢,人類也不應該有汽車、有飛機、有火車,人類就應該只依賴雙腿,不斷磨煉自己的雙腿。
現在的大模型,也不應該用各種結構化、非結構化的數據進行訓練,它不但能對話還能輸出畫面、動畫。
從數據到圖像再到動畫,ll的大模型輸出的越來越多元,反而自動駕駛還抱著原教旨主義的人工智能,認為就應該只有視覺。
現在如果我們有一個框架,能夠把激光雷達的數據融入到整個模型里,真正意義上實現廣義的自動駕駛,埃隆,你會認為你是錯的嗎”林燃問道。
馬斯克對于前面都已經習慣了,這些反駁的觀點,他在后臺、在推特上,甚至在特斯拉內部都能時常看到。