他起身走到白板前面,沒有回頭,背對著所有人,手中的黑色馬克筆已經毫不猶豫地落在了白板上。
筆尖劃過光滑的板面,發出沙沙的輕響。
陳默手腕沉穩,線條流暢而肯定,沒有絲毫猶豫。
一個簡潔卻完全不同于傳統感知架構的圖形框架迅速在他筆下成型。
“把攝像頭采集的原始視頻流(rawvideo),”陳默一邊畫,一邊清晰地說道,聲音不大,卻字字如錘,敲在每個人的神經上,“直接輸入到一個統一的、基于transforr架構的編碼器(ender)。”
他在白板左側畫了幾個代表攝像頭的抽象符號,用箭頭指向一個代表神經網絡的大方框,在方框里重重寫下了“transforrender”。
“在這個編碼器內部,通過強大的注意力機制(attentionis),讓模型自己學會在像素級別上,跨時間、跨空間、跨攝像頭視角,去建立關聯,去理解三維空間的結構!
讓ai自己‘看’懂這個世界的幾何關系,而不是依賴我們人工預設的規則去分割目標、匹配特征。”
隨著筆尖持續移動,在白板中央畫出一個代表三維空間特征(3dfeatures)的立體區域,并標注了“bev(bird's-eye-view)representation”。
“在模型內部,自然生成統一、稠密的鳥瞰圖(bev)空間表征。
在這個統一的bev空間里,激光雷達點云也好,毫米波雷達目標也好,甚至未來的v2x車路協同信號也好,都只是作為輔助的‘特征’(feature)。
通過跨模態注意力機制(odalattention)自然地融入、補充、增強這個由視覺主導構建的三維空間理解。”
他在bev空間周圍畫上代表激光雷達、毫米波雷達、v2x的符號,用虛線箭頭指向中央的bev空間,并在連接處標注了“attention”。
“最終輸出的是什么?”陳默的筆尖用力地在bev空間下方畫了一個輸出箭頭,重重寫下兩個詞:“oygrid(占據柵格)”、“flowpredi(運動流預測)”。
“不是一個個孤立的、需要后期費力融合的‘目標框’(boundgbox)和‘軌跡線’(trajectory)。
而是這個三維空間中,每一個‘體素’(voxel)是否被占據的概率,以及占據物未來的運動趨勢!
這才是最接近人類駕駛員對周圍環境空間和運動態勢的直覺感知方式。
這才是通往l3級以上高階智能駕駛的真正鑰匙!”
“沙沙”聲停止了。
陳默放下筆,轉過身。
會議室內一片死寂。
落針可聞的死寂。
時間仿佛被按下了暫停鍵。
所有人都僵住了,如同被施了定身法。
會議室里的智能駕駛團隊五人組,反應是最為直接且劇烈。</p>