在另一個世界,曾經在標準圖像標注集Image上,取得過舉世矚目的成就。
一般的全連接神經網絡,是把輸入數據看做一維的數組。
處理圖形、圖像時,一行、一行地讀取像素點,然后拼接成一串數據。
這樣一來,就忽略了行與行之間的二維關系。
而則是通過“卷積核”對圖片進行濾波,從而提取圖片的特征。
所謂卷積核,就是一個N行N列的數字矩陣。
卷積的過程,其實就是一個壓縮圖片的過程。
而“卷積核”的本質,就是一個二維的濾波器。
這樣的做法,很好地保留了鄰近像素之間的關聯情況,所以在大型圖像處理方面,往往會有非常出色的表現。
和其他神經網絡相比,需要的參數比較少,使用起來更加迅速、有效。
在訓練時,采用的是和BP網絡相似的“反向傳播”技巧。
一個經典的網絡,通常包括輸入層、卷積層、池化層、全連接層、輸出層或者徑向基層。
其中涉及到一些概念,比如“池化”、“局部感受野”、“共享權值”……
江寒原本對這些東西,只有個大概的了解,理解得并不算特別透徹。
這樣一來,在研究的時候,很多東西都要現場推導。
因此這篇論文是他寫得最費勁的一篇,足足花了一個多星期,才打通了全部障礙,形成了初步的腹稿。
傳統的圖像處理算法,一般都要進行預處理,比如F,如果不對圖像進行壓縮,那么計算量將會非常巨大,甚至根本無法實施。
但對于來說,預處理并不是必要的,很多時候,甚至可以直接用原始圖像,作為輸入數據。
所以,的實用價值也是非常顯著的。
江寒所知道的,就有手寫識別、語音識別、物體檢測、人臉識別等許多應用方向。
“當年”震驚世界的圍棋AI程序,阿法狗,其核心中也包含了卷積網絡。
可以說,有了卷積神經網絡,計算機視覺這個領域,才迎來了革命性的進步……
江寒花了好幾天時間,終于將這篇論文寫了出來。
反復校對,感覺沒什么問題之后,就投給了一區期刊ICML(IionalferenaeLearning)。
這時,距離新年只剩下三天。
就在這樣的忙碌中,時間走到了2012年最后一天。
12月31日晚上。
江寒臨睡前,忽然發現信息欄里跳出了一行紅字提示。
【學術點已償清,系統UI重啟中……】
【重啟成功……】
【震驚商城重新激活,虛擬空間已開放……】
【界面重組中……重組成功】
江寒打開系統UI面板。
【學術點:1,24】。
可用的學術點終于不再是個負數了。
江寒欣喜不已。
然而,就在這時……
【警告:宿主剩余壽命已不足十年!】
【注意:這不是顯示BUG,這不是BUG,這不是!】