江寒在網上搜索了一番,參考了一下同類軟件。
最后他決定,采用市場接受度較高的免費下載、試用模式。
超過試用次數和時間后,只要花費58元RMB,購買注冊碼,就可以終身使用。
在軟件保護策略上,江寒毫不猶豫地啟動了“壞蘋果2代”技術。
經過加密后,“極光OCR”的可執行文件,以及動態鏈接庫等要害部位,堪稱堅不可摧。
江寒又用InstallShieldWizard,制作出一個1G大小的安裝包,然后掛到了大江官網上。
技術上的事情,至此全部搞定。
至于其他的事情,全盤委托給老江和夏如冰就好……
江寒想了想,又訪問了一下布置在地下機房里的數據服務器。
過了這么多天,他為ISLVRC2013圖像識別挑戰賽,打造的深度網絡,也終于完成了訓練。
江寒將代碼中關于訓練的部分,暫時全部剔除,然后將驗證集數據加載進來,跑了一下。
結果還算不錯,top-1項目的識別正確率,達到了62.7%,top-5項目中,更是達到了85.4%的正確率。
所謂top-1,就是對于每張要分類的圖片,只允許給出唯一答案,對就對,錯就錯。
至于top-5,要求就比較寬松了,每張圖可以給出5種預測,有一個與標簽相同,就算分類正確。
現在這個成績,已經相當接近去年的冠軍算法了。
但江寒怎么可能就此滿足呢?
他深入思考了一番,重新編寫了預測函數。
這一次,他使用了一個小技巧。
將待分類的圖片加載到內存中之后,先進行預處理。
從圖片的四個角,以及中間部分,依次進行矩形摳圖,這樣就得到了5張子圖片。
接下來,再對這5張子圖片,依次進行鏡像操作,子圖片的總數就變成了10。
最后再對這10張圖片,分別進行預測,再把10個結果的平均值,作為網絡的最后輸出。
這可以有效地防止程序“發呆”,以得到更接近正確答案的預測。
不出所料,使用了這個技巧后,深度在驗證集上的表現,果然改善了不少。
top-1上的正確率,足足提高了2%,在top-5上的正確率,也提高了1.84%。
不過,感覺還有進一步提升的空間。
江寒思考了一下,又對訓練集圖片的RGB數值,做了PCA,也就是主成分分析,并且對主成分做了0.1標準差的高斯擾動。
這樣做的目的,是增加一些噪聲數據,以提高模型的泛化能力。
處理完龐大的訓練集后,就可以讓網絡重新進行訓練了。
安排妥當這件事之后,江寒開始考慮學科等級的事情。
經過幾天的奮戰,他已經學完了化學、生物兩科,在大學本科階段的全部專業課。
單論理論上的水平,超過了絕大多數相應科目的本科生、甚至碩士研究生。
江寒打開系統UI看了一眼。
學科等級面板上,數學、物理、化學、生物、信息學,這五個學科全都達到了高級。
其中,信息學的經驗條已經過半,距離下一個級別不遠了。
不過,工程、材料、能源三科,仍然沒有任何評級。
江寒思考了一下,決定在網上找一找這三個專業的教材,深入地學習一番。
然而,他很快就發現了一個問題。
所謂的工程,到底是什么工程呢?
生物工程也是工程,電子工程也是工程。
此外還有機械工程、信息工程、采礦工程、石油工程、建筑工程……
不搜不知道,一搜嚇一跳,工程學這個總類里,居然足足包括了21個小類,上百個專業!
然后是材料學。
化學材料、生物材料、金屬材料、電工材料、材料物理……
也是幾乎無所不包!
能源好一些,基本也就是引力能、熱能、生物能、化學能、核能……
好吧,既然都是交叉學科,那就交叉著學唄。
江寒上網查找了一下,將所有涉及到這三科的書籍,匯總、整理了一下,列出了一張非常長的書單。
真的很長,足足有上千種書籍。
好在其中大多數,都能下載到PDF或者Ebook資源。
江寒將這些文件,全都用極光OCR,轉換成了txt加小圖片的格式,然后輪流發送到了虛擬空間中,并打印了出來。
也有部分資料,網上根本下載不到,這種情況,就只能郵購實體書了。
江寒在各大網上書店里,一頓狠淘,終于湊全了列表中的所有書籍。
至于花了多少錢,他也沒仔細統計,大概估計下,怎么也得幾萬RMB。
也就是本科階段的教材并不怎么難買,很多專業性很強的資料也都有中文版。