從開發量上,技術難度是遠遠大于目錄式檢索技術的。
首先說網絡爬蟲,也稱網絡蜘蛛(WebSpider),這項技術是基于Web的自動化瀏覽程序,通過網頁鏈接(URL),爬蟲不斷的通過互聯網中獲得新的網頁數據,下載頁面數據形成后臺數據庫。
可以說,網絡爬蟲抓取數據是搜索引擎工作流程的第一步。
爬蟲的體系架構直接關系到搜索引擎每天數據的采集量,而抓取策略則關系到搜索結果的數據質量,數據的更新策略則關系到系統資源的利用率。
這只是第一步,采集了大量數據信息之后,還需要通過自然語言處理(NLP),將文本信息分解為結構化數據和價值性數據。
這里面就又存在一個問題,目前國外的搜索引擎都是英文分詞,而中文比較特殊,最小單位是字,但具有語義的最小單位是詞。
所以,在中文分詞這一部分,就需要技術團隊單獨進行開發。
通過建立詞庫、采用條件隨機概率分布模型、詞性標注、語義相似度、已存句法分析、情感傾向分析等,通過各種模型判斷,讓程序理解抓取到的關鍵詞中文的語義,才能提高搜索的準確性和查全率。
這還只是其中比較小的開發困難。
比如,搜索引擎的核心就是通過海量數據抓取后的快速檢索,而抓取的數據越多,當龐大的數據存儲在數據庫里,就需要構建快速存取數據的分布式存儲架構。
再比如,為了讓用戶在最短的時間內獲得想要的搜索結果,就需要后臺系統不斷的執行數據抓取和建立索引等操作。
這就需要建立分布式實時計算系統,以及對索引結構的構建……
王川估計也是最近開發中有些郁悶了,一說起來就滔滔不絕。
隋波雖然不太懂他說的一些技術術語,但畢竟前世作為用戶也使用了20多年的搜索引擎,接觸的多了,也了解一些基本的知識。
他安靜的聽著王川不斷的講述團隊面臨的一個個困難,又是怎么想辦法克服的。
不時提問兩句,顯得聽的很認真。
腦子里卻不斷的在回憶,當初Google和百度是有哪些創新的舉措,才一舉成功的?
印象最深的,就是那句“百度更懂中文”,這應該就是剛才王川所提的中文分詞了,這塊王川已經考慮到了。
至于是不是更進一步,先弄個智能輸入法出來?……
現在團隊的研發壓力已經很大了,暫時先略過不提。
還有就是百度快照,不過好像這個功能雖然對用戶而言很有價值,但爭議很大……
還有就是Google獨創的PageRank技術。
這是一種根據網頁之間的鏈接結構來評價判斷網頁重要性的排序算法。
想到這里,隋波就提了一下,是否在搜索結果的排序算法上,可以采用這種模式?
從網頁的鏈接數量、權威性、主題相關性、網頁內容的匹配性等多個方面,綜合分析,進行搜索結果的排序。
王川聽了以后若有所思:“這個算法我回去研究一下,應該沒問題。”
隋波笑道:“技術上我沒辦法給你太大的幫助,不過我可以從公司激勵政策和后勤上為團隊鼓勁!
你回去和大家說一下,搜索引擎項目的團隊項目獎金定在10萬,而且根據每個人的表現,到時候還有個人獎勵。
我已經讓清泉給你們做好后勤,每天會定時讓送餐廳送飯菜過來。
另外給你們弄一個休息間,里面準備好啤酒、咖啡、飲料和小吃,保證供應。
嗯……,再讓她給你們辦公室里配一個沙發,大家累了可以躺下休息一會。
王川,這個項目將會是公司除了電商平臺,最核心的業務,還要你多辛苦了!”
王川點頭,一臉的倔強:“波總,你放心,我有信心把這個搜索引擎搞出來!實際上每當解決一個技術難題,大家的那種快樂都是無法言表的,公司又給我這么大的支持力度,我一定全力以赴!”
隋波拍拍他的肩膀:“我相信你,你也別著急,和團隊成員要勞逸結合,注意休息,別搞壞了身體,我們還有足夠的時間來成長!”