搜索平臺要對所有的網頁進行檢索。
最關鍵的來了。
怎么把網頁排名?
理論上,肯定是應該把最相關最符合用戶需求的網頁排在前列。
這就是最大的技術難度了。
怎么來判斷一個網頁,最符合用戶的需求?
是按關鍵詞的數量排列。
網頁里關鍵詞出現的越多,排名就越靠前。
就比如搜索“旅游”。
一個網頁里,全文檢索后,“旅游”兩個字出現了100次;另一個網頁里,“旅游”這個關鍵詞出現了101次。
那么,后者的排名就會靠前。
關鍵詞最多的網頁,就會排在搜索首頁的第一位!
這種方法簡單粗暴。
缺點明顯。
需要爬蟲所有網頁,需要檢索全部內容……需要的算力太多了,就導致服務器的壓力太大,搜索速度太慢。
還有一點,內容也不夠精準。
誰說關鍵詞出現的次數越多,內容就越好?
真正的好文章,可能是全文都沒有“旅游”二字,但處處都是圍繞著“旅游”的點點滴滴。卻因為算法的不足,缺乏關鍵字,無法被用戶搜索到。
周浩然的搜索思想,就跟他這段時間的交流會里一直表達的“科技民主化”的提議很相符。
采用的是投票制。
誰獲得的投票多,誰的網站就排名靠前!
投票的策略,就是反向鏈接。
一個旅游內容的網頁,會鏈接接到另一個網頁;另一個旅游內容的網頁,可能也會鏈接到相同的網頁……
這個超鏈接,就是投票!
要是100個旅游相關的網頁,都同時連接到了同一個旅游主頁。
那就說明這個旅游主頁獲得了100個網頁的認可,獲得了100票!
一個旅游網頁,被許許多多的旅游相關的網頁都鏈接了,都關聯上了,就充分說明這個旅游網頁獲得了業內同行的認可!
價值含量極高!
這就是投票制。
靠著投票,來把所有網頁內容進行排列,按照票數的多少來排名先后,推薦給用戶。
內容質量就大大提升了。
用超鏈檢索取代全文檢索,需要的算力也會大幅度減少,搜索速度也就大大提高了。
這可以說是充分的踐行了互聯網“科技民主化”的大理念。
恰好,斯坦福大學里也有研究生,在做類似的課題研究。
譚明亮長吁短嘆。
覺得好吃虧。
周浩然卻興致勃勃,跟著兩位老教授,一起去了這個“backrub”項目實驗室。
這個項目組,一共就只有四個研究人員。
兩個博士,兩個碩士。
周浩然在意的是那兩個博士。
“你好,我叫拉里,拉里·佩奇。”
“周先生,你前天的座談會,我去現場聽了,真讓人心潮澎湃!你說的‘科技民主化’的概念真好,我是謝爾蓋,謝爾蓋·布林,很高興認識你。”
看著眼前這兩個蓬頭垢面的年輕人。
周浩然長舒了一口氣。
這下妥了!
找到正主了!
沒錯,就是他倆!
:<ahref="https://u"target="_blank">https://u</a>。手機版:<ahref="https://u"target="_blank">https://u</a></p>