葉風講的雖然淺顯易懂,但確實精彩萬分。
“數據處理,必須經過這幾個步驟,完成之后才會有智慧。”
此時臺前的葉風,像極了傳教老師。
下面的眾人,像極了專心聽弟子。
“第一個步驟是數據收集。這里有兩個方式,第一個方式是拿,專業點的說法叫抓取或者爬取,例如萬象搜索就是這么做的,它把網上的所有的信息都下載到它的數據中心,然后你一搜才能搜出來。比如你去搜索的時候,結果會是一個列表,這個列表為什么會在搜索引擎的公司里面呢,就是因為他把這個數據啊都拿下來了,但是你一點鏈接,點出來這個網站就不在搜索引擎它們公司了。”
“比如說網易有個新聞,你拿萬象搜出來,你不點的時候,那一頁在萬象數據中心,一點出來的網頁就是在網易的數據中心了。另外一個方式就是推送,有很多終端可以幫我們收集數據,比如說華風智能手機上面的健康管理應用,可以將你每天跑步的數據、心跳的數據、睡眠的數據都上傳到數據中心里面。”
“第二個步驟是數據傳輸。一般會通過隊列方式進行,因為數據量實在是太大了,數據必須經過處理才會有用,可是系統處理不過來,只好排好隊,慢慢的處理。”
“第三個步驟是數據存儲。現在數據就是金錢,掌握了數據就相當于掌握了錢。要不然別人怎么知道你想買什么呢?就是因為它有你歷史的交易的數據,這個信息可不能給別人,十分寶貴,所以需要存儲下來。”
“第四個步驟是數據分析。剛才說的存儲數據是原始數據,原始數據多是雜亂無章的,有很多垃圾數據在里面,因而需要清洗和過濾,得到一些高質量的數據。對于高質量的數據,就可以進行分析,從而對數據進行分類,或者發現數據之間的相互關系,得到知識。”
“比如90年代盛傳的沃爾瑪超市啤酒和尿布的故事。”
葉風剛剛舉了一個例子,還沒說完,大家就會心笑起來。
在坐的各位,都是精英,基本上都聽過這個故事。
尤其是紅旗大賣場的總裁曹世茹,她知道在美國有一個有趣的現象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發生在美國沃爾瑪連鎖店超市的真實案例,并一直為她津津樂道,常常用來教育下面的員工。
沃爾瑪擁有世界上最大的數據倉庫系統,為了能夠準確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細原始交易數據。在這些原始交易數據的基礎上,沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。
一個意外的發現是:“跟尿布一起購買最多的商品竟是啤酒!經過大量實際調查和分析,揭示了一個隱藏在“尿布與啤酒“背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產生這一現象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。
葉風笑道:“即然大家都知道,我就不多說了,這就是通過對購買數據進行分析,發現男人一般買尿布的時候,會同時購買啤酒,這樣就發現了啤酒和尿布之間的相互關系,獲得知識,然后應用到實踐中,將啤酒和尿布的柜臺弄的很近,就獲得了智慧,讓啤酒和尿布銷量雙雙大增。”
“第五個步驟就是對于數據檢索和挖掘。檢索就是搜索,分析后的數據放入搜索引擎,從而人們想尋找信息的時候,一搜就有了。另外就是挖掘,僅僅搜索出來已經不能滿足人們的要求了,還需要從信息中挖掘出相互的關系。比如財經搜索,當搜索某個公司股票的時候,該公司的高管是不是也應該被挖掘出來呢?如果僅僅搜索出這個公司的股票發現漲的特別好,于是你就去買了,其實其高管發了一個聲明,對股票十分不利,第二天就跌了,這不坑害廣大股民么?所以通過各種算法挖掘數據中的關系,形成知識庫,十分重要。”
聽葉風說得很有邏輯性,眾人都點頭連連。
這時,又聽葉風講到重點,說起云計算、大數據、人工智能的密切關系。
“當數據量很小的時候,很少的幾臺機器就能解決。慢慢的當數據量越來越大,最牛的服務器都解決不了問題的時候,就想怎么辦呢?要聚合多臺機器的力量,大家齊心協力一起把這個事搞定,眾人拾柴火焰高。”
“所以說大數據平臺,什么叫做大數據,說白了就是一臺機器干不完,大家一起干。隨著數據量越來越大,很多不大的公司都需要處理相當多的數據,這些小公司沒有這么多機器可怎么辦呢?”
“說到這里,大家想起云計算了吧。當想要干這些活的時候,需要好多好多的機器一塊做,真的是想什么時候要,想要多少就要多少。在以后,一個小公司需要大數據平臺的時候,不需要采購一千臺機器,只要到晴風云平臺上一點,這一千臺機器都出來了,并且上面已經部署好了的大數據平臺,只要把數據放進去算就可以了。”
“云計算需要大數據,大數據需要云計算,兩個人就這樣結合了。”