出土文物上的文字、圖示,甚至它們的尺寸、材料,也都是數據。
甚至我們人類的活動本身,也可以看做是一種特殊的數據。
全世界各個領域的數據不斷向外擴展,漸漸形成了另一個特點,那就是很多數據開始出現交叉。
各個維度的數據從點和線漸漸練成了網。
或者說,數據之間的關聯性極大的增強,在這樣的背景下,就出現了大數據。”
頓了一下,徐良調整了一下ppt。
“那么數據和大數據怎么運用呢?
大致可以分為以下流程。
獲取數據分析數據建立模型預測未知。
我們舉一個簡單的例子。
現在我們想要了解一家電影院的觀眾年齡分布,以便做市場推廣。
假定我們把觀眾群分為15歲以下,1625歲,2640歲和41歲及以上四個人群。
要了解每個人群的比例,一個簡單的辦法就是到電影院門口去問一問那些看電影的人的年齡。
比如我們通過調查了解到大約有343人在15歲以下,459人在1625歲,386人在2640歲,490人在41歲及以上。
根據這個數據,我們大致可以得出以下結論:
15歲及以下的觀眾占20左右,1625歲的觀眾超過四分之一,但不到三成;
2640歲的觀眾略少于四分之一,41歲及以上的觀眾最多,大約占到三成。
但是,如果我們只在周末的晚上抽樣調查10個人,我們就會發現。
有三個15歲及以下的觀眾,五個1625歲的觀眾,2個2640歲的觀眾。
我們顯然不能說25歲以下的觀眾占了八成,而41歲及以上的中年人從來不來電影院,這樣的結論。
但我想各位也都承認一點,在統計樣本不充分的情況下,得到的結果跟實際結果存在很大的偏差。
所以,越想要得到準確的統計結果,需要的統計數據量就越大。
在上面的例子中,統計的樣本總數是1678人。
但是如果我們一定要說41歲及以上的觀眾就是29.2,或者15歲及以下觀眾一定超過20。
這樣非常肯定的的話,大家就可能會挑戰這個結論。
&t;divtentadv>因為,統計是有隨機性的,也是有誤差的。
僅僅上千人的數據得不到這樣準確的結論。
統計除了要求數據量必須充分之外,還要求采樣的數據必須有代表性。
有些時候不是數據量足夠大,同階級過就一定準確。
一個很簡單的例子,一個愛情影片和一個戰爭影片,它的受眾并不相同。
所以如果我們只采集愛情影片上映當月的觀影人群,就不具有普遍的代表性。
那么怎么避免這種情況,獲得準確的結論呢?
19世紀的俄國數學家切比雪夫對這個問題給出了他的結論,即切比雪夫不等式。
pxexevarxe2。
這個公式的含義是,當樣本數足夠多時,一個隨機變量和他的數學期望值之間的誤差,可以任意小。
把切比雪夫不等式應用到我們了解電影院觀眾年齡分布的問題中。
隨機變量就是:觀察到的各個年齡段觀眾的比例。
數學期望值就是:真實情況下所有看電影觀眾中不同年齡段的比例。
當我們把樣本數據帶入后,大致可以得出以下結論。
15歲以下觀眾占20,1625歲占27,2640歲占24,40歲以上占29,誤差小于5。
但如果我們要將四個年齡段觀眾的準確率,提高到小數點后一位數,那么我們大致需要10倍的數據,即兩萬個左右的樣本。