第797章敲打_我的1999

出土文物上的文字、圖示，甚至它們的尺寸、材料，也都是數據。

甚至我們人類的活動本身，也可以看做是一種特殊的數據。

全世界各個領域的數據不斷向外擴展，漸漸形成了另一個特點，那就是很多數據開始出現交叉。

各個維度的數據從點和線漸漸練成了網。

或者說，數據之間的關聯性極大的增強，在這樣的背景下，就出現了大數據。”

頓了一下，徐良調整了一下ppt。

“那么數據和大數據怎么運用呢？

大致可以分為以下流程。

獲取數據分析數據建立模型預測未知。

我們舉一個簡單的例子。

現在我們想要了解一家電影院的觀眾年齡分布，以便做市場推廣。

假定我們把觀眾群分為15歲以下，1625歲，2640歲和41歲及以上四個人群。

要了解每個人群的比例，一個簡單的辦法就是到電影院門口去問一問那些看電影的人的年齡。

比如我們通過調查了解到大約有343人在15歲以下，459人在1625歲，386人在2640歲，490人在41歲及以上。

根據這個數據，我們大致可以得出以下結論：

15歲及以下的觀眾占20左右，1625歲的觀眾超過四分之一，但不到三成；

2640歲的觀眾略少于四分之一，41歲及以上的觀眾最多，大約占到三成。

但是，如果我們只在周末的晚上抽樣調查10個人，我們就會發現。

有三個15歲及以下的觀眾，五個1625歲的觀眾，2個2640歲的觀眾。

我們顯然不能說25歲以下的觀眾占了八成，而41歲及以上的中年人從來不來電影院，這樣的結論。

但我想各位也都承認一點，在統計樣本不充分的情況下，得到的結果跟實際結果存在很大的偏差。

所以，越想要得到準確的統計結果，需要的統計數據量就越大。

在上面的例子中，統計的樣本總數是1678人。

但是如果我們一定要說41歲及以上的觀眾就是29.2，或者15歲及以下觀眾一定超過20。

這樣非常肯定的的話，大家就可能會挑戰這個結論。

&amp;t;divtentadv&amp;gt;因為，統計是有隨機性的，也是有誤差的。

僅僅上千人的數據得不到這樣準確的結論。

統計除了要求數據量必須充分之外，還要求采樣的數據必須有代表性。

有些時候不是數據量足夠大，同階級過就一定準確。

一個很簡單的例子，一個愛情影片和一個戰爭影片，它的受眾并不相同。

所以如果我們只采集愛情影片上映當月的觀影人群，就不具有普遍的代表性。

那么怎么避免這種情況，獲得準確的結論呢？

19世紀的俄國數學家切比雪夫對這個問題給出了他的結論，即切比雪夫不等式。

pxexevarxe2。

這個公式的含義是，當樣本數足夠多時，一個隨機變量和他的數學期望值之間的誤差，可以任意小。

把切比雪夫不等式應用到我們了解電影院觀眾年齡分布的問題中。

隨機變量就是：觀察到的各個年齡段觀眾的比例。

數學期望值就是：真實情況下所有看電影觀眾中不同年齡段的比例。

當我們把樣本數據帶入后，大致可以得出以下結論。

15歲以下觀眾占20，1625歲占27，2640歲占24，40歲以上占29，誤差小于5。

但如果我們要將四個年齡段觀眾的準確率，提高到小數點后一位數，那么我們大致需要10倍的數據，即兩萬個左右的樣本。

第797章 敲打（2 / 3）