• <input id="2bncg"><div id="2bncg"></div></input>
    <video id="2bncg"><dfn id="2bncg"></dfn></video>
  • <video id="2bncg"></video>
        1. <source id="2bncg"><menu id="2bncg"><kbd id="2bncg"></kbd></menu></source>

          <b id="2bncg"><address id="2bncg"></address></b>

          <source id="2bncg"><address id="2bncg"></address></source>
          <video id="2bncg"></video>
          筆趣閣 > 玄幻小說 > 我的1999 > 第797章 敲打

          第797章 敲打(2 / 3)

          出土文物上的文字、圖示,甚至它們的尺寸、材料,也都是數據。

          甚至我們人類的活動本身,也可以看做是一種特殊的數據。

          全世界各個領域的數據不斷向外擴展,漸漸形成了另一個特點,那就是很多數據開始出現交叉。

          各個維度的數據從點和線漸漸練成了網。

          或者說,數據之間的關聯性極大的增強,在這樣的背景下,就出現了大數據。”

          頓了一下,徐良調整了一下ppt。

          “那么數據和大數據怎么運用呢?

          大致可以分為以下流程。

          獲取數據分析數據建立模型預測未知。

          我們舉一個簡單的例子。

          現在我們想要了解一家電影院的觀眾年齡分布,以便做市場推廣。

          假定我們把觀眾群分為15歲以下,1625歲,2640歲和41歲及以上四個人群。

          要了解每個人群的比例,一個簡單的辦法就是到電影院門口去問一問那些看電影的人的年齡。

          比如我們通過調查了解到大約有343人在15歲以下,459人在1625歲,386人在2640歲,490人在41歲及以上。

          根據這個數據,我們大致可以得出以下結論:

          15歲及以下的觀眾占20左右,1625歲的觀眾超過四分之一,但不到三成;

          2640歲的觀眾略少于四分之一,41歲及以上的觀眾最多,大約占到三成。

          但是,如果我們只在周末的晚上抽樣調查10個人,我們就會發現。

          有三個15歲及以下的觀眾,五個1625歲的觀眾,2個2640歲的觀眾。

          我們顯然不能說25歲以下的觀眾占了八成,而41歲及以上的中年人從來不來電影院,這樣的結論。

          但我想各位也都承認一點,在統計樣本不充分的情況下,得到的結果跟實際結果存在很大的偏差。

          所以,越想要得到準確的統計結果,需要的統計數據量就越大。

          在上面的例子中,統計的樣本總數是1678人。

          但是如果我們一定要說41歲及以上的觀眾就是29.2,或者15歲及以下觀眾一定超過20。

          這樣非常肯定的的話,大家就可能會挑戰這個結論。

          &amp;amp;t;divtentadv&amp;amp;gt;因為,統計是有隨機性的,也是有誤差的。

          僅僅上千人的數據得不到這樣準確的結論。

          統計除了要求數據量必須充分之外,還要求采樣的數據必須有代表性。

          有些時候不是數據量足夠大,同階級過就一定準確。

          一個很簡單的例子,一個愛情影片和一個戰爭影片,它的受眾并不相同。

          所以如果我們只采集愛情影片上映當月的觀影人群,就不具有普遍的代表性。

          那么怎么避免這種情況,獲得準確的結論呢?

          19世紀的俄國數學家切比雪夫對這個問題給出了他的結論,即切比雪夫不等式。

          pxexevarxe2。

          這個公式的含義是,當樣本數足夠多時,一個隨機變量和他的數學期望值之間的誤差,可以任意小。

          把切比雪夫不等式應用到我們了解電影院觀眾年齡分布的問題中。

          隨機變量就是:觀察到的各個年齡段觀眾的比例。

          數學期望值就是:真實情況下所有看電影觀眾中不同年齡段的比例。

          當我們把樣本數據帶入后,大致可以得出以下結論。

          15歲以下觀眾占20,1625歲占27,2640歲占24,40歲以上占29,誤差小于5。

          但如果我們要將四個年齡段觀眾的準確率,提高到小數點后一位數,那么我們大致需要10倍的數據,即兩萬個左右的樣本。

          最新小說: 玄幻:開局冒充少主娶妻 空古道尊 邪巫BOSS只想低調發育 玄幻:鎮守劍閣!我是主角投資人 師父駕到 錦鯉福妞:我在年代當團寵 大晉女匠師 傾城女帝一睜眼,天下諸王皆跪了 開局預支未來,我無敵了 姑奶奶三歲半,捧奶瓶算命全網寵
        2. <input id="2bncg"><div id="2bncg"></div></input>
          <video id="2bncg"><dfn id="2bncg"></dfn></video>
        3. <video id="2bncg"></video>
              1. <source id="2bncg"><menu id="2bncg"><kbd id="2bncg"></kbd></menu></source>

                <b id="2bncg"><address id="2bncg"></address></b>

                <source id="2bncg"><address id="2bncg"></address></source>
                <video id="2bncg"></video>
                最近免费观看高清韩国日本大全