亚洲农村老熟妇肥BBBB_无码人妻精品一区二区蜜桃色_精品亚洲AⅤ无码午夜在线观看_中文字幕熟妇人妻在线视频_囯产色无码精品视频免费

當(dāng)前位置: 首頁 > 科技新聞 >

沒有學(xué)好統(tǒng)計學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

時間:2020-06-04 17:38來源:網(wǎng)絡(luò)整理 瀏覽:
作者簡介:白朔天,前滴滴算法專家。本文選自:拉勾教育《機(jī)器學(xué)習(xí)入門21講》你好,我白朔天,今天我們學(xué)習(xí)與機(jī)器學(xué)習(xí)相關(guān)的統(tǒng)計學(xué)相關(guān)知識,主要包

作者簡介:白朔天,前滴滴算法專家。本文選自:拉勾教育《機(jī)器學(xué)習(xí)入門21講》

你好,我白朔天,今天我們學(xué)習(xí)與機(jī)器學(xué)習(xí)相關(guān)的統(tǒng)計學(xué)相關(guān)知識,主要包括統(tǒng)計量、中心極限定理、均值假設(shè)檢驗(yàn)、AB 實(shí)驗(yàn)方法等內(nèi)容。

沒有學(xué)好統(tǒng)計學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

根據(jù)我的觀察,很多從事機(jī)器學(xué)習(xí)工作相關(guān)的人并沒有太多統(tǒng)計學(xué)的知識儲備。不得不說,缺乏統(tǒng)計學(xué)的知識,并不會阻礙你用機(jī)器學(xué)習(xí)技術(shù)去建立模型。那么為什么我還要在此強(qiáng)調(diào)統(tǒng)計學(xué)的重要性呢?甚至還專門用一個課時來說明它呢?

原因主要在于模型灰度或應(yīng)用階段的評估。我們知道,機(jī)器學(xué)習(xí)是以數(shù)據(jù)分析、預(yù)測為基礎(chǔ),來優(yōu)化業(yè)務(wù)決策的一門技術(shù)。那么,在模型灰度測試時,如果你不具備基礎(chǔ)的統(tǒng)計學(xué)知識,就無法分辨模型帶來的效果提升是隨機(jī)波動還是真實(shí)收益。因此這一課時,我們就來鋪墊與機(jī)器學(xué)習(xí)相關(guān)的基礎(chǔ)統(tǒng)計學(xué)知識。?

本文選自:拉勾教育《機(jī)器學(xué)習(xí)入門21講》

統(tǒng)計量沒有學(xué)好統(tǒng)計學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

統(tǒng)計量是指用來描述一大堆數(shù)字性質(zhì)的數(shù)值,例如均值、中位數(shù)、方差、標(biāo)準(zhǔn)差,等等。假設(shè)從 1~9 這 9 個數(shù)字中進(jìn)行抽樣,得到如圖所示的結(jié)果,其中每個綠色的點(diǎn)代表一個采樣樣本。若想描述清楚這些樣本的數(shù)值性質(zhì),肯定是不能把每個樣本都說一遍的,那么就需要借助統(tǒng)計量來進(jìn)行描述了。

首先是均值,就是所有采樣值的平均值。公式為

沒有學(xué)好統(tǒng)計學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

接著是中位數(shù),它是按順序排列的一組數(shù)據(jù)中居于最中間位置的數(shù)。

方差是衡量一組數(shù)據(jù)離散程度的度量。計算方法是每個樣本值與均值之差平方的均值。公式為

沒有學(xué)好統(tǒng)計學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

最后,標(biāo)準(zhǔn)差 s。它和方差非常相似,只需要對方差開平方即可,就不再贅述其公式了。

這些統(tǒng)計量中最重要的要算均值和標(biāo)準(zhǔn)差了,會在后續(xù)頻繁使用。有了這些統(tǒng)計量,我們就可以來描述樣本的數(shù)值大小情況、樣本與均值的離散程度等統(tǒng)計上的數(shù)值信息了。

本文選自:拉勾教育《機(jī)器學(xué)習(xí)入門21講》

例題沒有學(xué)好統(tǒng)計學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

假設(shè)有個小團(tuán)隊的 leader,他有 9 個員工?,F(xiàn)在這個 leader 想以雙倍的加班工資,讓員工周六也來公司加班。但是他不確定員工對這個決策是否支持。因此,他決定調(diào)研所有的 9 名員工對這個政策的支持度。在回收到了表中的 9 份調(diào)研結(jié)果后,問題出現(xiàn)了。他如何從 9 份回答中,提取出具有代表性的結(jié)果并作出決策呢?

這時,統(tǒng)計量的作用就發(fā)揮了價值。首先計算均值,9 個數(shù)值求平均數(shù),結(jié)果為 3.4。接著看一下中位數(shù)。把這 9 個數(shù)字按照大小順序排列,找到中間第 5 大的數(shù)字,得到中位數(shù)是 4。再接著,計算方差。根據(jù)公式計算得到方差為 2.7。開個根號,就得到了標(biāo)準(zhǔn)差 1.6。

經(jīng)過這些統(tǒng)計量的分析就能得到下面的結(jié)論。首先,均值 3.4 分、中位數(shù) 4 分都大于了代表無所謂的 3 分,說明更多的員工是支持這項(xiàng)決策的。然而,方差和標(biāo)準(zhǔn)差都比較大,反映出員工的支持度波動比較大。也就是說存在部分員工特別支持這個決策,同時部分員工特別抵觸這個決策。因此,決策的落地執(zhí)行風(fēng)險比較大。

通過這個例子我們會發(fā)現(xiàn),在面對大量數(shù)據(jù)時,你僅僅通過一些統(tǒng)計量信息,就能把大量數(shù)據(jù)背后隱藏的性質(zhì)、規(guī)律描述清楚,并形成某些結(jié)論,輔助你作出更客觀、穩(wěn)健的決策。

中心極限定理沒有學(xué)好統(tǒng)計學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

從前面的例子可以發(fā)現(xiàn),只要計算出某個分布的統(tǒng)計量,就能解決統(tǒng)計學(xué)面臨的絕大多數(shù)問題。然而挑戰(zhàn)在于,在很多場景下,你根本拿不到全部的樣本數(shù)據(jù)。前面的例子比較簡單,這個 leader 只有 9 個員工,全部調(diào)研一遍是完全可行的。但換個問題,情況可能完全不一樣。例如,調(diào)研全國男女人口比例是多少。難道我們要把全國 13 億人都問一遍嗎?

顯然不可能。這個時候,就需要對 13 億人進(jìn)行采樣,得到采樣集合。接著可以計算采樣集合中的統(tǒng)計量。那么問題來了,有了采樣、有了采樣集合的統(tǒng)計量,如何對總體的統(tǒng)計量進(jìn)行估計呢?此時,就需要統(tǒng)計學(xué)中的圣經(jīng)級定理——中心極限定理了。

中心極限定理能解決的問題很明確,即對于一個未知的總體,如何通過某些手段計算出總體的統(tǒng)計量。

中心極限定理的內(nèi)容為,假設(shè)從均值為 μ,方差為 σ2 的任意一個總體中,抽取樣本量為 n 的樣本。當(dāng) n 充分大時,樣本均值

沒有學(xué)好統(tǒng)計學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

的分布近似服從均值為 μ、方差為 σ2/n 的正態(tài)分布。其在統(tǒng)計學(xué)中,通常認(rèn)為 n>=30 即為大樣本。

中心極限定理有幾個要素:

它不需要總體滿足什么分布的條件,哪怕不是正態(tài)分布的任意某個分布都適用。它要求采樣 n 至少為 30。

中心極限定理的價值在于,它從統(tǒng)計量上,構(gòu)建了總體和抽樣之間的聯(lián)系。別忘了,我們的現(xiàn)實(shí)世界中,上帝視角只是理論存在,因此由“抽樣估計總體”必然是永恒的模式。

例題

沒有學(xué)好統(tǒng)計學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

假定現(xiàn)在我們是“上帝”,“上帝”是知道總體分布的。假設(shè)總體是在 0~9 之間均勻分布的整型隨機(jī)數(shù),那么均值就是 4.5,方差為 8.25。接著我們回歸凡人。現(xiàn)在我們不知道這個總體是怎樣的分布;只知道,這個總體會產(chǎn)生 0~9 的某個整數(shù)。

于是,我們利用中心極限定理,去計算出總體的均值和方差?,F(xiàn)在,我們從總體里抽取 n 個數(shù),n=40 ,計算樣本均值 X ?。這樣就得到了一次抽樣的結(jié)果。中心極限定理關(guān)注的是,樣本均值 X ?_i 的均值和方差。那么,就需要多次重復(fù)上述采樣的過程。假設(shè)我們重復(fù)了 1 萬次,這樣就得到了 1 萬次采樣,每次采樣 40 個樣本的數(shù)據(jù)集。

沒有學(xué)好統(tǒng)計學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

由于結(jié)果有隨機(jī)性而且數(shù)據(jù)量非常大,我們嘗試用 Python 進(jìn)行仿真。這段代碼中包含了兩層循環(huán)。其中外層是 1 萬次的采樣循環(huán),內(nèi)層是每次采樣獲得 40 個樣本的循環(huán)。每次獲得 40 個樣本后,我們需要計算這 40 個樣本的均值。

打印出來后,就得到了 1 萬 個均值。經(jīng)過計算這 1 萬個均值的均值和方差,得到均值為 4.5033,方差 為 0.2058。最終,利用中心極限定理,我們可以對總體進(jìn)行估計,得到總體的均值為 4.5033,總體的方差為 0.2058×40=8.2320。

均值假設(shè)檢驗(yàn)沒有學(xué)好統(tǒng)計學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

計算完統(tǒng)計量是就需要去作出精準(zhǔn)的決策了。例如,前面雙倍工資加班的例子,就需要根據(jù)計算的統(tǒng)計量結(jié)果,去決策是否執(zhí)行這個政策,以及執(zhí)行風(fēng)險有多大。根據(jù)統(tǒng)計量做決策就需要用到均值假設(shè)檢驗(yàn)的相關(guān)方法了。

均值假設(shè)檢驗(yàn)的目的在于,驗(yàn)證抽樣得到的均值是否顯著。顯著的意義是,結(jié)果是真實(shí)客觀的規(guī)律,并非偶然得到。那么假設(shè)檢驗(yàn)的流程是,先對均值 μ 的值提出一個假設(shè),然后利用樣本信息去檢驗(yàn)這個假設(shè)是否成立。檢驗(yàn)的方法是確定檢驗(yàn)統(tǒng)計量,并計算數(shù)值,根據(jù)數(shù)值大小查表得到顯著性 p。通常顯著性 p<0.05 為顯著性。

當(dāng)總體的標(biāo)準(zhǔn)差 σ 已知,且樣本量 n 較大,則采用 Z 統(tǒng)計量,計算公式為

沒有學(xué)好統(tǒng)計學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

當(dāng)總體標(biāo)準(zhǔn)差未知,可以用樣本標(biāo)準(zhǔn)差 s 代替,公式改寫為

沒有學(xué)好統(tǒng)計學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

本節(jié)內(nèi)容就到這里啦~關(guān)注我的公號:IT技術(shù)思維,回復(fù):123,可以免費(fèi)獲得大廠面試真題哦~

本文選自:拉勾教育《機(jī)器學(xué)習(xí)入門21講》 版權(quán)聲明:本文版權(quán)歸屬拉勾教育及該專欄作者,任何媒體、網(wǎng)站或個人未經(jīng)本網(wǎng)協(xié)議授權(quán)不得轉(zhuǎn)載、鏈接、轉(zhuǎn)貼或以其他方式復(fù)制發(fā)布/發(fā)表,違者必究。

推薦內(nèi)容