天天看點

統計機率思維:如何避免偏見?

在學習之前先介紹一個包:Scipy

Scipy是一個用于數學、科學、工程領域的常用軟體包,可以處理插值、積分、優化、圖像處理、常微分方程數值解的求解、信号處理等問題。它用于有效計算Numpy矩陣,使Numpy和Scipy協同工作,高效解決問題。
統計機率思維:如何避免偏見?

1、離散機率分布

伯努利分布:伯努利試驗是隻有兩種可能結果的單次随機試驗(抛硬币)

統計機率思維:如何避免偏見?

我們首先用numpy的arange生成一個等差數組,0開始,一共2個數字,以1遞增。

之後我們定義硬币朝上的機率p=0.5

用scipy.bernoulli.pmf 求離散函數,輸入數組和機率就可以求得兩個機率。

統計機率思維:如何避免偏見?

通過plt.plot,輸入X為數組,Y為機率。

注意要加上plt.vlines(X,0,pList),輸入X坐标值,在輸入Y的最小最大坐标值。

二項分布:

1.做某次事件的次數是固定的

2.每次事件都有兩個可能的結果(成功或者失敗)

3.每一次成功的機率都相等

4.求出成功K次的機率是多少

統計機率思維:如何避免偏見?
統計機率思維:如何避免偏見?

同樣生成等差數組,但是這次生成六個數,因為可能全都失敗0次的機率也要求。

統計機率思維:如何避免偏見?

伯努利的函數是 stats.binom.pmf(數組,次數,機率)

幾何分布:

1.做某次事件的次數是固定的

2.每次事件都有兩個可能的結果(成功或者失敗)

3.每一次成功的機率都相等

4.做K次,成功1次的機率是多少(注意和伯努利進行區分)

統計機率思維:如何避免偏見?
統計機率思維:如何避免偏見?

幾何分布的函數geom.pmf(數組,機率) 因為這裡的12345代表第幾次成功,是以函數不需要再次輸入5了。

統計機率思維:如何避免偏見?

發現機率呈現遞減。

泊松分布:

  1. 時間是獨立的

2. 在任意相同的時間範圍内,事件發生的機率相同

3. 你想知道某個時間範圍内,發生某件事情k次的機率有多大。

統計機率思維:如何避免偏見?
統計機率思維:如何避免偏見?
統計機率思維:如何避免偏見?

2、連續機率分布

正态分布和幂律分布:

統計機率思維:如何避免偏見?

求正态分布:

統計機率思維:如何避免偏見?
統計機率思維:如何避免偏見?

如果要求大于Z的機率,可以求1-(小于Z)的機率

如果要求a和b之間的,可以求小于b-小于a的機率

3、總體和樣本

統計機率思維:如何避免偏見?
統計機率思維:如何避免偏見?

我們可以看到樣本構成了整體。

中心極限定理:

1)樣本平均值約等于總體平均值

2)不管總體是什麼分布,任意一個總體的樣本平均值都會圍繞在總體平均值的周圍,并且呈現正态分布

3)可以根據總體資訊,判斷某個樣本是否屬于這個總體。

統計機率思維:如何避免偏見?

樣本偏見:樣本不足(以偏概全)

幸存者偏差:我們通常關注顯而易見的樣本,忽略了沒有機會出現的樣本

機率偏差:心理機率和客觀機率的不吻合

資訊繭房:個性化推薦造成的,我們看到的隻是我們喜歡的。