天天看点

统计概率思维:如何避免偏见?

在学习之前先介绍一个包:Scipy

Scipy是一个用于数学、科学、工程领域的常用软件包,可以处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。它用于有效计算Numpy矩阵,使Numpy和Scipy协同工作,高效解决问题。
统计概率思维:如何避免偏见?

1、离散概率分布

伯努利分布:伯努利试验是只有两种可能结果的单次随机试验(抛硬币)

统计概率思维:如何避免偏见?

我们首先用numpy的arange生成一个等差数组,0开始,一共2个数字,以1递增。

之后我们定义硬币朝上的概率p=0.5

用scipy.bernoulli.pmf 求离散函数,输入数组和概率就可以求得两个概率。

统计概率思维:如何避免偏见?

通过plt.plot,输入X为数组,Y为概率。

注意要加上plt.vlines(X,0,pList),输入X坐标值,在输入Y的最小最大坐标值。

二项分布:

1.做某次事件的次数是固定的

2.每次事件都有两个可能的结果(成功或者失败)

3.每一次成功的概率都相等

4.求出成功K次的概率是多少

统计概率思维:如何避免偏见?
统计概率思维:如何避免偏见?

同样生成等差数组,但是这次生成六个数,因为可能全都失败0次的概率也要求。

统计概率思维:如何避免偏见?

伯努利的函数是 stats.binom.pmf(数组,次数,概率)

几何分布:

1.做某次事件的次数是固定的

2.每次事件都有两个可能的结果(成功或者失败)

3.每一次成功的概率都相等

4.做K次,成功1次的概率是多少(注意和伯努利进行区分)

统计概率思维:如何避免偏见?
统计概率思维:如何避免偏见?

几何分布的函数geom.pmf(数组,概率) 因为这里的12345代表第几次成功,所以函数不需要再次输入5了。

统计概率思维:如何避免偏见?

发现概率呈现递减。

泊松分布:

  1. 时间是独立的

2. 在任意相同的时间范围内,事件发生的概率相同

3. 你想知道某个时间范围内,发生某件事情k次的概率有多大。

统计概率思维:如何避免偏见?
统计概率思维:如何避免偏见?
统计概率思维:如何避免偏见?

2、连续概率分布

正态分布和幂律分布:

统计概率思维:如何避免偏见?

求正态分布:

统计概率思维:如何避免偏见?
统计概率思维:如何避免偏见?

如果要求大于Z的概率,可以求1-(小于Z)的概率

如果要求a和b之间的,可以求小于b-小于a的概率

3、总体和样本

统计概率思维:如何避免偏见?
统计概率思维:如何避免偏见?

我们可以看到样本构成了整体。

中心极限定理:

1)样本平均值约等于总体平均值

2)不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体平均值的周围,并且呈现正态分布

3)可以根据总体信息,判断某个样本是否属于这个总体。

统计概率思维:如何避免偏见?

样本偏见:样本不足(以偏概全)

幸存者偏差:我们通常关注显而易见的样本,忽略了没有机会出现的样本

概率偏差:心理概率和客观概率的不吻合

信息茧房:个性化推荐造成的,我们看到的只是我们喜欢的。