玩转会员数据分析系列之统计学(第2节中心极限定理)

中心极限定理是数理统计学和误差分析的理论基础,指出了大量随机变量累积分布函数逐点收敛到正态分布的积累分布函数的条件。

目录

第1节:大数定律

第2节:中心极限定理

第3节:随机抽样

第4节:回归分析

第5节:常犯的概率学错误

上一篇我们对统计学已经做了大致的介绍,并且讲解了什么叫大数定律,相信很多朋友已经对统计学有了基本的认识。今天我们来讲讲本章的第2节 中心极限定理

什么是中心极限定理?

中心极限定理(central limit theorem)是概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量累积分布函数逐点收敛到正态分布的积累分布函数的条件。(来自百度百科)

光从百科的字面上我们可能很难理解这个定理到底是个什么东东?其实,只要我们把它转化成生活中的常常发生的事情就非常好理解了。比如我们去农场的一棵树上摘苹果,想知道这棵树上的苹果甜不甜?没必要把整棵树上所有的苹果都尝一遍,在一棵树上任意一个苹果的甜度绝不会相差太大,只要从中选取几个品尝就能够知道这批水果到底甜不甜。那中心极限定理的含义就是:任意一个群体样本的平均值都会围绕在这个群体的整体平均值周围,我们对一个基数庞大的群体做统计调查的时候,只要对其中的一部分样本进行研究,得出的结论就能够反映出整个群体的特点。而且抽样的数量越大准确率越高。因为这个定理的存在我们开展调查统计就变得简单方便了。

通过上面的例子我们可以得出本节的第1个重点:

1、如果掌握了某个群体的具体信息,就能够推理出从这个群体中正确抽取的随机样本的情况。

例如,某个城市正在同时举行铁人三项比赛和相扑比赛,比赛前有一辆载满外国铁人三项运动员的大巴车失踪了,结果警察找到了一辆满是外国大胖子的大巴车。由于语言不通,警察只能根据经验来判断。即使铁人三项选手里面可能也有几个体重较大的,但是满车都是大胖子这是不太可能的,所以呢利用中心极限定理不难推断出来,警察很可能找错了车子。当然,这也属于比较极端的情况。

如果换个场景条件,找到的两辆车中乘客有胖有瘦,我们该怎么判断呢?这个时候我们对乘客的体重进行测量,计算体重分布的标准差,利用中心极限定理我们仍然能够判断出哪辆车是我们要找的。这是因为铁人三项运动员群体的体重标准差是明显小于普通群体的。他们的体重分布更集中,这也是中心极限定理的另一种应用。那就是本节的第2个重点:

2、如果已知两个样本的基本特性,就能够推理出这两个样本是不是来自同一个群体。

关于中心极限定理,大家就可以这样理解了。虽然它的数学计算很复杂,但理解起来并不是那么难。我们理解了大数定律和中心极限定理就掌握了统计学的概率论基础。那接下来就可以了解一下,一些开展调查统计的基本方法,比如如何采集数据?我们将在下一篇文章中来讲解本章的第3个重点“随机抽样”。

对会员管理有兴趣的朋友可以关注微信公众号:玩转会员

1条评论 添加新讨论

登录后参与讨论
Ctrl+Enter 发表