数据分析系列之统计学(第5节常犯的概率学错误)

黑天鹅事件和检方谬误充分说明人们对小概率事件和微小误差的错误认识,会让看似精确的概率计算误入歧途。精确有时候并不意味着准确,客观事实和我们对概率的直观感受往往是有差异的。概率学本身不会犯错,错误的是使用它的人。

目录

第1节:大数定律

第2节:中心极限定理

第3节:随机抽样

第4节:回归分析

第5节:常犯的概率学错误


一、“黑天鹅”事件


17世纪之前的欧洲人认为天鹅都是白色的,甚至经常用“世界上没有黑色的天鹅”这句谚语去讽刺那些无中生有的人。但随着第一只黑天鹅在澳大利亚被发现,这句谚语就变成了笑谈,现在“黑天鹅”一般用来指那些影响很大但难以预测的小概率事件。通过这个例子我们可以了解,忽略那些小概率事件,会造成多么严重的后果。

2008年美国次贷危机爆发之前,整个北美金融行业都在使用同一个风险价值模型来预测投资风险。这个模型的强大之处在于它非常精确,它能把华尔街每家公司的资产都进行严格的概率学分析,给出预期收益和损失值。并且还能给这些海量的市场信息整合成一个简洁的风险指标提供给美联储和财政部参考,比如分析了以往市场变动数据后,金融家会根据这个模型给出某项投资在特定周期内可能让公司蒙受的损失,而这种预测可以覆盖高达99%的市场风险。然而这个模型有一个被忽略的致命问题,它的概率学模型参照的是过去20年的市场行为,不能对未知的以外情况作出预测,所以它预测不了黑天鹅的出现。这只黑天鹅就是2007年美国商业银行放贷业务的崩溃,虽然它发生的概率只有不到1%,但悲剧确实发生了。直接导致了一次全球大范围的金融危机,失业率达到了10%,很多国家和政府都陷入了债务危机,这就是小概率重大事件的破坏力。难道这是概率学本身出问题了吗?显然不是,模型已经告诉了我们有1%的风险无法预测,客人们仍然选择了无视。所以,最大的风险永远都不是那些我们能看得见算得出的,而是那些看上去似乎概率很小,我们认为一辈子都不可能发生的风险,但它的确发生了,而且比我们想象的要频繁的多。

案例小结:忽略小概率事件,有时会造成严重的后果

除了黑天鹅还有一个我们容易忽视的问题:统计误差,统计学虽然有这严谨的数学计算,但它并不是完美无缺的。我们通过分析数据推断出的结论永远不会是100%正确的,只要数据分析建立在抽样调查之上,样本的统计结果和正式情况之间就会存在误差。虽然随着样本数量的增大,实验次数的增多,这样的误差会接近于零,但即使误差再小,也不能忽视它的存在。

比如第2节介绍的中心极限定理,警察通过计算车内乘客的体重分布,有99%的把握估计那些体重较大的乘客不是铁人三项选手,但这个推理还有1%的概率是错的,原因就在于铁人三项运动员体重样本的平均值虽然会接近整体的平均值,但并不能说二者完全相等。就好像从一棵树上摘的苹果,如果进行精确的化学分析他们的成分和甜度总会有细微的不同。这就是统计误差的含义,我们不可能通过数据得出完全确凿的真相,只能通过合理控制误差来无限接近真相。


二、检方谬误

另外举一个有趣的例子:检方谬误。假设你是一名法官,听到公诉人陈述这样的事实“犯罪现场遗留的DNA样本和被告的DNA相吻合,除了被告以外这个样本和其他人吻合的概率只有百万分之一,在这个证据的基础上你能为被告人定罪吗?”这时候如果你忽略百万分之一的误差就可能会让无辜的人锒铛入狱,这是因为误差看似很小,但警方的DNA样本库数量非常庞大,通过样本比对找到两个DNA特征相似的人并不是不可能的,所以给犯罪分子定罪时,不能死守着概率这种破案工具而忽略了性别、年龄、社会关系等其它线索。在现实中其实也是一样的,对那些意义重大的可研结论,人们往往对概率计算有精确的要求,比如物理学家在探测引力波是否真实存在的时候,总计花费了数十亿美元用20多年时间来建造探测器,目的就是必须要把实验误差控制在一个极其微小的数量级。事实上这个探测器能探测到小数点后21位,10的负21次幂这个尺度上的引力波变化,爱因斯坦一个多世纪前的预言才最终得到了有说服力的证明。

案例小结:通过统计数据推断出的结论,必定存在误差,不会100%正确。即使误差再小,也不能忽视它的存在。

黑天鹅事件和检方谬误充分说明人们对小概率事件和微小误差的错误认识,会让看似精确的概率计算误入歧途。精确有时候并不意味着准确,客观事实和我们对概率的直观感受往往是有差异的。概率学本身不会犯错,错误的是使用它的人。

其实在近代历史中还存在很多与黑天鹅事件类似的事情,比如:9.11事件,泰坦尼克号、日本地震、中国雪灾、光大乌龙等,这些事件的发生大多都是因为忽略小概率事件而引起的,有兴趣的朋友可以去详细了解。好了,本章内容到这里就全部讲完了,大家有什么需要了解的可以在下面留言或则关注【玩转会员】获取后续更新!

2条评论 添加新讨论

登录后参与讨论
Ctrl+Enter 发表