那些反直觉的统计学悖论(上)
作者:欧帝体育od体育 发布时间:2021-09-09 00:22
本文摘要:那些反直觉的统计学悖论(上)作者:读裁者黄远辉,专注人文历史,质量尺度,知识产权推荐书单:小岛宽之《统计学关我什么事》,纳西姆·尼古拉斯·塔勒布《随机闲步的傻瓜》,佩尔西·戴康尼斯、布赖恩·斯科姆斯《10堂极简概率课》,马恺文《或许率思维》,萨尔斯伯格《女士品茶》,喻颖正《人生算法》,汉斯·罗斯林、欧拉·罗斯林、安娜·罗斯林·罗朗德《事实》,朱迪亚·珀尔、达纳·麦肯《为什么:关于因果关系的新科学》。

欧帝体育od体育

那些反直觉的统计学悖论(上)作者:读裁者黄远辉,专注人文历史,质量尺度,知识产权推荐书单:小岛宽之《统计学关我什么事》,纳西姆·尼古拉斯·塔勒布《随机闲步的傻瓜》,佩尔西·戴康尼斯、布赖恩·斯科姆斯《10堂极简概率课》,马恺文《或许率思维》,萨尔斯伯格《女士品茶》,喻颖正《人生算法》,汉斯·罗斯林、欧拉·罗斯林、安娜·罗斯林·罗朗德《事实》,朱迪亚·珀尔、达纳·麦肯《为什么:关于因果关系的新科学》。弗洛伦斯·南丁格尔(照顾护士事业首创人和现代照顾护士教育奠基人,英国护士和统计学家)说:"若想相识上帝在想什么,我们就必须学统计学,因为统计学在丈量他的旨意。"可见,统计学对于这个世界的重要现实意义。

著名的数据专家涂子沛先生(著有《大数据》《数据之巅》《数文明》《数商》等)认为,"大数据"之"大",更多的意义在于:人类可以"分析和使用"的数据在大量增加,通过这些数据的交流、整合和分析,人类可以发现新的知识,缔造新的价值,带来"大知识"、"大科技"、"大利润"和"大生长"。涂子沛先生在《数据之巅》提到,对一个国家来说,统计什么、不统计什么,其实是个政治问题。

……要统计一件工具,必须要有清晰的界限。……首先要清楚地界说什么是"1"。

大数据、区块链、人工智能、云盘算、量子盘算……随着信息时代的加速生长,数据将像传统的"人、财、物"一样,成为重要的生产资料和创新资源,数据开放的水平,将决议一个国家生长的动力、一个社会创新的活力。一、贝叶斯统计贝叶斯是英国数学家,1701年出生于伦敦,做过神父,1742年成为英国皇家学会会员。贝叶斯在数学方面主要研究概率论,他首先将归纳推理法用于概率论基础理论,并建立了贝叶斯统计理论,对于统计决议函数、统计推断、统计的估算等做出了卓越的孝敬。

我们先从著名的三门问题开始,三门问题源于美国一个现场游戏的电视节目。游戏是这样的,你前面有ABC三扇门,其中一扇门后面停着一辆轿车,你可以在这三扇门中任选一扇打开。

如果打开门,后面有轿车,那轿车就归你所有。三个选一个,中奖概率是1/3,这个大家都可以明白。可是,这个游戏有一个环节:在你做出选择之后,主持人会从剩下的两扇门中选一扇打开,而且主持人打开的这扇门背后一定没有汽车。

现在问你,是坚持开始的选择,还是换一扇门打开?我们直接说谜底:一定要换。如果不换,你中奖的概率还是1/3;如果换了,中奖的概率就酿成了2/3。为什么?这就涉及到贝叶斯统计公式。

朱迪亚·珀尔、达纳·麦肯在《为什么:关于因果关系的新科学》一书中举过一个例子,我们拿来分析一下。一位40岁的女性去做乳腺癌的检查,检查效果是阳性。请问,这位女性真的得了乳腺癌的概率有多大?这位女性得了乳腺癌用BC(英文Breast Cancer的缩写)表现,测试效果为阳性用T表现,乳腺癌导致阳性,现在要盘算 P(BC|T)的值。

凭据贝叶斯统计公式,我们还需要知道P(BC),P(T) 和 P(T|BC)的值。P(BC) 是指同年事段女性得乳腺癌的概率,医学统计讲明是1/700;P(T|BC)是指如果这位女性真得了乳腺癌,其检测效果为阳性的概率,这个主要由检测仪器的敏捷度决议,检测仪器准确性不是很高,或许是73%;P(T)是指随便找一小我私家,检测出阳性的可能性有多大。P(T)我们没有直接的数据,要剖析为这小我私家得乳腺癌(BC)和没有得乳腺癌(非BC)两种情况,其中P(非BC) =1-P(BC) =699/700。得乳腺癌且检测效果为阳性的概率是73%,没有得乳腺癌的人也可能被误诊成阳性,已知这个误诊率是 P(T|非BC)=12%。

由此,我们得出:P(T)=P(T|BC)×P(BC)+P(T|非BC)×P(非BC)=12.1%以上数据代入贝叶斯统计公式,最终得出的效果是:P(BC|T)=P(T|BC)*P(BC)/P(T)=0.862%。这说明,纵然这位女性乳腺癌检测效果为阳性,她真的得了乳腺癌概率也不到1%。

(图片来自《为什么:关于因果关系的新科学》)为了让大家更好明白这个效果,朱迪亚·珀尔、达纳·麦肯在《为什么:关于因果关系的新科学》一书还举了详细的例子:假设有3000名40岁的女性,其中只有4人真的得了乳腺癌,准备检测效果为阳性的有3人。可是,被检测仪器误诊为阳性的却有360人。因此,在所有阳性诊断中,只有不到1%的人真有乳腺癌。需要注意的是,如果这位女性自己携带容易得乳腺癌的基因(好比好莱坞女星安吉丽娜·朱莉),那么P(BC) 就不是1/700,而是1/20。

经盘算,P(BC|T)=1/3,真的得乳腺癌的概率大幅度飙升,像朱莉这种情况,切除整个乳腺是比力稳妥的做法。贝叶斯统计的优势在于"在数据少的情况下也可以举行推测",贝叶斯统计学的统计历程和人脑的决议历程是很相似的。1982年,珀尔本人把贝叶斯方法引入了人工智能领域,发现了"贝叶斯网络",语音识别、垃圾邮件过滤、油井钻探、FDA批准新药、游戏公司给出的游戏水平打分……等等,都在使用贝叶斯统计方法,这是一种从效果倒推原因的算法,因此也可以称之为"逆概率"。

从原因推效果是很容易的,可是从效果倒退原因,其实是很难的。如果大家对前面先容的内容还不是很明白,可以参阅推荐书单中的《统计学关我什么事》一书,该书抛开让人难以明白的"贝叶斯公式",用"面积图"做直观形象的解读。只要会做四则运算,就能快速入门,进而在一个个生活场景中,领会贝叶斯统计学的精髓。

著名的儿童心理学家皮亚杰认为,小孩子的思维是非理性的、不合逻辑的。已往10年的理论和实证研究显示,小孩子在学习的历程中,会用到概率模型和贝叶斯推理。孩子们的贝叶斯推理,依赖于从周围获取的大量新信息,他们善于在视察中学习,如果我们能够给孩子们提供多样的信息,他们的样本库概率漫衍就越合理。

所以,我们要多给孩子接触差别类型的信息,给他们提供开放性更强的玩具,好比积木、画纸;带他们多出去看看这个世界,让他们明白这个世界上存在着差别的人和差别的文化等。这样做,一方面是为了引发孩子们的探索欲望,另一方面也是资助孩子们把更多的信息纳入到他们的知识库,资助他们做出更准确的判断,不停提升解决问题的能力。

记着,孩子是最容易察言观色的。二、幸存者偏差与伯克森悖论1941年,美国哥伦比亚大学统计学沃德教授应军方要求,使用其在统计方面的专业知识来提供关于飞机应该如何增强防护才气降低被炮火击落的几率的建议。沃德教授针对联军的轰炸机遭受攻击后的数据,举行研究后发现:机翼是最容易被击中的位置,引擎则是最少被击中的位置。沃德教授的结论是,"我们应该强化引擎的防护",军方指挥官却认为"应该增强机翼的防护,因为这是最容易被击中的位置"。

(图片来自百度搜索)沃德教授坚持认为,统计的样本,只涵盖平安返回的轰炸机;被多次击中机翼的轰炸机,似乎还是能够宁静返航;并非是引擎不易被击中,而是因为引擎被击中的飞机早已无法返航。军方最终接纳了教授的建议,厥后证实该决议是正确的,看不见的弹痕才是最致命的,这就是幸存者偏差。"幸存者偏差"又叫"墓地理论",我们通常只关注那些显而易见的样本,却经常忽视那些没有时机泛起的样本。"伯克森悖论"和"幸存者偏差"都属于"选择偏差",伯克森悖论,指的是两个原来无关的变量之间体现出貌似强烈的相关关系。

伯克森悖论和幸存者偏差堕落的基础原因,都是因为纳入统计的数据不够全面。我们举个真实的案例,有人统计了因为出车祸而被送进医院急诊室的摩托车手,发现戴头盔的人所受的伤,反而比不戴头盔的人更重。岂非说因为戴头盔的人开车更斗胆,所以更容易受重伤?事实是许多戴头盔的人因为有头盔掩护,只受了轻伤,基础就无需进急诊室。

掩护必须足够小,伤害必须足够大,才气让这小我私家进急诊室,所以大家看到了不戴头盔和受重伤之间的假的负相关。伯克森悖论还可以用来解释许多现象,好比许多人都存在帅哥都是渣男,小鲜肉演技都不忍直视,富二代都是"坑爹货"等印象。

其实,大部门帅哥、小鲜肉、富二代都是相当优秀的,他们大部门人都比力低调,没有进入到我们的统计规模,我们能够听到的负面新闻多数是个体案例。因此,以后我们再听说涉及到能力、人品、长相、运气等种种"负相关"论断,都应该保持戒心。那么,"伯克森悖论"和"幸存者偏差"有什么差别呢?幸存者偏差偏重的是"某一个特征",好比我们前面说到的例子中,美国军方一看从战场飞回来的战斗机的发念头中弹都比力少,于是判断所有飞机的发念头中弹都比力少,这就是幸存者偏差。幸存者偏差说的是因为我们看到的这些个体都具有某一特征,因此就认为所有相关的个体都具有这一特征,或者具有这样的特征才气成为相关的个体。

而伯克森悖论则更强调两个特征之间的关系,好比长得帅和人品好,是在一群人中被平等选择的两个特征,它们之间原来基础没有关系,仅仅是因为选择而有了关系。未完,待续,请关注下篇……。


本文关键词:那些,反,直觉,的,统计学,悖论,od体育官网,上,那些,反

本文来源:od体育官网-www.xmshuke.com

电话
0955-82692992