新浪博客

辛普森悖论?如何解?一招搞定!

2015-06-11 16:05阅读:
一、统计中的悖论
悖论这个词主要是指一切与我们的直觉或日常生活经验相矛盾的结论。悖论这个词由来已久,公元前6世纪古希腊有一句经典的“说谎者悖论”,统计中也有悖论——辛普森悖论,它是由一个名叫辛普森的人发现并提出的。

罗尼哈特小姐想找一位男朋友,便加入了一个俱乐部。俱乐部中,犹太人在东厅,非犹太人在西厅,有些人有胡子,有些人没有胡子,有些人放荡不羁,有些人循规蹈矩。

罗尼哈特小姐想“我要找风流潇洒的人,是不是应该找有胡子的人呢?”她观察了一下,东厅中是犹太人,留胡子的人中,风流人物的比例是5/11=45.5%,不留胡子的人中风流人物的比例是3/7=42.9%。

辛普森悖论?如何解?一招搞定!
她又观察了一下西厅,西厅是非犹太人。发现结果相似,西厅中留胡子的人中,风流人物的比例是6/9=66.7%,不留胡子的人中风流人物的比例是9/14=64.3%。
辛普森悖论?如何解?一招搞定!

罗尼哈特小姐认真统计完之后,想“多简单啊,不管去哪个厅,我只要找留胡子的人就更加容易结识到风流潇洒的人物。”当她稍加整理,准备随便到一个厅去认识留胡子的人时,联欢会的主办者已经将两个厅中的人全部集中到一个大厅中。

罗尼哈特小姐想“现在怎么办?不过原来两个厅中都是留胡子的人中风流人物多,现在集中到一个厅,结论应该还是不变,我还是应该找留胡子的人。不过为了保险起见我还是重新核对一下吧。”

但是,当她重新核对之后,结果令她大吃一惊:在大厅中的所有人中,留胡子的人中风流人物的比例是11/20=55%,不留胡子的人中,风流人物的比例是12/21=57.1%。还是原来的人,比例却改变了。现在她要找的不是留胡子的,而是不留胡子的人了。
辛普森悖论?如何解?一招搞定!
罗尼哈特小姐百思不得其解“我得改变我的策略,可是我还是不明白,这到底是怎么回事,怎么会变成这样?”

这就是辛普森悖论,怎么样?有意思吧?不知道你能否理解这到底是怎么回事呢?理解悖论是提升人的思维的重要方式,悖论不仅仅是一个玩笑,更是严肃的哲学、数学问题,真正能理解悖论的人是真正的哲人。

二、揭开“辛普森悖论”之谜
如何解开“辛普森悖论”之谜呢?多因素分析!

简单点说,这正是典型的单因素与多因素关系的例子。单因素的情况下,考虑的情况太少,有些情况下就能发生“辛普森悖论”,而多因素分析中考虑了更多的情况,就可以解开“辛普森悖论”之谜。

首先看所有人群的情况,结论是留胡子的人群中,风流人物的比例低于不留胡子的人群。如果不仔细分析,这就是观察的结论了。但实际的情况中,我们一旦考虑到种族因素,结论就变得相反了。将人群按犹太人和非犹太人分开,结果每一群人中都显示留胡子的人中风流人物的比例高于不留胡子的人。

这里的关键是什么呢?如果大家留意一下,就会发现,犹太人之中留胡子的比例(11/18)高于非犹太人中留胡子的比例(9/23),而且犹太人的性格偏于古板(10/18>8/23)。这两条信息就是关键。本来,留胡子的人更多的是风流人物,而由于留胡子的人中犹太人多,且犹太人更古板,结果导致了留胡子的人中古板的比例增多,使得结论逆转。

当然,犹太人在这里还可以称之为“混杂因素(confounding factor)”,这是许多统计教材,尤其是流行病学教程中最通常的称谓。正是这一个因素的存在,使得原本的结果发生了扭曲,即真相被掩盖了。所以统计学的重要作用也就显示出来了,透过现象认识本质,不要被表面的数据结果所迷惑,而要透过数据本身抓住隐藏在背后的真实的结论。

到底怎样才算混杂因素呢?多数流行病学教程上都有提及。这里的例子就很好的体现了:犹太人与留不留胡子有关,犹太人留胡子的人更多;犹太人与风流古板有关,犹太人更古板。这里,种族这一个因素与留胡子和风流与否都有关系,这样的因素最容易导致混杂现象的发生。

说到这里,大家应该明白,为什么要做多因素分析,因为它能更好地帮助我们认清事物的本质,能够帮助我们排除混杂因素的干扰,更好地实现统计学的目的——透过现象认识本质。

我的更多文章

下载客户端阅读体验更佳

APP专享