我理解的辛普森悖论

故事想要从一个美国学校说起:
一所美国高校的两个学院,分别是法学院和商学院,新学期招生。人们怀疑这两个学院有性别歧视。现作如下统计:

法学院

性别 录取 拒收 总数 录取比例
男生 8 45 53 15.1%
女生 51 101 152 33.6%
合计 59 146 205

商学院

性别 录取 拒收 总数 录取比例
男生 201 50 251 80.1%
女生 92 9 101 91.1%
合计 293 59 352

根据上面两个表格来看,女生在两个学院都被优先录取。即女生的录取比率较。现在将两学院的数据汇总:

性别 录取 拒收 总数 录取比例
男生 209 95 304 68.8%
女生 143 110 253 56.5%
合计 352 205 557

 

在总评中,女生的录取比率反而比男生

 

这个悖论有两个条件
1.  两个分组(法学院 ,商学院) 对比因素(男女)申请的人数差距比较大
2.  在人数多的分组(商学院)中,男的总申请人数比女申请人数多很多 251:101

 

    这样导致在商学院即使男女比例差不多, 但是人数上极大地拉大了男生的人数,再加上法学院男女人数差距不大, 导致最终的男生的总人数就多了, 相对应得录取率也就高了。
要正确看待这组数据就要用到加权平均了, 因为申请者的数量不一样, 带来的数据的影响不一样,在计算总体均值的时候就应该算上它本来的权重, 如男生的比例应该是 15.1% * 205/304 + 80.1% *352/304 (男同学法学院录取率 * 法学院同学分组比例 + 男同学商学院录取率 * 商学院分组比例), 计算得下图
性别 录取 总数 录取比例
男生 209 304 56.18%
女生 143 253 69.94%
合计 352 557
这就是辛普森悖论, 每个单独的数据都要好, 但是总的数据确是差的。
这个悖论有两个条件
1.  两个分组(法学院 ,商学院) 对比因素(男女)申请的人数差距比较大
2.  在人数多的分组(商学院)中,男的总申请人数比女申请人数多很多 251:101
这样导致在商学院即使男女比例差不多, 但是人数上极大地拉大了男生的人数,再加上法学院男女人数差距不大, 导致最终的男生的总人数就多了, 相对应得录取率也就高了。

 

另外这个理论在现实世界存在很多:
月份 好房子成交量 总额 成交均价 烂房子成交量 总额 成交均价2 成交总套数 成交总金额 总均价
2 100 1250000 12500 556 5537760 9960 656 6787760 10347.2
3 150 1850000 12333.33333 500 4950000 9900 650 6800000 10461.54

 

明明房子的均价涨了, 但是不管是好房子, 还是烂房子都是均价跌了。
在经济不太好的时候,可以推高价格的好房子的数量,决定了最终均价是涨的, 可以用这种方法来制造虚假的繁荣。
经济生活中的指数就是这样制定的: 用占比例较大的几个股份做为成分股,用他们的价格指数作为股市的指数, 这样他们就是股票的风向标了。 而且可以看到的是这些股票变化都很小的, 不会一会换一个的。
Tags

发表评论

电子邮件地址不会被公开。 必填项已用*标注