统计数字会撒谎( 二 )

统计数字会撒谎
文章插图
方法3:几何平均数(若有N个数,则这N个数的积开N次方就是N个数的几何平均数)
以去年为基期为例,
去年每种商品的价格都看成 100%,将两个 100%相乘再开平方根,得到 100%,这是去年价格指数的几何平均数
今年牛奶是去年的50%,面包是去年的 200%,50%乘以 200%得10000%,再开平方根得100%
价格没升没降
1.6 辍学率到底是多少?
某市教育局公布的高中辍学率为1.5%,而某电视栏目组暗访计算的辍学率为25%~50%
原因:教育局认为转学、出国或攻读一般同等学力的不是辍学,不纳入统计
2023年5月中国青年(16-24岁)失业率高达20.8%,真实的失业率到底是多少?
国家统计局的统计口径:将16岁及以上人口划分成三类,一类是就业,一类是失业,还有一类是非劳动力 。按照国际劳工组织的标准,就业人口是指在调查参考期内,通常为一周,为了取得劳动报酬或经营收入而工作一小时及以上和因休假、临时停工等暂时离岗的人,这些人都属于就业
失业率=1-(一周内工作一小时及以上的人/(就业的人+失业的人))
1.7 收入增长的多吗?
总结:同一套数据,图表的刻度不同,给人的印象也不一样
1.8 军费增长的多吗?
总结:同一套数据,选择的时间范围不一样,给人的印象也不一样
2 对统计数据提出的五个问题 2.1 谁说的
首先要寻找的是偏差——出于学说、名誉或收入的考虑而需要证明某些结论的实验室,希望获得一篇好报道的报界,工资已岌岌可危的工人和管理部门都有可能制造偏差 。
有意识的偏差:刻意舍弃部分数据;改变测量标准
无意识偏差:幸存者偏差
谨防“专家”“权威人士”
2.2 如何知道的
谨防有偏抽样,是选择不当还是刻意挑选有利的样本
2.3 样本是否足够大
谨防样本量过小、以偏概全“沉默的大多数”
2.4 是否遗漏了辅助信息
一项研究表明,在 2800 个案例中,超过半数的患者母亲年龄是 35 岁或超过 35 岁;
在大雾的一周内,伦敦市郊的死亡人数猛增至 2800 人;
约翰斯·霍普金斯大学 1/3 的女学生嫁给了大学老师;
2.5 是否偷换了概念
谨防统计口径的变化
某国某个地区的人口总数是2800万,5年后这个数据 却变成了10500万,当中只有小部分的增长是真实的 。
产生前后两次巨大差异的原因可归结为不同的调查目的,第一次是为征税和征兵服务的,第二次却是为了发放救济粮 。
3 辛普森悖论 3.1 解释
谁的命中率更好?
先看第一场比赛:
运动员两分球命中率三分球命中率
詹姆斯
52.94%
41.67%
库里
57.14%
53.85%
其中:
两分球命中率 = 两分球命中数 / 两分球出手数 * 100%
三分球命中率 = 三分球命中数 / 三分球出手数 * 100%
总命中率 = (两分球命中数 + 三分球命中数) / (两分球出手数 + 三分球出手数) * 100%
看一下明细数据
运动员两份球命中数两分球出手数两分球命中率三分球命中数三分球出手数三分球命中率总命中数总出手数总命中率
詹姆斯
17
52.94%
12
41.67%
14
29
48.28%
库里
14
57.14%
13
53.85%
15
27
55.56%
再来看另一场比赛:
运动员两分球命中率三分球命中率
詹姆斯
55.00%
33.33%
库里
57.14%
47.06%
再来看一下明细数据
运动员两份球命中数两分球出手数两分球命中率三分球命中数三分球出手数三分球命中率总命中数总出手数总命中率