统计数字会撒谎

文章目录2 对统计数据提出的五个问题3 辛普森悖论
1 常见统计场景 1.1 GPA越高越好吗?
GPA,平均成绩点数,是计算大学学业的表现方法,通俗点说就是学生在校的平均成绩
计算方法如下:
1、 百分制折算为等级成绩,等级成绩换算为分值
分数等级分值
90-100
80-90
70-80
60-70
2、 单科绩点=分值*学分
3、 GPA=总绩点/总学分=所有科的绩点之和/所有科的学分之和
GPA是评价学术潜力的一个方便快捷的指标,一个GPA3.5的学生显然要比另一个GPA2.5的学生的实力强,GPA不仅计算容易、理解容易,而且对不同学生进行比较也很容易
但是这个指标是完美的吗?
总结:GPA没有反映不同学生所选课程的难易程度,假设一个GPA为3.5的学生选的都是容易的课,而GPA2.9的学生的课程表里尽是微积分、物理这类难学的课,我们能一口判定孰优孰劣吗?
描述统计学的意义就是简化,但过于简化会不可避免地丢失一些内容和细节 。
1.2 我真的享受减税了吗?
政府要推行一个新的减税政策,这一政策将惠及绝大多数家庭,在这项政策推行后,将会有1亿人享受减税待遇,人均减税额超过1000元 。
从数字上看,直观的认为大部分人都能减税1000元左右,但是如果减税中位数是100元呢?
总结:从准确性角度看,平均数和中位数取哪个,关键在用这个数据分布里的异常值对事实的真相是起到扭曲作用,还是其重要的组成部分 。判断比统计更重要 。
1.3 到底多付了多少?
百分差和百分率的区别
北京市的个人所得税税率由原来的3%上调到5%
有两种描述方法:
个人所得税税率上升了2个百分点,从3%涨到5%
个人所得税税率上升了67%
总结:这两种描述方法都没有问题,只是所站角度不同
1.4 变好了还是变坏了?
教育水平是变好了还是变坏了
政客甲(挑战者):我们的教育水平正变得原来越糟!2013年有6成学校的考试成绩低于2012年
政客乙(在任者):我么的教育水平正变得越来越好!2013年有8成学生的考试成绩高于2012年
从上述数据,我们并不能简单的说变化还是变坏,只能得到下述信息:
1 学校的规模差距比较大;
2 成绩上升的学生大部分来自于规模较大的学校;
3 成绩下降的学生大部分来自于规模较小的学校 。
经济变好了还是变坏了
政客甲(平民主义者):我们的经济一塌糊涂!2012年有30个州的收入都出现了下滑
政客乙(更接近精英派):我们的经纪走势一片光明!2012年有70%的美国人的收入增加了
从上述数据,我们能得到下述信息:
1 州的规模差距较大;
2 收入上升的州可能是规模较大的州;
3 收入下滑的州可能是规模较小的州 。
总结:要明确分析的目的,分清分析的单位,描述的对象到底是谁(或什么),以及不同的人口中的谁(或什么)是不是存在差异
1.5 物价涨了还是降了?
举一个简单的例子,假设去年一夸脱牛奶值 20 美分,一条面包 5 美分 。今年牛奶的价格降至 10 美分,而面包的价格升至 l0 美分 。现在你想证明什么呢? 物价指数上升?
物价指数下降?或者根本没有变化?
方法1:以去年为基期
牛奶的价格降了50% (10-20)/20
面包的价格涨了100% (10-5)/5
即今年涨了25% (-50%+100%)/2=25%
方法2:以今年为基期
去年牛奶的价格高于今年的100% (20-10)/10
面包的价格低于今年的50% (5-10)/10
即今年降了25%(-100%+50%)/2=25%