四 python数据分析新手入门课程学习——探索性数据分析(多因子)(来源:慕

一,理论铺垫 1.假设检验与方差检验
假设检验:根据一定的假设条件从样本推断总体,或者推断样本与样本之间关系的一种方法我们换个说法来解释假设检验,就是做出个假设,然后根据数据或已知的分布性质来 。推断这个假设成立的概率有多大具体过程如下:
例子:

四  python数据分析新手入门课程学习——探索性数据分析(多因子)(来源:慕

文章插图
假设检验的方法有很多,方法这些差别的一般取决于检验统计量的选取上 。
如,μ检验法(检验一个样本,如上述例子),卡方检验(检验两个因素间有没有比较强的联系,也称四格检验),叔分布检验(常用于比较两组样本分布是否一致,像临床医学上,药物有没有效果可此分布检验)中,F检验(常用于检验多个样本间的关系,也称方差检验)等 。
import numpy as np#引入scipy中的一个统计包(正态分布)import scipy.stats as ss# (1)进行正态性的检验(检测是否为正态分布)# 生成个标准的正态分布(包含20个数)norm_dist = ss.norm.rvs(size = 20)norm_dist# 检测是否为正态分布,统计值是statistic,p值>0.05(显著水平),是符合假设的#这里的normaltest基于偏度和峰度的一种检验法,并不是μ检验法ss.normaltest(norm_dist)
我们这里看下卡方检验,检验化妆这个行为与性别有没有关系 。
如图所示,
(1)确定原假设:化妆与性别无关,即所有人(化妆不化妆人群)中男女分布一致 。
(2)假设检验量就是卡方分布检验量 。其中网络表示实际值(15),NPI表示的是理论分布(55)
(3)显着性水平:0.05
(4)P = 0.05,卡方值应该不大于3.841,而这个值= 129.3,拒绝这个原假设 。
【四python数据分析新手入门课程学习——探索性数据分析(多因子)(来源:慕】结论:性别与化不化妆是