独立性检验


独立性检验

文章插图
独立性检验【独立性检验】独立性检验是统计学的一种检验方式,与适合性检验同属于X2检验,即卡方检验(英文名:chi square test),它是根据次数资料判断两类因子彼此相关或相互独立的假设检验 。
由联表中的数据算出随机变数K^2的值(即K的平方),K^2的值越大,说明“X与Y有关係”成立的可能性越大 。
基本介绍中文名:独立性检验
外文名:test for independence
类属:统计学的一种检验方式
属于:X2检验
意义:判断两类因子彼此相关或相互独立
学科:数学
定义独立性检验是统计学的一种检验方式 。与适合性检验同属于X2检验(即卡方检验,英文名:chi square test)它是根据次数资料判断两类因子彼此相关或相互独立的假设检验 。假设有两个分类变数X和Y,它们的值域分另为{x1, x2}和{y1, y2},其样本频数列联表为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d若要推断的论述为H1:“X与Y有关係”,可以利用独立性检验来考察两个变数是否有关係,并且能较精确地给出这种判断的可靠程度 。具体的做法是,由表中的数据算出随机变数K^2的值(即K的平方)K2 = n (ad - bc) 2 / [(a+b)(c+d)(a+c)(b+d)],其中n=a+b+c+d为样本容量K2的值越大,说明“X与Y有关係”成立的可能性越大 。当表中数据a,b,c,d都不小于5时,可以查阅下表来确定结论“X与Y有关係”的可信程度:P(K^2≥k)0.500.400.250.150.10k0.4550.7081.3232.0722.706P(K^2≥k)0.050.0250.0100.0050.001k3.8415.0246.6357.87910.828例如,当“X与Y有关係”的K2变数的值为6.109,根据表格,因为5.024≤6.109<6.635,所以“X与Y有关係”成立的机率为1-0.025=0.975,即97.5% 。与列表相关联的概念分类变数其不同“值”表示相应对象所属的不同类别的变数,分类变数的取值一定是离散的,而且不同的取值仅表示相应对象所属的类别,如性别变数只取男、女两个“值”,某商品的等级变数只取一级、二级、三级三个“值”,等等 。分类变数的取“值”有时可用数字来表示,但这时的数字除了类别以外,没有其他的含义 。如用“0”表示“男”,用“1”表示“女” 。列联表分类变数的统计汇总表(频数表)在独立性检验中,一般只研究两个分类变数,且每个分类变数只有两个可取的值;这时得到的列联表称为2×2列联表,如后面的案例中的关于患肺癌与否与吸菸与否的列联表 。独立性检验的基本思想独立性检验的必要性独立性检验的学习目标:了解独立性检验的基本思想;独立性检验的学习重点:会对两个分类变数进行独立性检验 。即为什幺不能只凭列联表中的数据和由其绘出的图形下结论,由列联表可以粗略地估计出两个变数(两类对象)是否有关(即粗略地进行独立性检验),但2×2列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用独立性检验的方法确认所得结论在多大程度上适用于总体 。关于这一点,在后面的案例中还要进一步说明 。独立性检验的原理及步骤独立性检验是一种假设检验(先假设,再推翻假设),它的原理及步骤与反证法类似 。反证法假设检验要证明结论A想说明假设H1(两个分类变数,即两类对象有关)成立 。在A不成立的前提下进行推理,在H1不成立,即H0(两类对象无关,即相互独立)成立的条件下进行推理,推出矛盾,意味着结论A成立,推出小机率事件(机率不超过α,α一般为0.001,0.01,0.05或0.1)发生,意味着H1成立的可能性很大(可能性为1-α),没有找到矛盾,意味着不能确定A成立,没有推出小机率事件发生,意味着不能确定H1成立 。独立性检验的案例展示案例 某医疗机构为了了解患肺癌与吸菸是否有关,进行了一次抽样调查,共调查了9965个成年人,其中吸菸者2148人,不吸菸者7817人,调查结果是:吸菸的2148人中49人患肺癌,2099人不患肺癌;不吸菸的7817人中42人患肺癌,7775人不患肺癌 。根据这些数据能否断定:患肺癌与吸菸有关?【方法一】由样本数据,可得如下列联表和条形图:烟 \ 癌症不患肺癌患肺癌总计不吸菸7775427817吸菸2099492148总计9874919965在不吸菸者中,患肺癌的比重是0.54%;在吸菸者中,患肺癌的比重是 2.28%。说明吸菸者和不吸菸者患肺癌的可能性存在较大的差异,吸菸者患肺癌的可能性大 。可初步判断:患肺癌与吸菸有关.【方法二】以上通过对数据和图表的分析,得到的结论是:患肺癌与吸菸有关.但这个结论在多大程度上适用于总体呢?要回答这个问题,就必须藉助于独立性检验的方法来分析.独立性检验是检验两个分类变数是否有关(是否相互独立)的一种统计方法:用字母表示题设数据(使之更有一般性),可得如下2×2列联表烟 \ 癌症不患肺癌患肺癌总计不吸菸aba+b吸菸cdc+d总计a+cb+dn=a+b+c+d想说明假设H1“患肺癌与吸菸有关”成立.假设H0:H1不成立,即患肺癌与吸菸没有关係 。在H0成立的条件下,吸菸者中不患肺癌的的比例应该与不吸菸者中相应的比例差不多,即a/(a+b)≈c/(c+d); a(c+d)≈c(a+b); ad-bc≈0 。因此|ad-bc|越小,则说明患肺癌与吸菸之间的关係越弱 。构造统计量