研究员在图书馆档案中搜索计算机数据库
Hi~盆友们!
今天的内容非常干货 , 大家一定要看呀~~
做数据分析 , 就一定会涉及到统计学的知识 。我之前还推了一些统计学相关的基础知识 。今天 , 我会分享7个我们很可能会用到的统计学中的数据分析方法 。
一、描述统计描述统计是通过图表或数学方法 , 对数据资料进行整理、分析 , 并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法 。
描述统计分为集中趋势分析、离中趋势分析、相关分析三大部分 。
【统计分析方法测量外来变量并修正 统计分析方法 统计学数据分析方法】集中趋势分析
集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势 。
离中趋势分析
离中趋势分析主要靠全距、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势 。例如 , 我们想知道两个教学班的语文成绩中 , 哪个班级内的成绩分布更分散 , 就可以用两个班级的四分差或百分点来比较 。
相关分析
相关分析探讨数据之间是否具有统计学上的关联性 。
二、假设检验假设检验是用来判断样本与样本 , 样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法 。
假设检验可分为正态分布检验、正态总体均值分布检验、非参数检验三类 。
正态分布检验
正态分布检验包括三类:JB检验、KS检验、Lilliefors检验 , 用于检验样本是否来自于一个正态分布总体 。
正态总体均值分布检验
正态总体均值分布检验考察系统误差对测试结果的影响 , 从统计意义上来说 , 各样本均值之差应在随机误差允许的范围之内 。反之 , 如果不同样本的均值之差超过了允许的范围 , 这就说明除了随机误差之外 , 各均值之间还存在系统误差 , 使得各均值之间出现了显著性差异 。
分为两种情况:
T检验:主要用于样本含量较小 , 总体标准差未知的正态分布资料 。它用T分布理论来推断差异发生的概率 , 从而判定两个平均数的差异是否显著 。
U检验:一般用于大样本的平均值差异性检验 , 基于样本来自正态总体的假设 。它是用标准正态分布的理论来推断差异发生的概率 , 从而比较两个平均数的差异是否显著 。国外英文统计学大多采用Z检验 。
非参数检验
非参数检验不考虑总体分布是否已知 , 仅应用样本观察值中一些非常直观的信息 。适用情况包括:待分析数据不满足参数检验所要求的假定 , 因而无法应用参数检验;仅由一些等级构成的数据;所提的问题中并不包含参数;需要迅速得出结果时 。它的主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验、符号检验等 。
三、相关分析相关分析是研究现象之间相互关系的主要方式之一 , 它可以将现象之间的关系大小与方向测定出来 。相关关系的类型按照不同维度可分为:
按相关程度划分:完全相关、不相关、不完全相关 。
按依存关系的表现形式划分:线性相关、非线性相关 。
按相关方向划分:正相关、负相关 。
按研究量划分:单相关、复相关 。
相关关系的测定方法包括:散点图、相关系数等 。
四、回归分析回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法 。它按照变量的多少和变量之间的关系类型 , 可分为多种回归:
一元线性回归分析
分析一个因变量与一个自变量之间的线性关系 , 常用统计指标包括: 平均数、增减量、平均增减量 。
多元线性回归分析
分析多个自变量与一个因变量之间的线性关系 , 在实际统计分析中 , 一般利用软件对多元回归模型进行估计 。
非线性回归分析
自变量与因变量之间因果关系的函数表达式是非线性的 , 非线性回归模型有很多包括对数曲线方程、反函数曲线方程、二次曲线方程、三次曲线方程、复合曲线方程、幂函数曲线方程 、S形曲线方程等均为非线性回归方程 。
其它回归分析模型还有很多 , 之前有写过一篇回归分析的内容 , 想了解的小伙伴可以去看 , 这里就不赘述啦!
- c1驾驶证6年到期的更换方法 c1驾驶证6年到期怎么换
- 金婚夫妇的相处方法 金婚银婚是多少年
- 生铁的主要成分化学式 生铁的化学式 焊生铁的正确方法
- 玉石鉴别最简单方法 玉石鉴别
- 有什么方法可以让孩子自立
- 龙虾怎么处理才干净(清理干净小龙虾的方法,只需简单3步,脏东西全部跑出来
- 帮助孩子集中注意力的几种方法
- 白茶冲泡方法是什么样的 白茶冲泡方法是
- 等腰三角形判定教案 等腰三角形的判定方法
- 延时技巧视频教程 延时技巧