方差与协方差的关系

附注:笔者理解:
1. 方差用于反应数据的离散程度 , 期望用于反应数据的聚合情况 。
2. 协方差用于反映两个维度之间的数据偏离期望值的相关性 , 若同时偏离 , 即为正相关 , 数据上现象为:(某维度偏离点-均值)*(另一维度-均值)>0 , 同时也能反映偏离强度 , 若协方差结果越大 , 则说明同时偏离程度大 , 相关性越强 。
-more
一、概率论中对数据的基本描述
1.均值:
2.标准差:
3.方差:
注解:
1. 均值是表示一组数据集中趋势的量数 , 是指在一组数据中所有数据之和再除以这组数据的个数 。它是映数据集中趋势的一项指标 。
平均数(均值)和标准差是描述数据集中趋势和离散程度的两个最重要的测度值 。
2. 方差和标准差为什么要除以n-1.
详细解释可以参考 彻底理解样本方差为何除以n-1
二、协方差和协方差矩阵
标准差和方差一般是用来描述一维数据的 , 但现实生活中我们常常会遇到含有多维数据的数据集 , 即含有多个随机变量 , 协方差就是一种用来度量两个随机变量关系的统计量
参照方差的定义:
来度量各个维度偏离其均值的程度 , 协方差可以这样来定义:
协方差的意义:如果结果为正值 , 则说明两者是正相关的(从协方差可以引出“相关系数”的定义) 。如果结果为负值 ,  就说明两者是负相关 。如果为0 , 则两者之间没有关系 , 就是统计上说的“相互独立” 。
协方差矩阵的定义:
举一个三维的例子 , 假设数据集有三个维度 , 则协方差矩阵为:
【方差与协方差的关系】协方差矩阵是一个对称的矩阵 , 而且对角线是各个维度的方差 。