数据分析基础知识复习

数分析基础知识
从广义的角度,数据分析分为三个方面体包括** ‘数据分析’,‘数据挖掘’,‘模型算法’** 。
数据分析:偏重于数理统计,用统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论 。
数据挖掘:指从大量的数据中通过算法搜索隐藏于其中信息的过程,一般这个过程是计算机来实现 。最经典且流传已久的数据挖掘成功案例:"尿布与啤酒"的故事 。
数据分析使用环境 数据分析在具体业务中的使用环境:
①业务逻辑清晰,指标明确 。
例如:我要分析某网店营销情况,指标:销售额= 人均金额 X 人数,消费人数 = 浏览过的人数X 留存率
浏览记录人 = 平台面向的人群数X 进店比率
②可以转为恰当的数据,数学,统计问题 。
③有足够的数据支撑 。
④熟悉模型,分析方法的局限性:每个模型都有其局限性 。
⑤从场景中来,到场景中去 。
数据分析目的
挖掘规律,验证猜想,进行预测
#数据获取途径
数据清洗
保证数据可读性,数据完成性,数据唯一性,数据唯一性,数据合法性
#数据可视化
以视觉形式展现数据的方式
专业工具:,;
通用工具:excel,R,
数据分析常用模型
算法模型一般分为
1、有监督模型 回归分析,决策树,随机森林,GBDT
2、无监督模型 聚类,主成分分析
金融数据分析经常用以下这些模型算法
01 回归模型
【数据分析基础知识复习】回归模型是指通过对数据进行统计分析,得到能够对数据进行拟合的模型,确定两种或两种以上变量间相互依赖的定量关系 。
它与分类的区别在于其结果是连续的 。包括线性回归与非线性回归 。
(1)线性回归模型是假设自变量与因变量之间是一种线性关系,即自变量最高次是一次,然后使用训练集对模型中的各个参数进行训练学习,得到自变量与因变量之间的定量关系方程,最后将未知结果的实例代入方程得到结果,常用的算法是线性回归算法、L2正则的岭回归与L1正则的Lasso回归 。
(2)非线性回归则相反,是假设自变量与因变量之间的关系是非线性的,即自变量的最高次是大于1的 。常用的非线性回归算法有逻辑回归、回归、神经网络、支持向量机以及CART等 。若在回归结果上面加一层,则可以达到分类的效果 。
02 逻辑回归模型
其主要的作用原理是将线性回归模型产生的预测值通过函数转化为取值范围在0到1之间的类概率值,若类概率值大于0.5则判定为正类,小于等于0.5则判定为负类 。回归的模型表示如下:
逻辑回归模型具有许多优点,比如无需事先假设数据分布、具有较好的数学性质利于求解以及模型求解速度快等 。也正因为逻辑回归模型简单、强大的特性,其被广泛运用于解决诸如医学研究以及经济预测等二分类问题 。
03 随机森林模型
首先介绍一下决策树 。
决策树
决策树是进行分类与预测的常见方法之一,它就是利用样本的属性建立一颗属性树 。它按照一定的规则选择不同的属性作为树中的节点来构建属性和类别之间的关系 。常用的属性选择方法有信息增益、信息增益率以及基尼系数等 。
它采用自顶而下递归构建这颗属性类别关系树,非叶节点表示特征属性,树的叶子节点便是每个类别 。
常用的决策树算法有ID3、C4.5/C5.0、CART等 。这些算法的区别主要在于属性选择的策略、决策树的结构(如决策树中出现重复属性)、是否采用剪枝以及剪枝的方法、是否处理大数据集(即算法的复杂度,包括时间与空间复杂度)等 。。