大数据挖掘:系统方法与实例分析


大数据挖掘:系统方法与实例分析

文章插图
大数据挖掘:系统方法与实例分析【大数据挖掘:系统方法与实例分析】《大数据挖掘:系统方法与实例分析》是2016年4月机械工业出版社出版的一本图书,作者是周英、卓金武、卞月青 。
基本介绍书名:大数据挖掘:系统方法与实例分析
作者:周英;卓金武;卞月青
ISBN:987-7-111-53267-5
定价:79.00元
出版社:机械工业出版社
出版时间:2016年4月
内容简介主要介绍大数据挖掘的方法,并分析相关的实例 。本书是大数据挖掘领域的扛鼎之作,由全球科学计算领域的领导者MathWorks(MATLAB公司)官方的资深数据挖掘专家撰写,MathWorks官方及多位专家联袂推荐 。它从技术、方法、案例和最佳实践4个维度对如何系统、深入掌握大数据挖掘提供了详尽的讲解 。技术:不仅讲解了大数据挖掘的原理、过程、工具,还讲解了大数据的準备、处理与探索;方法:既深入地讲解了关联规则方法、回归方法、分类方法、聚类方法、预测方法、诊断方法等6大类数据挖掘主体方法,又重点讲解了时间序列方法和智慧型最佳化方法两种数据挖掘中常用的方法;案例:详细地再现了来自银行、证券、机械、矿业、生命科学和社会科学等6大领域的经典案例,不仅有案例的实现过程,而且还有案例原理和预备知识的讲解;最佳实践:首先总结了数据挖掘中确定挖掘、套用技术以及如何平衡的艺术,然后总结了数据挖掘的项目管理和团队管理的艺术 。作者简介周英,中科数据首席数据科学家 。曾在某知名搜寻引擎公司任职多年,主要从事网际网路文本挖掘相关的工作 。目前专注于大数据挖掘技术的工业套用研究和工程套用,已成功完成数据挖掘量化选股、大型设备保养维护预警、银行客户信用评分、电商客户分类及精準行销最佳化等多个大型项目 。着有《量化投资:数据挖掘技术与实践(MATLAB版)》(国际上第一本系统介绍将数据挖掘技术用于量化投资的书籍,已被金融行业多家机构套用) 。卓金武,MathWorks中国区科学计算业务总监,资深数据挖掘专家,主要负责数据挖掘、最佳化、量化投资、风险管理等科学计算业务,已为工行、交行、中投、华为、通用、一汽、上汽、格力等多家企业提供数据挖掘解决方案 。已出版着作两部:《MATLAB在数学建模中的套用》(第1版和第2版),《量化投资:数据挖掘技术与实践(MATLAB版)》 。大学期间曾两次获全国大学生数学建模竞赛一等奖 (2003、2004),一次获全国研究生数学建模竞赛一等奖 (2007) 。卞月青,深圳人人数据挖掘经理 。曾就职于三一重工,主要从事工业大数据分析工作 。2012年以来,一直从事基于大数据的套用研发工作,从事的工作包括两个方面,一是为银行、P2P、小贷公司开发基于数据挖掘的信用评级系统;二是利用网际网路大数据挖掘技术,採集、清洗、集成特定领域的数据,并开发成大数据公众服务平台 。目录第一篇 基础篇第1章 认识大数据挖掘1.1 大数据与数据挖掘1.1.1 何为大数据1.1.2 大数据的价值1.1.3 大数据与数据挖掘的关係1.2 数据挖掘的概念和原理1.2.1 什幺是数据挖掘1.2.2 数据挖掘的原理1.3 数据挖掘的内容1.3.1 关联1.3.2 回归1.3.3 分类1.3.4 聚类1.3.5 预测1.3.6 诊断1.4 数据挖掘的套用领域1.4.1 零售业1.4.2 银行业1.4.3 证券业1.4.4 能源业1.4.5 医疗行业1.4.6 通信行业1.4.7 汽车行业1.4.8 公共事业1.5 大数据挖掘的要点1.6 小结参考文献第2章 数据挖掘的过程及工具2.1 数据挖掘过程概述2.2 挖掘目标的定义2.3 数据的準备2.4 数据的探索2.5 模型的建立2.6 模型的评估2.7 模型的部署2.8 工具的比较与选择2.9 小结参考文献第3章MATLAB数据挖掘快速入门3.1 MATLAB快速入门3.1.1 MATLAB概要3.1.2 MATLAB的功能3.1.3 快速入门实例3.1.4 入门后的提高3.2 MATLAB常用技巧3.3 MATLAB开发模式3.4 MATLAB数据挖掘实例3.5 MATLAB集成数据挖掘工具3.5.1 分类学习机简介3.5.2 互动探索算法的方式3.5.3 MATLAB分类学习机套用实例3.6 小结第二篇 技术篇第4章 数据的準备4.1 数据的收集4.1.1 认识数据4.1.2 数据挖掘的数据源4.1.3 数据抽样4.1.4 金融行业的数据源4.1.5 从雅虎获取交易数据4.1.6 从大智慧获取财务数据4.1.7 从Wind获取高质量数据4.2 数据质量分析4.2.1 数据质量分析的必要性4.2.2 数据质量分析的目的4.2.3 数据质量分析的内容4.2.4 数据质量分析方法4.2.5 数据质量分析的结果及套用4.3 数据预处理4.3.1 为什幺需要数据预处理4.3.2 数据预处理的方法4.3.3 数据清洗4.3.4 数据集成4.3.5 数据归约4.3.6 数据变换4.4 小结参考文献第5章 数据的探索5.1 衍生变数5.1.1 衍生变数的定义5.1.2 变数衍生的原则和方法5.1.3 常用的股票衍生变数5.1.4 评价型衍生变数5.1.5 衍生变数的数据收集与集成5.2 数据的统计5.2.1 基本描述性统计5.2.2 分布描述性统计5.3 数据可视化5.3.1 基本可视化方法5.3.2 数据分布形状可视化5.3.3 数据关联情况可视化5.3.4 数据分组可视化5.4 样本选择 5.4.1 样本选择的方法5.4.2 样本选择套用实例5.5 数据降维5.5.1 主成分分析基本原理5.5.2 PCA套用案例:企业综合实力排序5.5.3 相关係数降维5.6 小结参考文献第6章关联规则方法6.1 关联规则概要6.1.1 关联规则的背景6.1.2 关联规则的基本概念6.1.3 关联规则的分类6.1.4 关联规则挖掘常用算法6.2Apriori算法6.2.1 Apriori算法基本思想6.2.2 Apriori算法步骤6.2.3 Apriori算法实例6.2.4 Apriori算法程式实现6.2.5 Apriori算法优缺点6.3FP-Growth算法6.3.1 FP-Growth算法步骤6.3.2 FP-Growth算法实例6.3.3 FP-Growth算法优缺点6.4 套用实例:行业关联选股法6.5 小结参考文献第7章 数据回归方法7.1 一元回归7.1.1 一元线性回归7.1.2 一元非线性回归7.1.3 一元多项式回归7.2 多元回归7.2.1多元线性回归7.2.2 多元多项式回归7.3 逐步归回7.3.1 逐步回归基本思想7.3.2 逐步回归步骤7.3.3 逐步回归的MATLAB方法7.4 Logistic回归7.4.1 Logistic模型7.4.2 Logistic回归实例7.5 套用实例:多因子选股模型的实现7.5.1 多因子模型基本思想7.5.2 多因子模型的实现7.6 小结参考文献第8章 分类方法8.1 分类方法概要8.1.1 分类的概念8.1.2 分类的原理8.1.3 常用的分类方法8.2 K-近邻8.2.1 K-近邻原理8.2.2 K-近邻实例8.2.3 K-近邻特点8.3 贝叶斯分类8.3.1 贝叶斯分类原理8.3.2 朴素贝叶斯分类原理8.3.3 朴素贝叶斯分类实例8.3.4 朴素贝叶斯特点8.4 神经网路8.4.1 神经网路原理8.4.2 神经网路实例8.4.3 神经网路特点8.5 逻辑斯蒂8.5.1 逻辑斯蒂原理8.5.2 逻辑斯蒂实例8.5.3 逻辑斯蒂特点8.6 判别分析8.6.1 判别分析原理8.6.2 判别分析实例 8.6.3 判别分析特点8.7 支持向量机8.7.1 支持向量机基本思想8.7.2 支持向量机理论基础8.7.3 支持向量机实例8.7.4 支持向量机特点8.8 决策树8.8.1 决策树的基本概念8.8.2 决策树的构建步骤8.8.3决策树实例8.8.4 决策树特点8.9 分类的评判8.9.1 正确率8.9.2 ROC曲线8.10 套用实例:分类选股法8.10.1 案例背景8.10.2 实现方法8.11 延伸阅读:其他分类方法8.12 小结参考文献第9章聚类方法9.1 聚类方法概要9.1.1 聚类的概念9.1.2 类的度量方法9.1.3 聚类方法的套用场景9.1.4 聚类方法分类9.2 K-means方法9.2.1 K-means原理和步骤9.2.2 K-means实例1:自主编程9.2.3 K-means实例2:集成函式9.2.4 K-means特点9.3 层次聚类9.3.1 层次聚类原理和步骤9.3.2 层次聚类实例9.3.3 层次聚类特点9.4 神经网路聚类9.4.1 神经网路聚类原理和步骤9.4.2 神经网路聚类实例9.4.3 神经网路聚类特点9.5 模糊C-均值方法9.5.1FCM原理和步骤8.5.2 FCM套用实例9.5.3 FCM算法特点9.6 高斯混合聚类方法9.6.1 高斯混合聚类原理和步骤9.6.2 高斯混合聚类实例9.6.3 高斯混合聚类特点9.7 类别数的确定方法9.7.1 原理9.7.2 实例9.8 套用实例:股票聚类分池9.8.1 聚类目标和数据描述9.8.2 实现过程9.8.3 结果及分析9.9 延伸阅读9.9.1 目前聚类分析研究的主要内容9.9.2 SOM智慧型聚类算法9.10 小结参考文献第10章 预测方法10.1 预测方法概要10.1.1 预测的概念10.1.2 预测的基本原理10.1.3 预测的準确度评价及影响因素10.1.4 常用的预测方法10.2 灰色预测10.2.1 灰色预测原理10.2.2 灰色预测的实例10.3 马尔科夫预测10.3.1 马尔科夫预测原理10.3.2 马尔科夫过程的特性10.3.3 马尔科夫预测实例10.4 套用实例:大盘走势预测10.4.1 数据的选取及模型的建立10.4.2 预测过程10.4.3 预测结果与分析 10.5 小结参考文献第11章 诊断方法11.1离群点诊断概要11.1.1 离群点诊断的定义11.1.2 离群点诊断的作用11.1.3 离群点诊断方法分类11.2 基于统计的离群点诊断11.2.1 理论基础11.2.2 套用实例11.2.3 优点与缺点11.3 基于距离的离群点诊断11.3.1 理论基础11.3.2 套用实例11.3.3 优点与缺点11.4 基于密度的离群点挖掘11.4.1 理论基础11.4.2 套用实例11.4.3 优点与缺点11.5 基于聚类的离群点挖掘11.5.1 理论基础11.5.2 套用实例11.5.3 优点与缺点11.6 套用实例:离群点诊断股票买卖择时11.7 延伸阅读:新兴的离群点挖掘方法11.7.1 基于关联的离群点挖掘11.7.2 基于粗糙集的离群点挖掘11.7.3 基于人工神经网路的离群点挖掘11.8 小结参考文献第12章时间序列方法12.1 时间序列基本概念12.1.1 时间序列的定义12.1.2 时间序列的组成因素12.1.3 时间序列的分类12.1.4 时间序列分析方法12.2 平稳时间序列分析方法12.2.1 移动平均法12.2.2 指数平滑法12.3 季节指数预测法12.3.1 季节性水平模型12.3.2 季节性趋势模型12.4 时间序列模型12.4.1 ARMA模型12.4.2 ARIMA模型12.4.3 ARCH模型12.4.4 GARCH模型12.5 套用实例:基于时间序列的股票预测12.6 小结参考文献第13章智慧型最佳化方法13.1 智慧型最佳化方法概要13.1.1 智慧型最佳化方法的概念13.1.2 常用的智慧型最佳化方法13.2 遗传算法13.2.1 遗传算法的原理13.2.2 遗传算法的步骤13.2.3 遗传算法实例13.2.4 遗传算法的特点13.3 模拟退火算法13.3.1 模拟退火算法的原理13.3.2 模拟退火算法的步骤13.3.3 模拟退火算法实例13.3.4 模拟退火算法的特点13.4 延伸阅读:其他智慧型方法13.4.1 粒子群算法13.4.2 蚁群算法13.5 小结参考文献第三篇 项目篇第14章 数据挖掘在银行信用评分中的套用14.1 什幺是信用评分14.1.1 信用评分的概念14.1.2 信用评分的意义14.1.3 个人信用评分的影响因素 14.1.4 信用评分的方法14.2 DM法信用评分实施过程14.2.1 数据的準备14.2.2 数据预处理14.2.3 logistic模型14.2.4 神经网路模型14.3 AHP信用评分方法14.3.1 AHP法简介14.3.2 AHP法信用评分实例14.4 延伸阅读:企业信用评级14.5 小结第15章 数据挖掘在量化选股中的套用15.1 什幺是量化选股15.1.1 量化选股定义15.1.2 量化选股实现过程15.1.3 量化选股的分类15.2 数据的处理及探索15.2.1 获取股票日交易数据15.2.2 计算指标15.2.3 数据标準化15.2.4 变数筛选15.3 模型的建立及评估15.3.1 股票预测的基本思想15.3.2 模型的训练及评价15.4 组合投资的最佳化15.4.1 组合投资的理论基础15.4.2 组合投资的实现15.5 量化选股的实施15.6 小结参考文献第16章 数据挖掘在工业故障诊断中的套用16.1 什幺是故障诊断16.1.1 故障诊断的概念16.1.2 故障诊断的方法16.1.3 数据挖掘技术的故障诊断原理16.2 DM设备故障诊断实例16.2.1 载入数据16.2.2 探索数据16.2.3 设定训练样本的测试样本16.2.4 决策树方法训练模型16.2.5 集成决策树方法训练模型16.3 小结第17章 数据挖掘技术在矿业工程中的套用17.1 什幺是矿业工程17.1.1 矿业工程的内容17.1.2 矿业工程的数据及特徵17.1.3 数据挖掘技术在矿业工程中的作用17.2 矿业工程数据挖掘实例:提纯预测17.2.1 数据的集成17.2.2 採用插值方式处理缺失值17.2.3 设定建模数据及验证方式17.2.4 多元线性回归模型17.3 小结参考文献第18章 数据挖掘技术在生命科学中的套用18.1 什幺是生命科学18.1.1 生命科学的研究内容18.1.2 生命科学中大数据的特徵18.1.3 数据挖掘技术在生命科学中的作用18.2 生命科学数据挖掘实例:基因表达模式挖掘18.2.1 载入数据18.2.2 数据初探18.2.3数据清洗18.2.4 层次聚类18.2.5 K-means聚类18.3 小结参考文献第19章 数据挖掘在社会科学研究中的套用19.1 什幺是社会科学研究19.1.1 社会学研究的内容19.1.2 社会学研究的方法 19.1.3 数据挖掘在社会科学研究中的套用情况19.2 社会科学挖掘实例:人类行为研究19.2.1 载入数据19.2.2 数据可视化19.2.3 神经网路19.2.4 混淆矩阵评价分类器19.2.5 ROC法评价分类器19.2.6 变数优选19.2.7 用优选的变数训练网路19.3 小结第四篇 理念篇第20章 数据挖掘的艺术20.1 确定数据挖掘目标的艺术20.1.1 数据挖掘中的商业意识20.1.2 商业意识到数据挖掘目标20.1.3 商业意识的培养20.2 套用技术的艺术20.2.1 技术服务于业务的艺术20.2.2 算法选择的艺术20.2.3 与机器配合的艺术20.3 数据挖掘中平衡的艺术20.3.1客观与主观的平衡20.3.2 数据量的平衡20.4 理性对待大数据时代20.4.1 发展大数据应避免的误区20.4.2 正确认识大数据的价值20.4.3 直面大数据套用面临的挑战20.5 小结参考文献第21章 数据挖掘的项目管理和团队管理21.1 数据挖掘项目实施之道21.1.1 确定可行的目标21.1.2 遵守数据挖掘流程21.1.3 项目的质量控制21.1.4 项目效率21.1.5 成本控制21.1.6 数据挖掘过程改进21.2 数据挖掘团队的组建21.2.1 数据挖掘项目团队的构成21.2.2 团队负责人21.3 数据挖掘团队的管理21.3.1 团队管理的目标与策略21.3.2 规範化的管理21.4 优秀数据挖掘人才的修炼21.4.1 专业知识与技术21.4.2 快速获取知识的技能21.4.3 提高表达能力21.4.4 提高管理能力21.4.5 培养对数据挖掘的热情21.5 小结