中国云计算套用丛书:大数据精準挖掘


中国云计算套用丛书:大数据精準挖掘

文章插图
中国云计算套用丛书:大数据精準挖掘【中国云计算套用丛书:大数据精準挖掘】本书以新兴的大数据时代最实用的技术为支撑,以广阔的科技视野和扎实的专业功底,全面介绍了大数据时代的由来和背景,阐述了与大数据分析相关的理论和数学模型 。特别难能可贵的是,本书从蕴含大数据技术的精準数据挖掘工具入手,结合实际的成功案例,将数据精準挖掘的全过程和详细步骤,包括结果验证等方面内容,详详细细并非常专业地展现给读者 。本书理论和实践密切结合,文字流畅,深入浅出,通俗易懂 。通过本书的学习,可以掌握当下大数据所涉及的主要数学分析模组的要点,并比较相互的特点 。同时,能够学会实用的数据挖掘专门技术及经历数据挖掘的全过程 。由于本书所介绍的技术与我国目前大数据运用的领军行业金融、保险、电信、电子商务等密切相连,故本书有很强的实用性,能达到学以致用、边学边用的效果 。本书适合我国IT业的科研机构、相关企业的专业技术人员的学习之用;本书还可以作为政府部门制定大数据发展战略时的参考 。本书也适合全国高等院校的大学生和研究生学习使用;由于本书将理论与具体操作合二为一,故也能作为全国大专院校开设大数据实验课程的教材 。
基本介绍书名:中国云计算套用丛书:大数据精準挖掘
作者:吴昱 
出版日期:2014年3月1日
语种:简体中文
ISBN:7122189929
外文名:Accurate Data Mining for Big Data
出版社:化学工业出版社
页数:174页
开本:16
品牌:化学工业出版社
基本介绍内容简介作者EMC2公司的工作经历、深厚的专业基础、精準的数据挖掘工具、结合实践的成功案例,使本书价值斐然,值得推荐!作者简介吴昱,出生于福建泉州,成长于北京 。八十年代中期毕业于山东海洋学院(现中国海洋大学)海洋系 。曾从事编辑工作,后赴美留学 。九十年代初获美国OldDominionUniversity物理海洋学博士学位,并先后在马里兰大学和美国航空航天局(NASA)Goddard空间飞行中心从事海洋学科研工作 。译作包括《丛林行医录》(人民卫生出版社,1984年出版)、《懒惰》(七宗罪丛书之一,三联书店,2008年出版) 。图书目录第1篇基础篇 第1章大数据时代下的数据挖掘3 1.1大数据的基础4 1.1.1大数据呈现出了数据的新价值4 1.1.2数据採集、存储与提取技术信息化5 1.1.3数据挖掘技术是大数据时代最本质特徵5 1.2大数据的特点6 1.2.1数据规模大6 1.2.2数据类型多6 1.2.3价值密度低,但总体的数据价值高7 1.2.4数据处理有速度要求7 1.3大数据的作用7 1.3.1数据已渗透到社会每个角落8 1.3.2数据成为竞争的新元素8 1.3.3数据创造新价值9 1.3.4大数据地位不断跃升9 1.4大数据与数据挖掘10 1.4.1数据挖掘技术是大数据时代的灵魂和核心10 1.4.2数据挖掘技术涉及多种多类的知识节点10 1.4.3选择最好的数据挖掘工具10 1.5令人期待的大数据时代11 1.6本章小结11 第2章大数据与云计算13 2.1大数据与云计算13 2.1.1大数据与云计算关係13 2.1.2大数据扩展了云计算服务类型14 2.1.3云计算数据存储系统得到推广14 2.1.4追求集成一体化技术14 2.1.5大数据和云计算缺一不可15 2.2云计算的定义与特点15 2.2.1云计算的定义15 2.2.2云计算的特点15 2.3云计算的基本架构16 2.3.1云计算架构的基本层次16 2.3.2云计算架构的服务层次16 2.4云计算的关键技术17 2.4.1虚拟化技术17 2.4.2数据存储技术19 2.4.3资源管理技术19 2.4.4云计算中的编程模型20 2.4.5集成一体化技术21 2.4.6自动化技术21 2.5云计算的商业模式21 2.5.1商业模式是云计算的基石21 2.5.2云计算的市场规模22 2.5.3云计算商业模式分析22 2.6本章小结23 第2篇理论篇 第3章数据挖掘的主要方法及工具27 3.1数据挖掘主要方法27 3.1.1决策树分类27 3.1.2神经网路33 3.1.3Logistic回归方法37 3.1.4聚类分析38 3.1.5数据挖掘方法比较39 3.1.6分类器的评估与选择40 3.2流行数据分析平台及数据挖掘工具介绍46 3.3本章小结52 第4章Logistic回归模型53 4.1多元线性回归模型53 4.2Logistic回归模型55 4.3Logistic回归模型的参数估计56 4.4Logistic回归模型中回归係数的意义58 4.5Logistic回归模型的拟合优度63 4.6Logistic回归係数的显着性检验72 4.7Logistic回归模型的预测準确性75 4.8回归变数的选择与逐步回归77 4.9本章小结83 第5章数据挖掘建模过程86 5.1CRISPDM86 5.2SAS数据挖掘方法论——SEMMA88 5.3数据挖掘经验谈89 5.4本章小结89 第3篇套用篇 第6章金融行业套用1——信用评分93 6.1国内信用卡业务现状93 6.2信用评分模型的起源、类别和发展94 6.3信用评分的步骤95 6.4实例演示97 6.4.1二元变数预测建模98 6.4.2图形版建模输出讲解1——效果评价101 6.4.3图形版建模输出讲解2——评分卡档案103 6.5本章小结109 第7章金融行业套用2——信用卡催收评分110 7.1信用卡催收评分模型背景介绍110 7.2实例演示112 7.2.1图形版连续变数预测建模112 7.2.2图形版建模输出114 7.3本章小结116 第8章保险电销套用——寻找目标客户117 8.1背景介绍117 8.2案例数据展示及分析118 8.2.1业务目标118 8.2.2数据展示118 8.3数据挖掘与分析过程120 8.3.1数据预处理120 8.3.2造变数122 8.3.3生成挖掘表123 8.3.4建立回响模型125 8.3.5建模结果分析125 8.4数据挖掘结果的运用129 8.5本章小结129 第9章电信行业套用——客户流失预测131 9.1背景介绍131 9.2案例数据展示及分析131 9.2.1商业理解131 9.2.2数据理解132 9.2.3数据準备132 9.3建立打分模型133 9.4分析建模结果134 9.5数据挖掘结果的运用136 9.6本章小结137 第10章商品零售行业套用——购物篮分析138 10.1某连锁零售公司的背景介绍138 10.2购物篮分析的基本内容139 10.2.1同次购买的基本概念139 10.2.2同次购买的关联规则质量的衡量140 10.2.3购买分析的实现141 10.2.4下次购买的基本概念142 10.2.5下次购买行为预测142 10.3购物篮分析——MBA工具的使用145 10.3.1MBA工具的用途145 10.3.2MBA工具的使用146 10.3.3MBA工具的输出146 10.4本章小结149 第11章实战项目——交叉销售150 11.1背景介绍150 11.2案例数据展示及分析151 11.2.1数据展示151 11.2.2业务目标及分析要求152 11.3数据挖掘过程152 11.3.1数据预处理152 11.3.2划分数据集及生成目标变数153 11.3.3生成衍生变数154 11.3.4生成挖掘表159 11.4建立打分模型160 11.5结果分析161 11.6本章小结162 第12章收益预测163 12.1背景介绍163 12.2数据展示163 12.2.1原始数据集展示163 12.2.2数据挖掘表的生成165 12.3图形版建模166 12.3.1建模过程166 12.3.2模型输出166 12.3.3为新数据集打分168 12.4本章小结170 参考文献172序言过去,在产品经济年代,一提到“基础设施”,人们便知道这是指:水、电、气;路、桥、隧;铁(路)、公(路)、机(场)等 。因为原材料与製成品的运输、产品的製造必须仰仗这些基础设施 。可是在数位化、服务经济的今天,“基础设施”还得加上“大、云、平、移”(大云平移)这几项 。那幺,何为大云平移? 大就是大数据,即通过云计算、移动网际网路等手段,从各类数据中快速获得有价值信息的能力 。它具有体量巨大(Volume)、类型繁多(Variety)、价值低密度(Value)和处理快速(Velocity)的4V特点 。它将在海量数据中挖掘事物的规律和特徵,这是传统科学家和传统科研方法永远做不到的 。云就是云计算,从本质上说就是一种公共服务,就如100年前电的套用也是公共服务一样,现已证明云的普及只是转瞬之间发生的事 。平就是平台,有交易平台、媒体平台、支付平台、软体平台等 。全球品牌500强前十名中有6个是平台型企业;中国500强企业前40名中,利润最丰厚的是平台型企业,如百度、网易、腾讯、阿里巴巴等 。平台型企业是当下企业的巨无霸 。移就是移动网际网路,即网际网路加移动通信,近年来它在国内外的发展极为迅速,未来十年,它的全方位套用将让人怦然心动 。作为一种基础设施,大云平移正影响着许多产业 。比如银行的前台(业务部门、市场拓展)、中台(信贷审批、市场监控、风险管理、规划与财务、政策管理与监管合规)与后台(集中处理、信息系统、呼叫中心、集团后勤),都有体现 。2008年,银行后台开始套用这些基础设施;2009年,前台也开始运用大数据作分析,包括客户分级、精準行销、易流失客户群体的评判等 。至于中台,例如银行规划商业网点的布点布局问题,在产品经济时代,只是简单地套用线性规划、运筹学就可以确定了 。而在目前的数位化服务经济时代,银行商业网点布局会从资金流、信息流出发,更多地採用数位化、大数据等技术来解决 。比如IBM提供的MCLP(最大覆盖选址)技术,其最佳化后的整体解决方案就很有效 。大云平移,精彩无比,但入门之功源起(大)数据挖掘 。数据挖掘(DataMining)是从大量的、不完全的、模糊的、随机的、实际套用的数据中提取潜在有用的信息和知识的过程,可以帮助决策者找寻规律、预测趋势、防範疏漏 。数据挖掘是一门交叉学科,涉及资料库、人工智慧、机器学习、统计学、模式识别、高性能计算等等 。一些专家认为,数据挖掘的一般过程是:①数据準备(包括数据清理、数据集成和数据选择等);②数据挖掘;③模式评估;④知识表示 。常用的数据挖掘模式包括:关联规则模式、生物数据的序列比对、图模式、空间数据挖掘模式等 。据国际知名权威机构IDC对欧洲和北美62家採用了数据挖掘技术的企业的调查分析发现,这些企业的3年平均投资回报率为401%,其中25家企业的投资回报率超过600%! 海量数据是金矿银矿,但海量数据不是金银财宝 。挖掘、採集矿藏并筛选冶炼之后才能获取财富 。面对浩瀚的结构性、非结构性的海量数据,传统技术已苍白无力 。不过,知识就是力量,近年来国内外已出版了多本有关大数据的书籍,可资学习 。但迄至今日,概念类的偏多,套用性强的书籍不多,业界和企业亟盼急需的是实用的大数据技术及成功案例 。《大数据精準挖掘》是握有国内外众多成功案例、讲授国内外有效地套用据数挖掘原理与操作的一本新书、好书 。“基础在(大)数据、游走在云端,运作在平台、胜出在移动”是阿里巴巴、腾讯等企业的成功秘籍之一 。如果说这一秘籍昭示了在未来“大云平移”是企业不可或缺的、时时处处都将使用的基础设施的话,那幺,《大数据精準挖掘》从套用数学的角度揭示了数据挖掘将是构造这一基础设施的基础设施 。中欧国际工商学院院长、管理学教授 上海数位化与网际网路研究中心主任 2013年8月 名人推荐云计算是IT领域内计算模式、技术、产业、套用的新一轮革新 。近年来,IT领域又一次颠覆性的技术变革——“大数据”时代已经降临 。深度融合“云计算”与“大数据”的技术、产业与套用必将深刻变革人类社会的方方面面,成为我国科技创新大业的重要组成部分,为中华民族复兴伟业作出重要的贡献 。期望《中国云计算套用丛书》能在这次革新浪潮中作出积极的贡献 。——中国工程院院士 李伯党 云计算是一种理念,它正在引起数据处理与服务的革命,改变我们的社会生活,推动智慧世界的发展 。云计算与大数据革命是管理科学与工程的前沿之一,也是中国管理科学与工程学会主要的学科战略方向之一 。抓住它,就会把挑战转化为机会 。本丛书是该领域的重要的阶段性的概括和对未来发展的探索,它值得高校管理学科的学者与各界相关人士关注,共同探讨这一重大科学问题 。——中国管理科学与工程学会常务副理事长 马庆国 人类社会已进入了全资讯时代,人、物与信息之间的互动越来越广泛;云计算作为物联网的“大脑”,已成为挖掘和利用大数据宝藏的利器 。本丛书是中国云计算套用联盟集体智慧的结晶,旨在推动云计算在我国各领域各行业的落地套用 。——中国云计算套用联盟主席团主席 汤兵勇 云计算技术作为信息产业发展的一个新阶段,正在改变着我们的生活 。今天,每个人都不得不了解一些云计算的基本知识 。本丛书从云计算技术的概念、原理和套用等多个维度,帮助基层的IT技术人员全面了解云计算技术和套用知识;帮助决策层洞悉发展方向、制定发晨觇略,是一套难得的云计算套用指导丛书 。丛书将为推动我国信息化建设朝着更高效、更易用和更普及的方向变革作出重要贡献 。——曙光信息产业股份有限公司总裁 云计算在中国的发展始于2008年,概念普及于2009年,理念深入于2012年 。与世界上多数国家一样,中国已将云计算列入国家战略发展规划,并赋有特色,主要包括:政府高度重视、中小企业潜力巨大、不同于西方的文化传统和法律法规 。相信本丛书的出版能够有效地、实际地在帮助中国政府和企业向云计算的转型和创新方面尽力所能及之力 。——微软亚太研发集团中国云计算创新中心资深技术总监 伴随着云计算在技术创新、商业模式、服务交付的不断融合与成熟,云计算已经从“云里雾里”的概念热炒阶段进入到真正的“化云为雨”的落地阶段 。以云计算、物联网、大数据、移动计算为核心的平台服务,必将支撑起巨大的平台经济,为各行业带来变革性的影响!‘中国云计算套用丛书》的出版可谓各行各业云套用的“及时雨” 。——IBM大中华区云计算实验室总经理 秦磊