基于Hadoop的大数据分析和处理

基于Hadoop的大数据分析和处理基本信息基于Hadoop的大数据分析和处理作 译 者:魏祖宽,刘兆宏出版时间:2017-06千 字 数:510版 次:01-01页 数:268开 本:16开I S B N :9787121317392内容简介本书基于云计算和大数据,介绍大数据处理和分析的技术,分为两部分 。第一部分介绍Hadoop基础知识,内容包括:Hadoop的介绍和集群构建、Hadoop的分部式系统架构、MapReduce及其套用、Hadoop的版本特徵及进化 。第二部分以云计算为主题,详细论述利用Hadoop的大数据分析和处理工具,以及NoSQL技术,内容包括:云计算和Hadoop、Amazon服务中的MapReduce套用、Hadoop套用下的大数据分析、NoSQL、HBase 。本书不单纯地讲述理论和概念,而是基于目具体的工具和技术(Hadoop和NoSQL),利用大量实际案例,通过实际的操作和套用来组织大数据处理和分析技术,有利于读者从工程套用的角度进行实际掌握和利用 。适合相关专业的本科生、研究生和软体工程师学习 。目录信息第1章 Hadoop的介绍和集群构建21.1 Hadoop介绍21.1.1 云计算和Hadoop21.1.2 Hadoop的历史41.2 Hadoop构建案例61.2.1 欧美构建案例61.2.2 韩国构建案例71.3 构建Hadoop集群81.3.1 分散式档案系统81.3.2 构建Hadoop集群的準备事项121.3.3 构建伪分散式171.3.4 分散式集群(Cluster)构建291.4 Hadoop界面361.4.1 Hadoop分散式档案系统指令界面361.5 总结40第2章 Hadoop分散式处理档案系统412.1 Hadoop分散式档案系统的设计422.2 概观Hadoop分散式档案系统的整体构造432.3 Namenode的角色442.3.1 元数据管理442.3.2 元数据的安全保管——Edits和Fslmage档案及Secondary Namenode492.3.3 Datanode管理522.4 Datanode的角色592.4.1 block管理592.4.2 数据的複製和过程612.4.3 Datanode添加632.5 总结65第3章 大数据和MapReduce673.1 大数据的概要683.1.1 大数据的概念693.1.2 大数据的价值创造693.2 MapReduce713.2.1 MapReduce 示例:词频统计(Word Count)713.2.2 MapReduce开原始码:词频统计(Word Count)——Java基础753.2.3 MapReduce 开原始码:词频统计(Word Count)——Ruby语言基础763.3 MapReduce的结构783.3.1 通过案例了解MapReduce结构793.3.2 从结构性角度进行的MapReduce最最佳化方案813.4 MapReduce的容错性(Fault Tolerance)853.5 MapReduce的编程863.5.1 搜寻863.5.2 排序873.5.3 倒排索引873.5.4 查找热门词883.5.5 合算数字893.6 构建Hadoop:通过MapReduce的案例介绍903.6.1 单词频率统计MapReduce的编程913.6.2 MapReduce—用户界面953.7 总结99第4章 Hadoop版本特徵及进化1014.1 Hadoop 0.1x版本的API1034.2 Hadoop附加功能(append)1074.3 Hadoop安全相关功能1094.4 Hadoop 2.0.0 alpha1114.4.1 安装Hadoop 2.0.01124.4.2 Hadoop分散式档案系统的更改1204.4.3 跨时代MapReduce框架:YARN1284.5 总结135第5章 云计算和Hadoop1375.1 大规模Hadoop集群的构建和案例1385.2 云基础设施服务的登场1395.2.1 Amazon云服务1415.3 在Amazon EC2中构建Hadoop集群1565.3.1 Apache Whirr1565.3.2 构建Hadoop 集群1575.4 总结160第6章 Amazon Elastic MapReduce的倍增利用1616.1 Amazon EMR的活用1626.1.1 Amazon EMR的概念1626.1.2 Amazon EMR的构造1626.1.3 Amazon EMR的特徵163 6.1.4 Amazon EMR的 Job Flow和Step1646.1.5 使用Amazon EMR前需要了解的事项1656.1.6 Amazon EMR的实战运用1706.2 总结178第7章 Hadoop套用下的大数据分析1797.1 Hadoop套用下的机器学习(Mahout)1807.1.1 设定及编译1817.1.2 K-means 聚类算法1837.1.3 基于矢量相似度的协同过滤1887.1.4 小结1947.2 基于Hadoop的统计分析Rhive(R and Hive)1957.2.1 R的设定及灵活运用1957.2.2 Hive的设定及灵活运用1987.2.3 RHive的设定及灵活运用2017.2.4 小结2077.3 利用Hadoop的图形数据处理Giraph2077.4 总结216第8章 数据中的DBMS,NoSQL2178.1 NoSQL出现背景:大数据和Web 2.02188.1.1 基于Web 2.0的大数据的登场2188.1.2 基于大数据的NoSQL的登场2218.1.3 适合大数据和Web 2.0的资料库NoSQL2228.2 NoSQL的定义和类别特徵2268.3 NoSQL数据模型概要和分类2298.4 NoSQL数据模型化2318.4.1 NoSQL数据模型化基本概念2328.4.2 一般的NoSQL建模方法2348.5 主要NoSQL的比较和选择2398.6 总结241第9章 Hbase:Hadoop中的NoSQL2439.1 Hadoop生态界中的HBase2449.2 HBase介绍2489.3 HBase数据模型2509.3.1 map2509.3.2 持续性(persistent)2509.3.3 分布性(distributed)2509.3.4 排序性(sorted)2509.3.5 多维性(multidimensional)2519.3.6 稀疏性(sparse)2549.4 HBase的资料库模式2559.5 HBase构造2599.6 HBase的构建及运行2619.7 HBase的扩展——DuoBase中的HBase2649.8 HBase的用户定义索引266 9.8.1 HBase用户定义索引—HFile格式的扩展2679.8.2 HBase用户定义索引—Region的扩展2679.9 总结270