本书系统介绍了Hadoop生态系统的核心开发技术,包括:Hadoop大数据技术概述、Hadoop开发及运行环境搭建、HDFS分布式文件系统、MapReduce分布式计算技术框架、Hadoop的文件I/O以及YARN资源管理器、Zookeeper分布式协调服务、Hadoop分布式集群搭建与管理、Hive 数据仓库和HBase分布式数据库、Hadoop生系系统常用开发技术,并通过广电收视率数据统计分析和视频网站爬虫系统开发两个实践项目,详细直观地介绍了大数据项目的开发思路及流程。 本书通俗易懂、结构清晰,内容层层递进,理论与实践相结合,通过大量的实战案例,引导读者逐步深入学习,从而全面掌握Hadoop生态系统相关技术。
本书既可作为高等院校大学本专科计算机专业的教学用书,也可作为相关技术人员的参考用书。本书配套授课电子课件,需要的教师可登录www.cmpedu.com免费注册,审核通过后下载,或联系编辑索取(QQ:2966938356,电话:010-88379739)。
目 录
前言
第1章 Hadoop大数据技术概述
1.1 Hadoop 的前世今生
1.2 Hadoop生态系统简介
1.3 Hadoop优势及应用领域
1.4 Hadoop与云计算
1.5 Hadoop与Spark
1.6 Hadoop 与传统关系型数据库
第2章 Hadoop开发及运行环境搭建
2.1 Hadoop集群环境搭建概述
2.2 Hadoop伪分布式集群环境搭建
2.3 搭建MyEclipse开发环境
第3章 HDFS分布式文件系统
3.1 HDFS体系结构详解
3.2 HDFS的Shell操作
3.3 HDFS的Java API操作
3.4 HDFS的新特性——HA
3.5 实战:小文件合并程序编写及运行
第4章 MapReduce分布式计算框架
4.1 初识MapReduce
4.2 MapReduce编程模型
4.3 MapReduce运行框架
4.4 实战:统计相同字母组成的不同单词
第5章 Hadoop的文件I/O
5.1 Hadoop文件I/O概述
5.2 Hadoop文件I/O的数据完整性
5.3 Hadoop文件的序列化
5.4 Hadoop数据的解压缩
5.5* 基于文件的数据结构
5.6* 实战:Hadoop源码编译及Snappy压缩的配置使用
第6章 YARN资源管理器
6.1 初识YARN
6.2 YARN基本架构
6.3 YARN的工作原理
6.4 YARN的容错性
6.5 YARN HA
第7章* Zookeeper分布式协调服务
7.1 Zookeeper概述
7.2 Zookeeper安装配置
7.3 Zookeeper 服务
7.4 Zookeeper的应用
7.5 实战:模拟实现集群配置信息的订阅与发布
第8章 Hadoop分布式集群搭建与管理
8.1 物理集群准备
8.2 集群规划
8.3 集群安装前的准备
8.4 Hadoop相关软件安装
8.5 Hadoop集群环境搭建
8.6 集群启停
8.7* 主机维护操作
8.8* 集群节点动态增加与删除
8.9* 集群运维技巧
第9章 Hive数据仓库
9.1 初识Hive
9.2 Hive的原理及架构
9.3 Hive的安装部署
9.4 Hive数据库相关操作
9.5 Hive数据表相关的操作
9.6 Hive的数据操作语言DML
9.7 Hive的数据查询语言DQL
9.8 实战:通过Hive分析股票走势规律
第10章 HBase分布式数据库
10.1 HBase 概述
10.2 HBase 数据模型
10.3 HBase核心概念
10.4 HBase集群安装部署
10.5 HBase Shell 工具
10.6 HBase Java客户端
10.7 实战:MapReduce批量操作HBase
第11章 Hadoop生态系统常用开发技术
11.1 Sqoop数据导入导出工具
11.2 Flume日志采集系统
11.3 Kafka分布式消息系统
11.4* ElasticSearch全文检索工具
11.5* Storm流式计算框架
11.6* Spark内存计算框架
第12章 项目实践:广电收视率数据统计分析
第13章* 项目实践:视频网站爬虫系统开发
参考文献