本教材共9章,主要内容安包括:大数据概述,Linux操作系统的安装及常用命令,Hadoop集群部署,HDFS基本操作,Hbase数据库的安装与应用,MapReduce应用开发、Hive数据仓库,Flume和Sqoop的安装与使用、数据可视化技术。
项目1 大数据概述
任务1 初识大数据
1.1.1 大数据的基本特征
1.1.2 大数据的影响
1.1.3 大数据处理的基本流程
1.1.4 大数据与云计算、物联网的关系
任务2 认识Hadoop生态系统
1.2.1 Hadoop生态系统
1.2.2 Hadoop行业应用案例
项目小结
课后练习
项目2 Linux操作系统的安装及常用命令
任务1 安装及配置Linux虚拟机
2.1.1 创建Linux虚拟机
2.1.2 搭建FTP远程连接虚拟机
2.1.3 在虚拟机上安装软件
任务2 Linux系统常用命令
2.2.1 熟练使用文件目录类命令
2.2.2 熟练使用vim编辑器
项目小结
课后练习
项目3 Hadoop集群部署
任务1 Hadoop安装与配置
3.1.1 创建hadoop用户
3.1.2 安装SSH,配置SSH无密码登录
3.1.3 安装Java环境
3.1.4 单机模式安装
3.1.5 伪分布模式安装
任务2 Hadoop的启动和测试
任务3 Hadoop伪分布模式实例
项目小结
课后练习
项目4 HDFS基础操作
任务1 认识HDFS
4.1.1 HDFS工作原理
4.1.2 HDFS常用命令
任务2 上传文件到HDFS目录
4.2.1 HDFS中新建目录
4.2.2 3:传和下载文件
4.2.3 查看文件内容
4.2.4 删除文件或目录
任务3 编写HDFS程序
4.3.1 读取HDFS文件
4.3.2 向HDFS中写入文件
4.3.3 判断文件是否存在
项目小结
课后练习
项目5 HBase数据库的安装与应用
任务1 认识HBase
5.1.1 HBase简介
5.1.2 HBase基本概念
5.1.3 HBase体系架构
任务2 HBase开发环境安装与配置
5.2.1 单机模式安装与配置
5.2.2 伪分布模式安装与配置
任务3 使用HBase Shell管理分布式数据库
5.3.1 HBase Shell命令简介
5.3.2 HBase Shell的使用
任务4 HBase编程
5.4.1 开发HBase应用程序
5.4.2 HBase编程实现数据存储管理
项目小结
课后练习
项目6 MapReduce应用开发
任务1 认识MapReduce编程模型
6.1.1 MapReduce概念
6.1.2 MapReduce编程模型
6.1.3 MapReduce数据类型
任务2 使用Eclipse创建MapReduce工程
6.2.1 下栽安装Hadoop-Eclipse-Plugin插件
6.2.2 配置MapReduce环境
6.2.3 在Eclipse中操作HDFS中的文件
任务3 MapReduce实现英语单词统计
任务4 MapReduce实现气象数据分析
项目小结
课后练习
项目7 Hive数据仓库
任务1 认识Hive
7.1.1 Hive简介
7.1.2 Hive架构设计
7.1.3 Hive与传统关系数据库的对比
任务2 Hive安装与配置
任务3 Hive Shell操作
7.3.1 Hive的数据类型
7.3.2 Hive基本操作
任务4 Hive交易数据统计实战
项目小结
课后练习
项目8 Flume和Sqoop的安装与使用
任务1 认识F1ume
8.1.1 Flome相关概念
8.1.2 Flume架构
8.1.3 Flume常用的类型
8.1.4 F1ume常用操作命令
任务2 Flume环境搭建
8.2.1 Flume安装与配置
8.2.2 Flume采集日志信息到HDFS
任务3 安装Sqoop
任务4 使用Sqoop实现数据迁移
8.4.1 Sqoop命令介绍
8.4.2 使用Sqoop将数据从MySQL导入HDFS
8.4.3 使用Sqoop将数据从HDFS导出MySQL
8.4.4 使用Sqoop将数据从MySQL导入Hive
项目小结
课后练习
项目9 数据可视化技术
任务1 数据可视化简介
9.1.1 数据可视化概述
9.1.2 数据可视化常用工具
任务2 使用ECharts绘制图表
9.2.1 ECharts图表制作示例
9.2.2 绘制未来一周气温变化图
9.2.3 绘制网站访问南丁格尔图
项目小结
课后练习
参考文献