本书通过理论任务和实践任务相结合的方式重点介绍了Hadoop生态圈,Spark内存计算框架,NoSql数据库存储,数据可视化,Python大数据处理等大数据关键技术,并提供大量实践及综合案例。本书通过理论任务和实践任务相结合的方式重点介绍了Hadoop生态圈,Spark内存计算框架,NoSql数据库存储,数据可视化,Python大数据处理等大数据关键技术,并提供大量实践及综合案例。
第1章 大数据技术概述
1.1 理论任务:认识大数据
1.1.1 大数据概念
1.1.2 大数据处理的关键技术
1.1.3 大数据软件
1.2 实践任务:大数据实验环境
1.2.1 安装虚拟机、Linux系统
1.2.2 Linux常用命令
第2章 Had00p初体验
2.1 理论任务:初识Hadoop
2.1.1 Hadoop概述
2.1.2 Hadoop发展简史
2.1.3 Hadoop版本
2.1.4 Hadoop生态圈
2.2 实践任务:Hadoop安装与配置
第3章 Hadoop分布式文件系统
3.1 理论任务:了解HDFs
3.1.1 认识HDFS
3.1.2 HDFS相关概念
3.1.3 HDFS体系结构
3.1.4 HDFS运行原理及保障
3.2 实践任务:HDFS基本作
3.2.1 使用HDFS Shell访问
3.2.2 使用JAVA API与HDFS交互
第4章 Hadoop分布式计算框架
4.1 理论任务:认识MapReduce
4.1.1 Mapredlice简介
4.1.2 MapR iuce编程模型
4.1.3 MapReduee实例分析
4.2 实践任务:MapRedLice应用开发
第5章 Hadoop分布式数据库HBase
5.1 理论任务:认识HBase
5.1.1 HBase简介
5.1.2 HBase数据模型
5.1.3 HBase体系结构
5.2 实践任务:HBase基本作
5.2.1 HBase安装与配置
5.2.2 HBase Shell命令
5.2.3 HBase编程
第6章 NoSQL数据库
6.1 理论任务:了解NoSQL数据库
6.1.1 NoSQL简介
6.1.2 NoSQL类型
6.1.3 NoSQL数据库三大基石
6.1.4 从NoSQL到NewSQL数据库
6.2 实践任务:典型NoSQL数据库的安装和使用
6.2.1 Redis的安装和使用
6.2.2 MongoDB的安装和使用
第7章 数据仓库Hive
7.1 理论任务:认识Hive
……