大数据实训案例——电信用户行为分析(Scala版)
定 价:45 元
- 作者:林子雨
- 出版时间:2019/5/1
- ISBN:9787115501233
- 出 版 社:人民邮电出版社
- 中图法分类:F626-39
- 页码:179
- 纸张:
- 版次:01
- 开本:16开
本书详细介绍了一个大数据应用案例——电信用户行为分析,案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJ IDEA、Spring等系统和软件的安装与使用方法。案例采用的编程语言是Scala和Java。
本书是厦门大学作者团队长期经验总结的结晶。本书是在厦门大学《大数据技术原理与应用》入门级大数据教材的基础之上编写的。为了确保教程质量,在编著出版纸质教材之前,实验室已经于2016年10月通过实验室官网免费发布共享了简化版的Spark在线教程和相关教学资源,同时,该在线教程也已经用于厦门大学计算机科学系研究生的大数据课程教学,并成为全国高校大数据课程教师培训交流班的授课内容。实验室根据读者对在线Spark教程的大量反馈意见以及教学实践中发现的问题,对Spark在线教程进行了多次修正和完善,所有这些前期准备工作,都为纸质教材的编著出版打下了坚实的基础。
林子雨(1978-),男,博士,厦门大学计算机科学系助理教授,厦门大学云计算与大数据研究中心创始成员,厦门大学数据库实验室负责人,中国计算机学会数据库专委会委员,中国计算机学会信息系统专委会委员。于2001年获得福州大学水利水电专业学士学位,2005年获得厦门大学计算机专业硕士学位,2009年获得北京大学计算机专业博士学位。中国高校首个“数字教师”提出者和建设者(http://www.cs.xmu.edu.cn/linziyu),2009年至今,“数字教师”大平台累计向网络免费发布超过500万字高价值的教学和科研资料,累计网络访问量超过500万次。 主要研究方向为数据库、数据仓库、数据挖掘和大数据,发表期刊和会议学术论文多篇,并作为课题负责人主持了1项国家自然科学基金、1项福建省自然科学基金项目和1项福建省教改课题。曾作为志愿者翻译了Google Spanner、BigTable和《Architecture of a Database System》等大量英文学术资料,与广大网友分享,深受欢迎。2013年开始在厦门大学开设大数据课程,并因在教学领域的突出贡献和学生的认可,成为2013年度和2017年度厦门大学教学类奖教金获得者。获得2017年福建省精品在线开放课程、2018年厦门大学高等教育教学成果特等奖、2018年福建省高等教育教学成果二等奖。 主讲课程:《大数据处理技术》。 个人主页:http://www.cs.xmu.edu.cn/linziyu。 E-mail: ziyulin@xmu.edu.cn。 数据库实验室网站:http://dblab.xmu.edu.cn。 建设了高校大数据课程公共服务平台(http://dblab.xmu.edu.cn/post/bigdata-teaching- platform/),成为全国高校大数据教学知名品牌。平台为教师教学和学生学习大数据课程提供包括教学大纲、讲义PPT、学习指南、备课指南、实验指南、上机习题、授课视频、技术资料等全方位、一站式免费服务,平台年访问量超过100万次,同时提供面向高校的大数据实验平台建设方案和大数据课程师资培训服务。
第1章 案例概述 1
1.1 案例目的 1
1.2 适用对象 1
1.3 时间安排 1
1.4 预备知识 2
1.5 硬件要求 2
1.6 软件工具 2
1.7 数据集 3
1.8 案例任务 3
1.9 实验步骤 4
1.10 在线资源 6
1.10.1 在线资源一览表 6
1.10.2 下载专区 6
1.10.3 先修课程 7
1.10.4 大数据课程公共服务平台 7
1.11 本章小结 8
第2章 大数据实验环境搭建 9
2.1 Linux系统及相关软件使用方法 9
2.1.1 Shell 10
2.1.2 root用户 10
2.1.3 创建普通用户 10
2.1.4 sudo命令 11
2.1.5 常用的Linux系统命令 11
2.1.6 文件解压缩 12
2.1.7 常用的目录 12
2.1.8 目录的权限 13
2.1.9 更新APT 13
2.1.10 切换中英文输入法 14
2.1.11 vim编辑器的安装和使用方法 15
2.2 JDK的安装 15
2.3 Scala的安装 16
2.4 Hadoop的安装和基本使用方法 17
2.4.1 安装Hadoop前的准备工作 17
2.4.2 安装Hadoop 19
2.4.3 HDFS操作常用Shell命令 22
2.5 Spark的安装和基本使用方法 24
2.5.1 下载安装文件 24
2.5.2 配置相关文件 25
2.5.3 Spark和Hadoop的交互 25
2.5.4 在spark-shell中运行代码 26
2.6 MySQL数据库的安装和基本
使用方法 28
2.6.1 安装MySQL 28
2.6.2 MySQL常用操作 31
2.7 安装Tomcat 33
2.7.1 安装方式的选择 33
2.7.2 下载安装文件 33
2.7.3 安装和启动Tomcat 34
2.8 本章小结 35
第3章 IntelliJ IDEA开发工具的
安装和使用方法 36
3.1 下载和安装IDEA 36
3.2 下载Scala插件安装包 36
3.3 启动IDEA 37
3.4 为IDEA安装Scala插件 40
3.5 配置项目的JDK 44
3.6 使用IDEA开发WordCount程序 45
3.6.1 创建一个新项目WordCount 46
3.6.2 为WordCount项目添加Scala
框架支持 48
3.6.3 设置项目目录 51
3.6.4 新建Scala代码文件 53
3.6.5 配置pom.xml文件 55
3.6.6 更新Maven的依赖文件 57
3.6.7 运行WordCount程序 57
3.6.8 打包WordCount程序生成
JAR包 59
3.6.9 把JAR包提交到Spark中运行 63
3.7 本章小结 63
第4章 使用Spring、Spring
MVC和MyBatis开发
网页应用 64
4.1 MVC模型 64
4.2 Spring框架 65
4.3 Spring MVC框架 66
4.3.1 网页开发中的“请求-响应”
模型 66
4.3.2 采用Spring MVC框架后的
网页请求处理过程 67
4.4 MyBatis 68
4.5 一个简单的网页应用开发实例 69
4.5.1 新建项目 69
4.5.2 配置pom.xml文件 71
4.5.3 设置项目目录 74
4.5.4 编写代码文件 75
4.5.5 对项目文件进行编译打包 77
4.5.6 把WebDemo.war发布到
Tomcat中 81
4.5.7 实现Spring MVC和
Spring的整合 83
4.5.8 实现Spring、Spring MVC和
MyBatis三者的融合 86
4.5.9 把后端数据提交给网页显示 93
4.6 在IntelliJ IDEA中使用Tomcat
调试网页程序 96
4.7 本章小结 104
第5章 使用ECharts制作
可视化图表 105
5.1 ECharts简介 105
5.2 ECharts图表制作方法 105
5.2.1 下载ECharts 105
5.2.2 在HTML中引入ECharts 106
5.2.3 绘制一个简单的图表 106
5.2.4 导出图片 107
5.3 可视化图表制作实例 109
5.3.1 快速制作图表方法 109
5.3.2 实例1:柱状图 110
5.3.3 实例2:饼状图 113
5.4 本章小结 117
第6章 电信用户行为分析
实现过程 118
6.1 数据分析整体过程 118
6.2 本地数据集上传到HDFS 119
6.2.1 数据集下载 119
6.2.2 把数据集上传到HDFS 119
6.3 在MySQL中创建数据库 120
6.3.1 启动进入MySQL Shell环境 120
6.3.2 创建一个数据库 120
6.3.3 创建一个数据汇总表 120
6.3.4 创建一个数据明细表 121
6.3.5 创建一个数据原始明细表 121
6.3.6 创建一个区域维表 121
6.3.7 创建一个渠道维表 121
6.3.8 创建一个请求类型维表 122
6.3.9 创建五个视图 122
6.3.10 添加MySQL数据库
驱动程序JAR包 123
6.4 开发Spark程序分析用户行为 123
6.4.1 新建项目 124
6.4.2 设置依赖包 125
6.4.3 设置项目目录 127
6.4.4 新建Scala代码文件 127
6.4.5 配置pom.xml文件 133
6.4.6 在IDEA中运行程序 136
6.4.7 生成应用程序JAR包 138
6.4.8 使用spark-submit命令
运行程序 142
6.5 使用Spring MVC框架进行
数据可视化分析 144
6.5.1 新建项目 144
6.5.2 配置pom.xml文件 145
6.5.3 设置项目目录 148
6.5.4 编写代码文件 150
6.5.5 生成应用程序JAR包 173
6.5.6 把网页应用部署到Tomcat
服务器中 175
6.6 本章小结 178
参考文献 179