本书作为大数据基础教材,包括七章内容。前面五章系统、全面地介绍了关于大数据技术及应用的基本知识和技能,后面两章是大数据平台的具体应用和案例实战。第1章主要介绍大数据相关概念及基础知识;第2章介绍大数据与人工智能的关系,以及大数据在人工智能中的典型应用;第3章阐述大数据开发各环节典型技术,使读者能够对大数据系统开发流程及关键技术建立一个相对系统的认知;第4章较系统地介绍了大数据开发系列平台,并讲解了依托平台的完整大数据应用开发过程;第5章详细分析了几个典型大数据应用案例的实现过程;第6章和第7章是结合前五章内容的具体实验,其中第6章介绍了Noah大数据基础引擎管理平台、Dana Studio数智开发平台及PandaBI数智决策平台的操作应用,第7章详细讲解了基于Dana Studio和PandaBI实现政务舆情分析大数据应用的实验过程。
本书遵循理实一体的内容组织原则。理论部分通过大量案例加以演示说明,力求降低读者的阅读门槛;实验部分围绕真实应用案例展开,让读者能够对大数据应用开发建立系统的认知。
本书是大数据相关专业的基础通识教材,可作为高职高专及应用型本科院校计算机类和电子信息类相关专业的专业教材,也可作为其他专业的参考教材,同时也是大数据技术人员的参考读物。
随着物联网、云计算和人工智能等新一代信息技术的迅猛发展,大数据以势不可挡的趋势向我们袭来,并影响和改变着人类的生活方式。当今,无处不在的移动终端、各类智能交互软件、监控传感器等每分每秒都在产生着大量的数据。与此同时,数据的价值也在不断凸显,如何更好地发现和利用海量数据产生的价值,成为大数据时代面临的重要课题。
从本质上来说,大数据代表了一种新型的能力。人们通过分析海量数据,可以从中获得巨大的价值。在当今大数据的时代,数据已经转型为一种新的经济资产,犹如在日常生活中所需要的货币和黄金。目前,大数据的竞争已经引领着全球商业展开一场新的变革。传统的数据处理技术已经不能满足对海量数据的处理需求,大数据处理技术如雨后春笋般涌现。
本书针对计算机、电子信息、信息管理等相关专业高职高专学生的发展需求,从初学者易于理解的角度,用通俗易懂的语言、简单明了的图表等将大数据基础知识如数家珍地呈现出来。
本书的主要特点如下:
(1) 语言精练易懂,图文并茂。本书采用通俗易懂的语言将晦涩的理论知识娓娓道来,通过搭配清晰明了的图片将知识更形象、更清楚地展现出来。
(2) 以平台为依托,结合案例分析。本书以一些主流的软件平台为依托,介绍具体知识的应用,案例设计力求典型、创新,案例分析详细具体、清楚到位。
(3) 理论与实践结合紧密,相辅相成。本书使用理论解决实际问题,对知识进一步扩展,做到理论不再抽象,实践不再盲目,让学生不仅能够理解理论知识,而且可以熟练地动手进行操作。
(4) 注重立体化教材建设。通过主教材、电子课件、电子教案、实训指导、配套视频和习题等教学资源的有机结合,提高教学服务水平,为高素质技能人才的培养创造良好条件。
由于大数据技术发展日新月异,加上编者水平有限,书中难免存在疏漏之处,恳请广大同行、专家及读者批评指正。
第1章 大数据基础 1
1.1 理解大数据 2
1.1.1 人类与大数据 3
1.1.2 概念与术语 4
1.2 大数据的特征 5
1.3 大数据的类型 6
1.4 大数据的发展趋势 8
本章小结 9
课后作业 9
第2章 大数据智能 11
2.1 大数据与人工智能概述 12
2.1.1 人工智能概述 12
2.1.2 大数据与人工智能的关系 14
2.2 基于大数据的人工智能实例 16
2.2.1 阿尔法狗 16
2.2.2 人脸支付 17
2.2.3 无人驾驶汽车 19
2.3 大数据支撑的智能应用 21
2.3.1 大数据提升社会管理效能 21
2.3.2 大数据促成智慧交通 24
2.3.3 大数据实现网络安全态势感知 26
2.3.4 大数据助力精准营销 28
2.3.5 大数据辅助医疗服务 29
本章小结 31
课后作业 31
第3章 大数据开发流程 33
3.1 大数据采集与预处理 35
3.1.1 大数据来源 35
3.1.2 大数据采集方法 37
3.1.3 大数据预处理 43
3.2 大数据存储 44
3.2.1 大数据存储相关概念 44
3.2.2 大数据存储技术 48
3.3 大数据处理 51
3.3.1 大数据处理方式 52
3.3.2 大数据处理典型系统介绍 54
3.4 大数据分析 59
3.4.1 大数据分析类型 60
3.4.2 数据挖掘的典型算法介绍 64
3.5 大数据可视化 73
3.5.1 大数据可视化的基本思想 73
3.5.2 大数据可视化工具 74
本章小结 82
课后作业 82
第4章 大数据开发平台 85
4.1 大数据开发平台概述 86
4.1.1 相关概念 86
4.1.2 大数据开发平台的基本架构 86
4.1.3 平台架构的要素 88
4.2 DDP大数据基础引擎平台 90
4.2.1 DDP平台简介 90
4.2.2 DDP平台功能和优势 91
4.2.3 DDP平台搭建 94
4.3 Dana Studio大数据开发平台 98
4.3.1 Dana Studio平台简介 98
4.3.2 Dana Studio平台功能和优势 98
4.3.3 Dana Studio平台搭建 104
4.4 PandaBI数智决策平台 106
4.4.1 PandaBI平台简介 106
4.4.2 PandaBI平台功能和优势 107
4.4.3 PandaBI平台搭建 112
4.5 其他大数据开发平台 114
4.5.1 百度数智平台(Baidu DI) 114
4.5.2 H3C大数据平台(Data Engine) 116
本章小结 118
课后作业 118
第5章 大数据应用案例分析 119
5.1 大数据平台应用概述 120
5.2 平台应用案例分析 121
5.2.1 政务舆情分析大数据平台应用 122
5.2.2 交通运营车辆大数据平台应用 122
5.2.3 出入境管理局风险评估大数据平台应用 136
本章小结 139
课后作业 140
第6章 大数据平台实战 141
6.1 实验目的 142
6.2 实验内容 142
6.3 实验小结 154
第7章 政务舆情分析大数据应用案例实战 155
7.1 实验目的 156
7.2 实验内容 156
7.3 实验小结 171
参考文献 172