这是一个大数据爆发的时代。面对信息的激流、多元化数据的涌现,大数据为个人生活、企业经营,甚至国家与社会的发展带来了机遇和挑战,大数据已经成为IT信息产业中具潜力的蓝海。
“大数据导论”是一门理论性和实践性都很强的课程。本书是为高等职业院校相关专业“大数据导论”课程全新设计编写的,具有丰富的实践特色。针对高等职业院校学生的发展需求,本书分8个项目,系统、全面地介绍了关于大数据技术与应用的基本知识和技能,详细介绍了大数据与大数据时代、大数据时代思维变革、大数据促进行业发展、大数据方法的驱动力、大数据存储技术、大数据处理技术、大数据分析技术、大数据在云端等内容,具有较强的系统性、可读性和实用性。
大数据(Big Data)的力量,正在积极地影响着人们社会生活的方方面面,它冲击着许多主要行业,包括零售业、电子商务和金融服务业等,同时也正在彻底地改变人们的学习和日常生活,比如改变人们的教育方式、生活方式、工作方式,甚至是人们寻找爱情的方式。如今,通过简单、易用的移动应用和基于云端的数据服务,人们能够追踪自己的行为以及饮食习惯,还能提升个人的健康状况。因此,我们有必要真正理解大数据这个极其重要的议题。
中国是大数据大的潜在市场之一。据估计,中国有近6亿网民,这就意味着中国的企业拥有绝佳的机会来更好地了解其客户并提供更个性化的服务,同时,为企业增加收入并提高利润。阿里巴巴就是一个很好的例子。阿里巴巴不但在其商业模式上具有颠覆性,而且还掌握了与购买行为、产品需求和库存供应相关的海量数据。除了阿里巴巴高层的领导能力之外,大数据必然是其成功的一个关键因素。
然而,仅有数据是不够的。对于身处大数据时代的企业而言,成功的关键还在于找出大数据所隐含的真知灼见。“以前,人们总说信息就是力量,但如今,对数据进行分析、利用和挖掘才是力量之所在。”
很多年前,人们就开始对数据进行利用。例如:航空公司利用数据为机票定价,银行利用数据搞清楚贷款对象,信用卡公司则利用数据侦破信用卡诈骗等。但是直到近,数据,或者用现今的说法就是大数据,才真正成为人们日常生活的一部分。随着脸书(Facebook)、谷歌(Google)、推特(Twitter)以及QQ、微信、淘宝等的出现,大数据游戏被改变了。你和我,或者任何一个享受这些服务的用户都生成了一条数据足迹,它能够反映出我们的行为。每次我们进行搜索,例如查找某个人或者访问某个网站,都加深了这条足迹。互联网企业开始创建新技术来存储、分析激增的数据——结果就迎来了“大数据”的创新爆炸。
进入2012年以来,由于互联网和信息行业的快速发展,大数据越来越引起人们的关注,已经引发自云计算、互联网之后IT行业的又一大颠覆性的技术革命。人们用大数据来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。云计算主要为数据资产提供了保管、访问的场所和渠道,而数据才是真正有价值的资产。企业内部的经营信息、互联网世界中的商品物流信息,人与人之间的交互信息、位置信息等,其数量将远远超越现有企业IT架构和基础设施的承载能力,实时性要求也将大大超越现有的计算能力。如何盘活这些数据资产,使其为国家治理、企业决策乃至个人生活服务,是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。
对于在校大学生来说,大数据的理念、技术与应用是一门理论性和实践性都很强的必修课程。在长期的教学实践中,我们体会到,坚持因材施教的重要原则,把实践环节与理论教学相融合,抓实践教学促进理论知识的学习,是有效地改善教学效果和提高教学水平的重要方法之一。本书的主要特色是:理论联系实际,结合一系列大数据理念、技术与应用的学习,以及实践活动,把大数据的相关概念、基础知识和技术技巧融入在实践当中,使学生保持浓厚的学习热情,加深对大数据技术的兴趣,在认识的基础上达到理解和掌握的目标。
本书为高等职业院校相关专业“大数据导论”相关课程而编写,具有丰富的实践特色,也可供有一定实践经验的IT应用人员、管理人员参考,亦可作为继续教育的教材。
本书系统、全面地介绍了大数据的基本知识和应用技能,详细介绍了大数据与大数据时代、大数据时代思维变革、大数据促进行业发展、大数据方法的驱动力、大数据存储技术、大数据处理技术、大数据分析技术、大数据在云端等内容,具有较强的系统性、可读性和实用性。
结合课堂教学方法改革的要求,全书设计了课程教学过程,教学内容按“项目-任务”模式安排,为每个任务都针对性地安排了导读案例、任务描述、知识准备、作业和实训操作等环节,要求和指导学生在课前阅读导读案例和在课后完成相应的作业,在网络搜索浏览的基础上,延伸阅读,深入理解课程知识内涵。
虽然已经进入电子时代,但我们仍然竭力倡导读书。为每个任务设计的作业(四选一标准选择题)其实并不难,学生只要认真阅读知识准备,所有题目都能准确回答。在书的附录部分列举了部分习题与实训的参考答案,供阅读者对比思考。
对于本书各项目-任务的实训操作,建议可以让学生自由组织(头脑风暴)学习小组,以小组讨论和个人相结合的形式积极参与,努力完成实训任务。
本课程的教学进度设计见《课程教学进度表》,该表可作为教师授课参考和学生课程学习的概要。实际执行时,应按照教学大纲编排的教学进度和校历中关于本学期节假日的安排,实际确定本课程的教学进度。本课程的教学评测可以从下面几个方面入手:
(1)每个项目中任务的导读案例(18项)。
(2)每个项目中任务的作业(紧密结合课文教学内容的标准选择题)。
(3)每个项目中任务的课后“实训操作”(18项)。
(4)课程学习与实训总结(任务8.2)。
(5)结合平时考勤。
(6)任课老师认为必要的其他考核方法。
与本书配套的教学PPT课件等文档可从中国铁道出版社网站 (http:∥www.tdpress.com/51eds/) 的下载区下载,欢迎教师与作者交流并索取为本书教学配套的相关资料并交流。邮箱:zhousu@qq.com;QQ:81505050;个人博客:http://blog.sina.com.cn/zhousu58。
本书编写得到浙江安防职业技术学院2018年度教材建设项目的支持,也得到了浙江安防职业技术学院、浙江商业职业技术学院、温州商学院、浙江大学城市学院等多所院校师生的支持,张丽娜、吴贤平、涂嘉庆、匡泰、汪婵婵、王文等参与了本书的部分编写工作,在此一并表示感谢!
编者 2018年8月大数据(Big Data)的力量,正在积极地影响着人们社会生活的方方面面,它冲击着许多主要行业,包括零售业、电子商务和金融服务业等,同时也正在彻底地改变人们的学习和日常生活,比如改变人们的教育方式、生活方式、工作方式,甚至是人们寻找爱情的方式。如今,通过简单、易用的移动应用和基于云端的数据服务,人们能够追踪自己的行为以及饮食习惯,还能提升个人的健康状况。因此,我们有必要真正理解大数据这个极其重要的议题。
中国是大数据大的潜在市场之一。据估计,中国有近6亿网民,这就意味着中国的企业拥有绝佳的机会来更好地了解其客户并提供更个性化的服务,同时,为企业增加收入并提高利润。阿里巴巴就是一个很好的例子。阿里巴巴不但在其商业模式上具有颠覆性,而且还掌握了与购买行为、产品需求和库存供应相关的海量数据。除了阿里巴巴高层的领导能力之外,大数据必然是其成功的一个关键因素。
然而,仅有数据是不够的。对于身处大数据时代的企业而言,成功的关键还在于找出大数据所隐含的真知灼见。“以前,人们总说信息就是力量,但如今,对数据进行分析、利用和挖掘才是力量之所在。”
很多年前,人们就开始对数据进行利用。例如:航空公司利用数据为机票定价,银行利用数据搞清楚贷款对象,信用卡公司则利用数据侦破信用卡诈骗等。但是直到近,数据,或者用现今的说法就是大数据,才真正成为人们日常生活的一部分。随着脸书(Facebook)、谷歌(Google)、推特(Twitter)以及QQ、微信、淘宝等的出现,大数据游戏被改变了。你和我,或者任何一个享受这些服务的用户都生成了一条数据足迹,它能够反映出我们的行为。每次我们进行搜索,例如查找某个人或者访问某个网站,都加深了这条足迹。互联网企业开始创建新技术来存储、分析激增的数据——结果就迎来了“大数据”的创新爆炸。
进入2012年以来,由于互联网和信息行业的快速发展,大数据越来越引起人们的关注,已经引发自云计算、互联网之后IT行业的又一大颠覆性的技术革命。人们用大数据来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。云计算主要为数据资产提供了保管、访问的场所和渠道,而数据才是真正有价值的资产。企业内部的经营信息、互联网世界中的商品物流信息,人与人之间的交互信息、位置信息等,其数量将远远超越现有企业IT架构和基础设施的承载能力,实时性要求也将大大超越现有的计算能力。如何盘活这些数据资产,使其为国家治理、企业决策乃至个人生活服务,是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。
对于在校大学生来说,大数据的理念、技术与应用是一门理论性和实践性都很强的必修课程。在长期的教学实践中,我们体会到,坚持因材施教的重要原则,把实践环节与理论教学相融合,抓实践教学促进理论知识的学习,是有效地改善教学效果和提高教学水平的重要方法之一。本书的主要特色是:理论联系实际,结合一系列大数据理念、技术与应用的学习,以及实践活动,把大数据的相关概念、基础知识和技术技巧融入在实践当中,使学生保持浓厚的学习热情,加深对大数据技术的兴趣,在认识的基础上达到理解和掌握的目标。
本书为高等职业院校相关专业“大数据导论”相关课程而编写,具有丰富的实践特色,也可供有一定实践经验的IT应用人员、管理人员参考,亦可作为继续教育的教材。
本书系统、全面地介绍了大数据的基本知识和应用技能,详细介绍了大数据与大数据时代、大数据时代思维变革、大数据促进行业发展、大数据方法的驱动力、大数据存储技术、大数据处理技术、大数据分析技术、大数据在云端等内容,具有较强的系统性、可读性和实用性。
结合课堂教学方法改革的要求,全书设计了课程教学过程,教学内容按“项目-任务”模式安排,为每个任务都针对性地安排了导读案例、任务描述、知识准备、作业和实训操作等环节,要求和指导学生在课前阅读导读案例和在课后完成相应的作业,在网络搜索浏览的基础上,延伸阅读,深入理解课程知识内涵。
虽然已经进入电子时代,但我们仍然竭力倡导读书。为每个任务设计的作业(四选一标准选择题)其实并不难,学生只要认真阅读知识准备,所有题目都能准确回答。在书的附录部分列举了部分习题与实训的参考答案,供阅读者对比思考。
对于本书各项目-任务的实训操作,建议可以让学生自由组织(头脑风暴)学习小组,以小组讨论和个人相结合的形式积极参与,努力完成实训任务。
本课程的教学进度设计见《课程教学进度表》,该表可作为教师授课参考和学生课程学习的概要。实际执行时,应按照教学大纲编排的教学进度和校历中关于本学期节假日的安排,实际确定本课程的教学进度。本课程的教学评测可以从下面几个方面入手:
(1)每个项目中任务的导读案例(18项)。
(2)每个项目中任务的作业(紧密结合课文教学内容的标准选择题)。
(3)每个项目中任务的课后“实训操作”(18项)。
(4)课程学习与实训总结(任务8.2)。
(5)结合平时考勤。
(6)任课老师认为必要的其他考核方法。
与本书配套的教学PPT课件等文档可从中国铁道出版社网站 (http:∥www.tdpress.com/51eds/) 的下载区下载,欢迎教师与作者交流并索取为本书教学配套的相关资料并交流。邮箱:zhousu@qq.com;QQ:81505050;个人博客:http://blog.sina.com.cn/zhousu58。
本书编写得到浙江安防职业技术学院2018年度教材建设项目的支持,也得到了浙江安防职业技术学院、浙江商业职业技术学院、温州商学院、浙江大学城市学院等多所院校师生的支持,张丽娜、吴贤平、涂嘉庆、匡泰、汪婵婵、王文等参与了本书的部分编写工作,在此一并表示感谢!
编者 2018年8月
1.戴海东,浙江安防职业技术学院院长
2.周苏,1982年华东水利学院计算机应用专业本科毕业,1986年由水电部研究所调入杭州大学计算机系任教,1991年破格晋升副教授,1999年调入浙江大学城市学院计算机系任教,2005年晋升教授。在杭州大学、浙江大学、浙江大学城市学院、浙江工业大学之江学院、温州大学城市学院、嘉兴学院南湖学院、温州职业技术学院等多所院校专/兼职任教,教学经验丰富。 长期从事计算机等专业教学工作,担任计算机基础、计算机导论、软件工程、软件测试技术、软件体系结构、电子商务概论、移动商务、多媒体技术、项目管理、管理信息系统、应用统计学、C语言程序设计、面向对象程序设计、网络传播技术、网络生态学、人机交互技术、艺术设计概论、艺术欣赏概论、计算机平面设计、信息管理与信息系统概论、信息资源管理、办公软件高级应用、IT应用文写作等课程的教学,对计算机学科教学以及应用型院校教学有深刻理解。
项目1大数据与大数据时代1
任务1.1进入大数据时代1
【导读案例】 准确预测地震1
【任务描述】2
【知识准备】 进入大数据时代3
1.1.1天文学——信息爆炸的起源3
1.1.2大数据的发展7
1.1.3重新认识数据9
1.1.4数据集与数据分析10
【作业】14
【实训操作】15
任务1.2熟悉大数据的定义19
【导读案例】 得数据者得天下19
【任务描述】21
【知识准备】 定义大数据21
1.2.1大数据的定义21
1.2.2大数据的3V和5V特征22
1.2.3广义的大数据24
1.2.4大数据的结构类型25
【作业】26
【实训操作】27
项目2大数据时代思维变革31
任务2.1理解思维转变之一:样本=总体31
【导读案例】 亚马逊推荐系统31
【任务描述】33
【知识准备】 分析更多数据而不再是只依赖于随机采样33
2.1.1小数据时代的随机采样34
2.1.2大数据与乔布斯的癌症治疗37
2.1.3全数据模式:样本=总体38
【作业】39
【实训操作】40
任务2.2理解思维转变之二:接受数据的混杂性42
【导读案例】 数据驱动≠大数据42
【任务描述】44
【知识准备】 不再热衷于追求精确度44
2.2.1允许不精确45
2.2.2大数据的简单算法与小数据的复杂算法47
2.2.3纷繁的数据越多越好48
2.2.4混杂性是标准途径49
2.2.5新的数据库设计50
2.2.6 5%的数字数据与95%的非结构化数据51
【作业】52
【实训操作】54
任务2.3理解思维转变之三:数据的相关关系55
【导读案例】 美国百亿美元望远镜主镜安装完毕55
【任务描述】58
【知识准备】 不再热衷于寻找因果关系58
2.3.1关联物,预测的关键58
2.3.2“是什么”,而不是“为什么”61
2.3.3通过因果关系了解世界62
2.3.4通过相关关系了解世界63
【作业】64
【实训操作】65
项目3大数据促进行业发展67
任务3.1理解大数据促进医疗与健康67
【导读案例】 大数据变革公共卫生67
【任务描述】69
【知识准备】 大数据促进医疗与健康69
3.1.1大数据促进循证医学发展69
3.1.2大数据带来医疗保健新突破71
3.1.3医疗信息数字化76
3.1.4超级大数据的佳伙伴——搜索78
3.1.5数据决策的成功崛起79
【作业】82
【实训操作】83
任务3.2理解大数据激发创造力84
【导读案例】 脸书的设计决策84
【任务描述】86
【知识准备】 大数据激发创造力87
3.2.1大数据帮助改善设计87
3.2.2大数据操作回路90
3.2.3大数据资产的崛起92
【作业】93
【实训操作】95
项目4大数据方法的驱动力96
任务4.1理解采用大数据的商业动机96
【导读案例】 大数据企业的缩影——谷歌(Google)96
【任务描述】97
【知识准备】 将数据变成竞争优势98
4.1.1大数据的跨界年度98
4.1.2谷歌的大数据行动99
4.1.3亚马逊的大数据行动100
4.1.4将信息变成一种竞争优势102
4.1.5市场动态105
4.1.6业务架构106
4.1.7业务流程管理108
【作业】109
【实训操作】110
任务4.2理解大数据规划考虑111
【导读案例】 Google搜索算法告诉你,如何将一个人变成傻瓜111
【任务描述】112
【知识准备】 大数据的规划考虑112
4.2.1信息与通信技术113
4.2.2万物互联网114
4.2.3数据获取与数据来源114
4.2.4不同的性能挑战116
4.2.5不同的管理需求116
【作业】117
【实训操作】118
任务4.3熟悉大数据商务智能120
【导读案例】 微信支付新广告,讲了一个支付之外的故事120
【任务描述】123
【知识准备】 熟悉大数据商务智能123
4.3.1 OLTP与OLAP123
4.3.2抽取、转换和加载技术124
4.3.3数据仓库与数据集市124
4.3.4传统商务智能125
4.3.5大数据商务智能125
4.3.6大数据营销126
【作业】132
【实训操作】133
项目5大数据存储技术136
任务5.1熟悉大数据存储概念136
【导读案例】 2018未来交通峰会召开,高德地图升级易行平台136
【任务描述】139
【知识准备】 大数据存储的主要概念139
5.1.1数据清理139
5.1.2集群139
5.1.3文件系统和分布式文件系统140
5.1.4分片与复制143
5.1.5 CAP定理149
5.1.6 ACID设计原则150
5.1.7 BASE设计原理153
【作业】155
【实训操作】157
任务5.2了解大数据存储技术159
【导读案例】 基础领域突破非一日之功,是数十年耕耘159
【任务描述】162
【知识准备】 大数据存储的核心技术162
5.2.1 RDBMS数据库163
5.2.2 NoSQL数据