数据科学的主要目标就是通过数据分析来改进决策,它与数据挖掘、机器学习等领域紧密相关,但范围更广。本书简要介绍了该领域的发展、基础知识,并阐释了数据科学项目的各个阶段。书中既考虑数据基础架构和集成多个数据源数据所面临的挑战,又介绍机器学习基础并探讨如何应用机器学习专业技术解决现实问题。还综述了伦理和法律问题、数据法规的发展以及保护隐私的计算方法。*后探讨了数据科学的未来影响,并给出数据科学项目成功的原则。
数据科学推动了现代社会几乎所有领域决策的发展,正在影响着人们日常生活的方方面面。本书旨在阐述理解数据科学所需的基本思想和概念,帮助你理解什么是数据科学,它是如何工作的,以及它能(和不能)做什么。本书从数据科学发展演化史,数据科学定义,数据、数据集,数据科学生态系统,机器学习,数据科学标准任务,隐私与道德,发展趋势等角度,对数据科学展开了精彩的阐述。
数据科学的目标是通过将决策建立在从大数据集中提取洞察力的基础上来改进决策。作为一个活动领域,数据科学由一系列原理、问题定义、算法和过程组成,用于从大型数据集中提取有用但不显眼的模式。数据科学与数据挖掘和机器学习领域密切相关,但它涉及的范围更广。如今,数据科学推动了现代社会几乎所有领域决策的发展。数据科学可能影响人们日常生活的方方面面,如确定在线广告的呈现,向用户推荐电影、书籍、朋友,过滤垃圾邮件,用户续订手机合约时向他们提供合适的优惠套餐,降低医保成本,规划辖区内交通信号灯的布局及通行时间,药品设计,警力部署规划等。
大数据和社交媒体的出现、计算能力的加速、计算机内存成本的大幅降低以及更强大的数据分析和建模方法的发展推动了当代社会对数据科学需求的增长,其中典型的技术有深度学习。这些因素共同作用意味着组织收集、存储和处理数据将比以前简单。与此同时,这些技术创新和数据科学的广泛应用意味着与数据使用和个人隐私相关的道德挑战从未如此迫切。本书的目的是提供数据科学的介绍,涵盖该领域的基本要素,并提供对该领域深刻的原则性见解。
本书第1章介绍了数据科学领域,简要回顾了数据科学的发展演化历史,还探讨了如今数据科学为什么那么重要,以及推动采用数据科学的一些因素。在这一章的最后,回顾并揭穿了与数据科学相关的一些神话。第2章介绍了与数据相关的基本概念,描述了数据科学项目的标准流程:业务理解、数据理解、数据准备、建模、评估和部署。第3章重点介绍了数据基础设施以及大数据和多源数据集成带来的挑战。数据基础设施的一个可能具有挑战性的典型方面是,数据库和数据仓库中的数据通常驻留在与用于数据分析的服务器不同的服务器上。因此,当处理大型数据集时,可能要花费大量时间在数据库或数据仓库所依赖的服务器与进行数据分析和机器学习处理的服务器之间移动数据。第3章首先描述组织中典型的数据科学基础设施,以及在数据科学基础设施中移动大型数据集的挑战的一些新兴解决方案,其中包括使用数据库内置机器学习算法,使用Hadoop进行数据存储和处理,以及混合数据库系统的开发,这些系统无缝地结合了传统的数据库软件和类似Hadoop的解决方案。这一章的最后强调了将整个组织的数据整合到适合机器学习的统一表示中的一些挑战。第4章介绍了机器学习领域,并解释了一些最流行的机器学习算法和模型,包括神经网络、深度学习和决策树模型。第5章聚焦于通过审视一系列标准业务问题,描述了机器学习解决方案如何解决这些问题来将机器学习专业知识与现实问题联系起来。第6章回顾了数据科学的道德含义、数据监管的最新发展,以及在数据科学过程中保护个人隐私的一些新的计算方法。最后,第7章描述了数据科学在不久的将来会产生重大影响的一些领域,并列出了确定数据科学项目是否会成功的一些重要原则。
约翰· D.凯莱赫(John D. Kelleher) 是都柏林理工学院计算机科学学院的教授以及信息、通信和娱乐研究所的学术负责人。他的研究得到了ADAPT中心的支持,该中心由爱尔兰科学基金会(Grant 13 / RC / 2106)资助,同时也接受欧洲区域发展基金的资助。 他还是《Fundamentals of Machine Learning for Predictive Data Analytics》的作者之一。
布伦丹·蒂尔尼(Brendan Tierney)是都柏林理工学院计算机科学学院的讲师,同时也是Oracle ACE 主任,还著有多本基于Oracle技术的数据挖掘类著作。
译者序
前言
致谢
作者简介
第1章 什么是数据科学 …… 1
1.1 数据科学简史 …… 5
1.1.1 数据收集简史 …… 5
1.1.2 数据分析简史 …… 9
1.1.3 数据科学的产生与发展 …… 14
1.2 数据科学用于何处 …… 20
1.2.1 销售和营销中的数据科学 …… 21
1.2.2 数据科学在政府中的应用 …… 22
1.2.3 数据科学在竞技体育中的应用 …… 23
1.3 为什么是现在 …… 25
1.4 关于数据科学的神话 …… 28
第2章 什么是数据,什么是数据集 …… 31
2.1 关于数据的观点 …… 38
2.2 数据可以积累,而智慧不能 …… 43
2.3 CRISP-DM …… 45
第3章 数据科学生态系统 …… 54
3.1 将算法迁移至数据 …… 61
3.1.1 传统数据库与现代的传统数据库 …… 64
3.1.2 大数据架构 …… 67
3.1.3 混合数据库世界 …… 69
3.2 数据准备和集成 …… 72
第4章 机器学习 …… 77
4.1 有监督学习与无监督学习 …… 78
4.2 学习预测模型 …… 83
4.2.1 相关性不等同于因果,但它有时非常有用 …… 84
4.2.2 线性回归 …… 90
4.2.3 神经网络与深度学习 …… 96
4.2.4 决策树 …… 108
4.3 数据科学中的偏差 …… 114
4.4 评估模型:泛化而不是记忆 …… 116
4.5 摘要 …… 119
第5章 标准的数据科学任务 …… 121
5.1 谁是我们的目标客户(聚类) …… 122
5.2 这是欺诈吗(异常值检测) …… 128
5.3 你要配份炸薯条吗(关联规则挖掘) …… 131
5.4 流失还是不流失,这是一个问题(分类) …… 136
5.5 它价值几何(回归) …… 141
第6章 隐私与道德 …… 143
6.1 商业利益与个人隐私 …… 145
6.1.1 数据科学的道德启示:画像与歧视 …… 148
6.1.2 数据科学的道德含义:创建一个全景监狱 …… 154
6.2 隐私保护 …… 157
6.2.1 保护隐私的计算方法 …… 159
6.2.2 规范数据使用和保护隐私的法律框架 …… 161
6.3 通往道德的数据科学之路 …… 164
第7章 未来趋势与成功准则 …… 172
7.1 医疗数据科学 …… 172
7.2 智慧城市 …… 174
7.3 数据科学项目准则:为什么会成功或失败 …… 177
7.4 终极思考 …… 185
术语表 …… 188
延伸阅读 …… 201
参考文献 …… 203