本书探讨了如何使用 R 语言进行机器学习,涵盖基本的原理和方法,并通过大量的示例和练习,让读者掌握 R 语言的数据处理技巧。本书包括入门、回归、分类、模型的评估和改进、无监督学习五大部分,涉及线性回归、logistic 回归、k 近邻、朴素贝叶斯、决策树、聚类和关联规则等机器学习模型。本书配套提供相关的代码和数据,方便读者学习和使用。本书适合 R 语言和机器学习的爱好者、从业者以及相关院校的师生选用。
一、用R语言直观揭示机器学习技术
1)机器学习和数据分析已经成为创造价值的重要途径。
通过机器学习,你可以发现数据中隐藏的模式,从而产生新的想法和见解,如果没有这种强大的技术,这些都无从谈起。
2)R语言易于理解,专门为统计分析而构建。
本书介绍了使用R语言处理大型数据集的具体操作,展示了数据科学家如何将机器学习付诸实践,帮助你洞察业务本质,做出可靠的预测和更好的决策。
3)提供机器学习的概念和技术介绍,示例练习巩固基础,轻松理解。
书中的示例和练习使用R语言和新型数据分析工具,即使你没有编程经验也可以轻松学会,不会被复杂的数学知识困扰。有了这本书,机器学习的热门技术——从logistic回归到关联规则和聚类——你均能触手可及。
二、本书将机器学习的直观介绍与逐步的技术讲解相结合,其主要内容如下:
理解不同类型的机器学习算法;
发现大型数据集中存在的模式;
用RStudio编写和执行R脚本;
将R与tidyverse一起使用来管理和可视化数据;
应用核心的统计技术,如logistic回归和朴素贝叶斯等;
评估和改进机器学习模型;
弗雷德·恩旺加(Fred Nwanganga)博士,美国圣母大学门多萨商学院商业分析专业助理教授,拥有超过15年的技术领导经验。
迈克·查普尔(Mike Chapple)博士,美国圣母大学门多萨商学院信息技术、分析和运营系副教授,目前担任该大学商业分析硕士项目的学术主任,出版了20多种书籍。
目录
第 一部分 入门
第 1 章 什么是机器学习 2
1.1 从数据中发现知识 2
1.1.1 算法介绍 3
1.1.2 人工智能、机器学习和深度学习 3
1.2 机器学习技术 4
1.2.1 监督学习 4
1.2.2 无监督学习 7
1.3 模型选择 9
1.3.1 分类技术 9
1.3.2 回归技术 9
1.3.3 相似性学习技术 10
1.4 评估模型 10
1.4.1 分类错误 11
1.4.2 回归错误 12
1.4.3 错误类型 13
1.4.4 分割数据集 14
1.5 练习 15
第 2 章 R 和 RStudio 简介 17
2.1 欢迎来到 R 17
2.2 R 和 RStudio 组件 18
2.2.1 R 语言 18
2.2.2 RStudio 19
2.2.3 R 包 26
2.3 编写和运行 R 脚本 29
2.4 R 中的数据类型 31
2.4.1 向量 32
2.4.2 测试数据类型 33
2.4.3 转换数据类型 36
2.4.4 缺失值 36
2.5 练习 37
第 3 章 数据管理 38
3.1 tidyverse 38
3.2 数据收集 39
3.2.1 主要考虑因素 39
3.2.2 导入数据 40
3.3 数据探索 43
3.3.1 数据描述 43
3.3.2 数据可视化 48
3.4 数据准备 52
3.4.1 数据清洗 53
3.4.2 数据转换 59
3.4.3 减少数据 64
3.5 练习 69
第二部分 回归
第 4 章 线性回归 72
4.1 自行车租赁与回归 72
4.2 变量之间的关系 73
4.2.1 相关性 74
4.2.2 回归 79
4.3 简单线性回归 80
4.3.1 普通最小二乘法 81
4.3.2 简单线性回归模型 82
4.3.3 评估模型 82
4.4 多元线性回归 85
4.4.1 多元线性回归模型 86
4.4.2 评估模型 86
4.4.3 改进模型 93
4.4.4 优缺点 100
4.5 案例研究:预测血压 101
4.5.1 导入数据 102
4.5.2 探索数据 102
4.5.3 简单线性回归模型的拟合 104
4.5.4 多元线性回归模型的拟合 105
4.6 练习 111
第 5 章 logistic 回归 113
5.1 寻找潜在捐赠者 113
5.2 分类 115
5.3 logistic 回归 116
5.3.1 优势比 117
5.3.2 二分类 logistic 回归模型 120
5.3.3 评估模型 129
5.3.4 改进模型 135
5.3.5 优缺点 140
5.4 案例研究:收入预测 140
5.4.1 导入数据 141
5.4.2 探索和准备数据 141
5.4.3 训练模型 144
5.4.4 评估模型 146
5.5 练习 147
第三部分 分类
第 6 章 k 近邻 152
6.1 检测心脏病 152
6.2 k 近邻 154
6.2.1 发现最近邻居 155
6.2.2 标记未标记数据 157
6.2.3 选择合适的 k 157
6.2.4 k 近邻模型 158
6.2.5 评估模型 162
6.2.6 改进模型 163
6.2.7 优缺点 164
6.3 案例研究:重新分析捐赠者数据集 165
6.3.1 导入数据 165
6.3.2 探索和准备数据 165
6.3.3 建立模型 169
6.3.4 评估模型 170
6.4 练习 170
第 7 章 朴素贝叶斯 171
7.1 垃圾邮件分类 171
7.2 朴素贝叶斯 172
7.2.1 概率 173
7.2.2 联合概率 173
7.2.3 条件概率 174
7.2.4 朴素贝叶斯分类 175
7.2.5 可加性平滑 177
7.2.6 朴素贝叶斯模型 178
7.2.7 评估模型 182
7.2.8 朴素贝叶斯分类器的优缺点 183
7.3 案例研究:重新审视心脏病检测问题 183
7.3.1 导入数据 183
7.3.2 探索和准备数据 184
7.3.3 建立模型 185
7.3.4 评估模型 186
7.4 练习 186
第 8 章 决策树 188
8.1 预测许可证决策 188
8.2 决策树 189
8.2.1 递归分区 190
8.2.2 熵 193
8.2.3 信息增益 194
8.2.4 基尼不纯度 196
8.2.5 剪枝 196
8.2.6 建立分类树模型 197
8.2.7 评估模型 200
8.2.8 决策树的优缺点 202
8.3 案例研究:重新审视收入预测问题 203
8.3.1 导入数据 203
8.3.2 探索和准备数据 204
8.3.3 建立模型 205
8.3.4 评估模型 205
8.4 练习 206
第四部分 模型的评估和改进
第 9 章 评估模型 208
9.1 评估未来表现 208
9.1.1 交叉验证 210
9.1.2 自助抽样 215
9.2 超越预测准确性 217
9.2.1 Kappa 218
9.2.2 查准率和查全率 220
9.2.3 灵敏度和特异性 222
9.3 可视化模型性能 225
9.3.1 接收者操作特性曲线 225
9.3.2 曲线下面积 228
9.4 练习 230
第 10 章 改进模型 232
10.1 调整参数 232
10.1.1 自动参数调整 232
10.1.2 自定义参数调整 236
10.2 集成方法 240
10.2.1 装袋 241
10.2.2 提升 243
10.2.3 堆叠 245
10.3 练习 249
第五部分 无监督学习
第 11 章 用关联规则发现模式 252
11.1 超市购物篮分析 252
11.2 关联规则 253
11.2.1 识别强规则 254
11.2.2 Apriori 算法 255
11.3 发现关联规则 256
11.3.1 生成规则 257
11.3.2 评估规则 260
11.3.3 优缺点 263
11.4 案例研究:识别杂货店购买模式 263
11.4.1 导入数据 264
11.4.2 探索和预处理数据 264
11.4.3 生成规则 265
11.4.4 评估规则 266
11.5 练习 268
11.6 参考文献 268
第 12 章 用聚类对数据分组 269
12.1 聚类 269
12.2 k 均值聚类 271
12.3 基于 k 均值聚类的大学细分 274
12.3.1 创建簇 275
12.3.2 分析簇 277
12.3.3 选择最佳簇数 278
12.3.4 k 均值聚类的优缺点 282
12.4 案例研究:对购物中心客户进行细分 282
12.4.1 探索和准备数据 283
12.4.2 聚类数据 283
12.4.3 评估簇 284
12.5 练习 285
12.6 参考文献 286