本书面向大数据应用型人才,以任务为导向,全面地介绍Python数据分析与挖掘的常用技术与真实案例。全书共7章,第1、2章介绍Python数据分析的常用模块及其应用,涵盖NumPy数值计算模块、pandas数据分析模块,较为全面地阐述Python数据分析的方法;第3、4章介绍轻量级的数据交换格式JSON和连接MySQL数据库的pymysql模块,并以此进行数据综合案例的分析;第5章介绍Matplotlib可视化模块,用于绘制一些统计图形;第6章主要讲解Flask框架结合ECharts实现可视化效果;第7章主要讲解在机器学习和数据挖掘中sklearn模块的应用。
本书适合作为高等院校大数据专业、人工智能专业的Python教材,也可作为Python相关培训的教材。
第 1章 数值计算模块NumPy 1
1.1 NumPy数组的创建与保存 2
1.1.1 使用基本方法创建数组 2
1.1.2 使用通用方法创建数组 3
1.1.3 读取外部数据创建数组 6
1.1.4 数组保存为文本文件 7
1.2 NumPy数组操作 8
1.2.1 数组的数据类型操作 8
1.2.2 数组的形状及其相关操作 10
1.2.3 数组元素访问:索引与切片 13
1.2.4 数组运算 15
1.3 NumPy数组常用函数 19
1.3.1 统计函数 19
1.3.2 逻辑函数 24
1.3.3 离散差分函数和梯度函数 26
1.3.4 随机函数 28
1.3.5 其他常用函数 31
1.4 股价统计分析案例 31
1.4.1 读取南方股价数据文件 32
1.4.2 计算市盈率 34
1.4.3 计算成交额加权平均价格 35
1.4.4 计算股价的极值 36
1.4.5 计算股价方差与标准差 37
1.4.6 计算股票收益率和波动率 38
1.4.7 求平均收盘价极值分别为星期几 41
第 2章 数据分析模块pandas 43
2.1 pandas基础 43
2.1.1 pandas简介 43
2.1.2 pandas的数据结构 43
2.1.3 pandas的安装和导入 44
2.1.4 pandas数据结构的运算操作 44
2.2 从文件读取数据构建DataFrame 49
2.2.1 读取csv文件 49
2.2.2 读取txt文件 53
2.2.3 读取Excel文件中的数据 54
2.2.4 将DataFrame保存为csv文件 55
2.3 DataFrame的访问与删除 57
2.3.1 访问方式 57
2.3.2 行列的删除 58
2.3.3 DataFrame的访问实例 59
2.4 时间类型的转换与处理 60
2.4.1 pandas.to_datetime() 60
2.4.2 提取年月日、时分秒、季节、星期 61
2.4.3 批量处理Datetime数据 62
2.5 数据的清洗 63
2.5.1 查找所有存在缺失值的行 63
2.5.2 删除缺失值 64
2.5.3 填充缺失值 67
2.5.4 重复值的处理 70
2.5.5 设置与重置索引 74
2.6 数据整理 78
2.6.1 列内容模糊筛选 78
2.6.2 列数据转换 80
2.6.3 数据处理 80
2.7 数据分析统计 84
2.7.1 数据的描述性分析 84
2.7.2 数据的分组分析 86
2.7.3 连续数据分区 91
2.7.4 数据的相关性分析 93
第3章 JSON模块与格式转换 97
3.1 JSON对象与Python对象 97
3.1.1 Python对象转换为JSON对象 97
3.1.2 JSON对象转换成Python对象 98
3.1.3 Python对象和JSON对象的对比 98
3.2 JSON文件的读操作 99
3.2.1 保存JSON文件 99
3.2.2 读取json文件 100
3.2.3 JSON模块的4个函数 100
3.3 JSON文件的练习 101
3.3.1 读取JSON文件 101
3.3.2 pprint模块 102
3.4 打开文件 103
3.4.1 引入with打开文件的原因 103
3.4.2 使用with open()as读写文件 104
第4章 连接数据库的pymysql模块 107
4.1 在Python 3中连接MySQL 107
4.1.1 游标 107
4.1.2 使用pymysql链接MySQL 108
4.1.3 pymysql.connect()的参数与实例 110
4.2 pymysql的基本使用 112
4.2.1 数据库记录的增删改查操作 112
4.2.2 返回字典格式数据 120
4.2.3 pymysql与pandas结合 121
第5章 matplotlib可视化模块 125
5.1 确定画布的大小和格局 125
5.1.1 主画布的设置 125
5.1.2 matplotlib属性的设置 126
5.1.3 增加子图 127
5.1.4 解决子图标题重叠问题 129
5.2 绘制折线图和散点图 130
5.2.1 plt.plot()函数的语法与基本使用 130
5.2.2 图形的主要设置 133
5.2.3 设置x、y轴坐标刻度 136
5.2.4 在图上添加注释 137
5.2.5 使用plt.plot()函数绘制散点图 140
5.3 使用plt.scatter()函数绘制散点图 141
5.4 使用plt.bar()函数绘制条形图 142
5.4.1 plt.bar()函数的语法与参数 143
5.4.2 堆叠条形图 143
5.4.3 并列条形图 144
5.4.4 条形图(横图) 145
5.4.5 正负条形图 146
5.5 使用plt.hist()函数绘制直方图 147
5.5.1 直方图与条形图的区别 148
5.5.2 绘制直方图的一般格式 148
5.6 绘制箱形图 151
5.6.1 箱形图的组成、形状与作用 151
5.6.2 绘制画箱形图 153
5.6.3 给箱形图添加注释 159
5.7 雷达图 164
5.7.1 极坐标 164
5.7.2 绘制雷达图 164
5.8 三维图 166
5.9 通过DataFrame生成折线图 167
第6章 Flask框架与ECharts可视化 170
6.1 Flask框架的基本概念与使用 170
6.1.1 Flask的基本使用方法 170
6.1.2 Flask框架的概念与更多使用方法 172
6.2 ECharts的使用 175
6.2.1 下载ECharts视图示例网页 175
6.2.2 编号Flask程序调用示例网页 177
6.3 Flask结合ECharts实现动态视图 179
6.3.1 准备js支持文件 179
6.3.2 在Flask框架的程序中定义数据 182
6.3.3 修改HTML以适应Flask动态数据 184
6.4 Flask MySQL ECharts联动视图 187
6.4.1 数据库及表的准备工作 187
6.4.2 选择简单柱状图作为模板 189
6.4.3 从MySQL中获取数据到ECharts视图展示 190
第7章 机器学习模块sklearn 195
7.1 sklearn线性回归 195
7.1.1 一元线性回归模型训练 195
7.1.2 线性回归模型的评估方法 198
7.1.3 分割语句的用法 199
7.1.4 最小二乘法线性回归 200
7.2 sklearn分类算法 202
7.2.1 与分类器相关的概念 202
7.2.2 K近邻算法 203
7.2.3 贝叶斯算法 205
7.2.4 决策树算法 208
7.2.5 随机森林算法 210
7.2.6 SVM算法 211
7.3 Sklearn聚类算法 213
7.3.1 K均值聚类的基本原理 213
7.3.2 K均值聚类算法的主要参数 214
7.3.3 根据身高、体重和性别聚类 215
7.3.4 对鸢尾花数据进行K均值聚类 220