本书围绕经典的统计方法与 R 语言工具,从基本的统计描述分析方法出发,讲解了参数估计与假设检验、线性回归、逻辑回归、降维分析方法,每一章重点介绍一种经典方法或统计模型,对其基本定义、模型形式、统计方法的推导与解读等都给出了细致的讲解。此外,为了将理论与实践紧密结合,本书每一章均提供了不同业务场景下的R语言编程实例,帮助读者练习巩固。本书适合相关学科本科生及研究生,以及对数据分析及建模感兴趣的读者。
朱雪宁,复旦大学大数据学院副教授。2017年获得北京大学光华管理学院商务统计与经济计量系博士学位,入选2019年度上海市青年科技英才扬帆计划,主持并参与多项国家自然科学基金。主要研究领域为网络数据分析及商务统计应用等,在国内外期刊发表论文二十余篇,著有《R语言:从数据思维到数据实战》。
任怡萌,伦敦政治经济学院博士
张桂维,复旦大学大数据学院硕士
米汶权,复旦大学大数据学院硕士
统计分析与R语言 1
1.1统计分析简介 1
1.1.1了解数据及业务问题 002
1.1.2数据清洗与预处理 003
1.1.3数据描述及探索性分析 003
1.1.4模型构建及解读 004
1.2 R语言简介 006
1.2.1为何要使用R语言 006
1.2.2 R语言的下载与安装 007
1.2.3 R语言的使用 010
1.2.4工具包 014
1.3本章小结 015
1.4本章习题 016
R 语言中的数据管理及预处理
2.1基本数据类型 019
2.1.1数值型 019
2.1.2字符型 020
2.1.3逻辑型 020
2.1.4因子型 021
2.1.5时间型 022
2.2 数据结构 022
2.2.1向量 022
2.2.2矩阵 028
2.2.3数组 031
2.2.4数据框 033
2.2.5列表 036
2.3 数据的读入及写出 042
2.3.1直接输入数据 042
2.3.2从带分隔符的文本文件中导入数据 042
2.3.3导入Excel 数据 044
2.3.4逐行读入数据 044
2.3.5数据的写出 045
2.4 数据集管理及预处理 046
2.4.1了解数据概况 047
2.4.2变量类型转换 048
2.4.3时间型数据的操作 050
2.4.4数据集合并 051
2.4.5数据缺失、异常 052
2.5本章小结 053
2.6本章习题 053
基本统计分析 54
3.1基本描述统计量 056
3.1.1频数统计 056
3.1.2均值 057
3.1.3分位数 057
3.1.4方差、标准差 058
3.1.5协方差与相关系数 059
3.1.6最大值、最小值 061
3.1.7峰度和偏度 062
3.2汇总分析 063
3.2.1交叉列联表 063
3.2.2描述统计量的分组统计 065
3.3本章小结 066
3.4本章习题 067
数据描述与可视化 68
4.1统计表格 070
4.1.1变量说明表 070
4.1.2分组统计表 071
4.2数据可视化基础 072
4.2.1统计图形 072
4.2.2柱状图 073
4.2.3饼图 076
4.2.4直方图 077
4.2.5折线图 078
4.2.6箱线图 079
4.2.7散点图 081
4.2.8相关系数图 083
4.3数据可视化进阶 084
4.3.1ggplot2 包 084
4.3.2交互可视化 090
4.4本章小结 094
4.5本章习题 094
参数估计与假设检验 96
5.1总体、样本和样本量 099
5.1.1总体 099
5.1.2样本 100
5.1.3统计量 100
5.2参数估计 101
5.2.1矩估计 101
5.2.2最大似然估计 102
5.2.3区间估计 104
5.3假设检验 109
5.3.1假设检验的基本步骤 109
5.3.2假设检验的p 值 112
5.3.3假设检验问题的基本类型 114
5.3.4正态总体的假设检验 115
5.4单因素方差分析 123
5.4.1单因素方差分析的基本思路
5.4.2实例分析 125
5.5本章小结 127
5.6本章习题 128
线性回归 129
6.1模型形式 133
6.2模型理解 134
6.2.1回归系数的理解 134
6.2.2定性变量转换及回归系数理解 135
6.2.3交互项的解读 136
6.2.4σ2 的理解 136
6.3基本假定 136
6.4回归参数的估计 138
6.4.1普通最小二乘估计 138
6.4.2最大似然估计 139
6.5假设检验 139
6.5.1回归系数的t 检验 140
6.5.2回归方程的F 检验 140
6.6模型评价 141
6.7回归诊断 141
6.7.1异方差 142
6.7.2强影响点 143
6.7.3多重共线性 143
6.7.4正态性 144
6.8变量选择 144
6.8.1逐步回归法 144
6.8.2信息准则 145
6.9模型实现 146
6.9.1 R语言中的基本函数 146
6.9.2 实例分析 147
6.10小结 154
6.11本章习题 154
逻辑回归 155
7.1模型形式 159
7.2模型估计 160
7.2.1参数估计 160
7.3模型评价 161
7.3.1准确率、精确率及召回率 162
7.3.2ROC 曲线和AUC值 163
7.4实例分析 164
7.5本章小结 167
7.6本章习题 167
降维分析 169
8.1主成分分析 172
8.1.1主成分分析原理 172
8.1.2主成分个数选择 174
8.1.3样本的主成分及主成分得分 175
8.1.4R语言中的主成分分析 176
8.2 因子分析 180
8.2.1 正交因子模型 180
8.2.2 模型估计 181
8.2.3因子得分 187
8.2.4因子分析和主成分分析的异同
8.2因子分析 180
8.2.1正交因子模型 180
8.2.2模型估计 181
8.3小结 190
8.4本章习题 191