书的目的是讲解数据分析的方法、逻辑、艺术与实践。全书共17章,第1章介绍了R、RStudio和R Markdown的安装和使用,第2章介绍了数据分析的动机和四个构成要素:①描述数据并形成假设②模型的构建与估计③诊断④提出下一个问题,后续章节将按照数据分析构成要素的顺序来组织;对数据了解得越多,我们就越能够提出更好的问题,形成更好的假设,描述数据相关的概念和所需的工具,将在第3~9章中详述;模型的构建与估计是一个应该在理论和证据间来回往复迭代的过程,关于构建模型的练习将在第10~14章中进行;诊断既能帮助我们发现问题,又能帮助我们发掘有意义的关联,形成额外的解释或假设,关于诊断将会在第15章和第16章中详述;第17章将讨论许多涉及二元因变量的问题,附录将提供创建其他新假设的技巧和窍门。
David S. Brown(戴维 S · 布朗):科罗拉多大学博尔德分校政治学教授和社会科学系主任。获得了加利福尼亚大学洛杉矶分校的政治学博士学位,并且是科罗拉多大学博尔德分校行为科学研究所肯尼斯·博尔丁(他开辟了多个经济学和社会科学研究领域)的首届博士后研究员。在加入科罗拉多大学政治学系之前,他曾在莱斯大学担任助理教授。他研究的是比较政治学,侧重于体制及其对经济发展的影响。他的研究成果已发表在《美国政治科学评论》(American Political Science Review)、《美国政治学期刊》(American Journal of Political Science)、《英国政治学期刊》(British Journal of Political Science)和《美国地理学家协会年鉴》(Annals of the Association of American Geographers)上。
李嘉平:曾在华大基因从事生物信息分析相关工作,目前就职于广西医科大学第一附属医院(广西心脑血管疾病防治精准医学重点实验室)。他是R布道师,希望能够通过翻译传播和推广R的应用与价值;亦是R铁杆用户,具有丰富的生物信息分析经验,擅长使用R和Python进行各类数据处理以及数据可视化。曾负责生物信息培训中所有R相关课程的设计与授课。对新技术始终抱有极大的热情,喜欢去体验那些目前仍不完善但有前景的新技术,并享受这个过程带来的乐趣与启发。
第1 章 ? 入门指南 001
概述 001
R、RStudio 和R Markdown 002
对象与函数 004
RStudio 入门 006
RStudio 的R Markdown 导览 012
R Markdown 文件与R 脚本 017
小练习 019
第2 章 ? 数据分析导论 027
概述 027
数据分析的动机 028
大数据越来越大 028
数据分析是一项有市场需求的技能 029
数据分析是一种公益 030
数据分析的构成要素 031
描述数据并形成假设 033
假设一:民族语言碎片化 034
假设二:女性选举权 040
假设三:人力资本 046
假设四:政治稳定 048
模型的构建与估计 052
诊断 054
结果的稳定性 054
残差图 056
提出下一个问题 059
目录
X R统计与数据可视化:社会科学数据分析实践
第3 章 ? 描述数据 065
概述 065
数据集和变量 067
不同类型的变量 069
连续变量 070
分类变量 070
有序分类变量 071
描述数据可以节省时间和精力 074
数据的形状 074
数据的极差 078
辨识困惑、问题、假设和线索 080
困惑和问题:重要的区别 080
描述数据以改进问题 082
描述数据披露了更多线索 085
度量 087
有效性 087
可靠性 089
第4 章 ? 集中趋势和离散程度 095
概述 095
集中趋势的度量:众数、平均数和中位数 096
众数 097
平均数 098
中位数 102
平均数与中位数 105
离散程度的度量:极差、四分位距和标准差 108
极差 109
四分位距 111
标准差 112
四__________分位距与标准差 118
关于方差的说明 119
第5 章 ? 数据的单变量和双变量描述 125
概述 125
好的、差的和离群值 126
目录 _目录 XI
单变量数据的5 种视图 127
频率表 128
条形图 129
箱线图(或盒须图) 130
直方图 133
茎叶图 137
变量间是否相关 140
散点图 141
箱线图(双变量) 147
马赛克图 147
交叉表 150
气泡图 150
第6 章 ? 数据变换 159
概述 159
数据变换的理论原因 160
变换数据确保符合理论 160
数据和问题都要变换以相互匹配 161
数据变换的实际原因 162
数据变换——从连续变量到分类变量 166
数据变换——改变类别 171
Box-Cox 变换 177
第7 章 ? 数据展示的一些原则 189
概述 189
一些风格要素 190
消除杂乱 191
聚焦 193
整合图文 195
一图应该胜千言 198
了解你的受众 204
了解你的目的:解释性、探索性或信息性 206
故事的基本要素 211
文档(树立讲述者的可信度) 212
建立直觉(设定背景) 214
XII R统计与数据可视化:社会科学数据分析实践
展示因果关系(旅程) 214
从因果到行动(决议) 216
第8 章 ? 概率论精要 221
概述 221
总体和样本 222
样本偏差与随机样本 223
大数定律 225
大数定律的可视化 226
中心极限定理 230
平均数的抽样分布随着n 的增加而接近正态分布 231
和的抽样分布是正态的 233
从正态分布中抽取时的观测数量 234
中心极限定理的一个有用性质 235
从不同的分布中抽样 236
标准正态分布 242
标准正态分布与临界z 分数 245
第9 章 ? 置信区间与假设检验 253
概述 253
大样本的置信区间 254
求总体比例 254
求总体平均数 259
小样本与t- 分布 263
自由度 266
小样本的样本标准差 267
用小样本构建置信区间 272
例子:女性薪酬与男性薪酬 273
比较两个样本的平均数 275
例子:两个群体和两种收入 276
例子:种族和对警察的看法 278
例子:收入和对特朗普的支持 278
置信水平 280
关于统计推断和因果关系的简要说明 283
目录 _目录 XIII
第10 章 ? 进行比较 289
概述 289
为什么要进行比较 290
需要比较的问题 291
比较两个分类变量 293
例子:对警察的看法 293
例子:哪些人去教堂 296
比较连续变量和分类变量 298
例子:奥巴马情感量表 298
比较两个连续变量 301
例子:性别与教育 301
例子:性别与政策制定 302
探索性数据分析:调查美国的堕胎率 305
重述要点 307
好的分析引出新的问题 312
第11 章 ? 受控比较 317
概述 317
什么是受控比较 318
比较两个分类变量,同时控制第三个变量 319
例子:对警察的看法 319
例子:对移民的看法 325
比较两个连续变量,同时控制第三个变量 332
例子:婴儿死亡率 333
例子:凶杀率 336
论点与受控比较 339
第12 章 ? 线性回归 345
概述 345
线性回归的优点 346
线性回归中的斜率和截距 347
对斜率和截距的解读 348
例子:选民投票率和教育 348
拟合优度(R2 统计量) 353
XIV R统计与数据可视化:社会科学数据分析实践
统计显著性 357
计算t- 比率 358
二元回归的例子 360
一个州的宗教信仰水平是否会影响堕胎率 361
宗教信仰是否会影响枪支法案 363
暴力会导致政治不稳定吗 364
收入(人均 GDP)与投票率有关吗 366
第13 章 ? 多元回归 373
概述 373
什么是多元回归 374
为什么要使用多元回归 375
回归模型和论点 376
回归模型、理论和证据 377
解读多元回归中的估计值 381
实质显著性 381
统计显著性 382
拟合优度:R2 383
例子:凶杀率与教育 384
理论 384
描述数据 385
估计 389
经验蕴涵 391
讨论 394
第14 章 ? 虚拟变量和交互作用 399
概述 399
什么是虚拟变量 400
加性模型与交互作用模型 401
二元虚拟变量回归 402
多元回归与虚拟变量 403
多元回归中的交互作用 403
例子:伯尼.桑德斯,教育和收入 405
例子:外援,人均GDP 和民主 410
目录 _目录 XV
第15 章 ? 诊断1 :普通最小二乘法是否适用 419
概述 417
回归分析中的诊断 417
统计量与估计量的性质 420
高斯- 马尔可夫假设 425
残差图 431
第16 章 ? 诊断2 :残差、杠杆值与影响力的度量 445
概述 445
离群值 446
杠杆值 449
影响力的度量 455
库克距离 455
dfbeta 456
增加变量图 461
第17 章 ? 逻辑回归 469
概述 469
需要逻辑回归解决的议题与难题 470
逻辑回归违反了高斯- 马尔可夫假设 471
使用对数发生比 474
使用预测概率 477
二元逻辑回归 477
多元逻辑回归 479
例子:2012 年奥巴马赢得的选举人团 480
逻辑回归模型拟合 483
例子:奥巴马,收入和教育 483
接收者操作特征曲线和曲线下面积 484
附录A ? 形成经验蕴涵