本书是一本以数据分析为基础的面向统计学、数据科学等专业的统计学著作。本书的宗旨是为每个人提供数据分析方法,为了降低阅读门槛,几乎不涉及高等数学推导。通过本书的学习,你将学会批判性地思考数据,交流你的发现,并仔细评估他人的论点。
本书内容十分丰富,设置精心,书中提供了大量的案例、示例、图、表、技术提示以及重点和难点警示标签等,并通过T1-84图形计算器、Excel、Minitab和StatCrunch展示了大量实际应用。每章末配有数据项目、本章回顾练习和练习指导。主要内容包括:数据导论、图形可视化变异、中心和变 异的数值汇总统计量、回归分析、概率、随机事件概率模型、调查抽样与推断、总体比例的假设 检验、推断总体均值以及分类变量研究与科研文献阅读。
打开这样一本书,你一定会对它丰富的内容和精心的设置感到惊讶,甚至有种相见恨晚的感觉,感慨作者的细心和周全。
本书对初学者十分友好,解决初学者对概念理解不透的问题;激发读者学会批判性地评估论点,尤其是基于数据的论点,学会对数据进行批判性思考,将自己的发现传达给他人,并审慎地评价他人的论点。
书中将真实数据与情境和目的相结合,加强读者对概念的直观理解,对初学者建立信心十分有帮助。
但是,并不排斥技术实现,相反,为了满足众多需求,增加了大量的技术提示,介绍了使用T1-84图形计算器、Excel、Minitab和StatCrunch执行计算的步骤。
精彩纷呈的案例,喝咖啡这个习惯危险吗? 预测房价你看起来生病了!你真的生病了吗?……为解决实际问题打开思路
前 言
关于本书
我们坚信,分析数据可以揭示数据的内涵和意义,而分析能力是我们步入职场和社会生活的重要技能。这不是一本关于统计的书,而是一本关于如何理解世界的书。具体而言,就是通过统计推断和数据分析帮助我们更清楚地认识世界,进而改善世界。
自第1版以来,我们见证了数据科学的兴起,并惊叹于数据在改善我们的健康、预测天气、联系失散多年的朋友、管理我们的家庭,以及有效安排我们的生活等方方面面发挥的作用。与此同时,我们也担心数据泄露,担心因个人隐私泄露而威胁到我们的社会结构,担心操纵舆情的那些企图。
本书不拘泥于教条式灌输他人的统计发现,虽然本书的确讲授这些内容;我们需要读者学会批判性地评估论点,尤其是基于数据的论点。但更重要的是,我们希望启迪读者分析数据并得出有用的结论。 这是一本关于做的书。 我们对只教读者记住公式或要求他们机械照搬不感兴趣。读者必须学会对数据进行批判性思考,将自己的发现传达给他人,并审慎地评价他人的论点。
第3版新增内容
作为教育工作者和作者,我们深受美国《统计教育评估和教学指南》理念的启迪(the Guidelines for Assessment and Instruction in Statistics Education, GAISE)(http://amstat.org/asa/education/Guidelines-for-Assessment-and-Instruction-in-Statistics-Education-Reports.aspx),该指南建议我们:
教授统计思维,包括将统计作为调查过程进行介绍,并为读者提供参与多元思维的场景;
关注概念理解;
将真实数据与情境和目的相结合;
激发主动学习;
借助技术手段探索概念和分析数据;
利用教学评价来提高和评估读者的学习能力。
这些建议指导了本书的前两个版本。但是,数据科学的兴起让我们重新思考如何让读者使用数据,因此,第3版添加了一些新的特色内容,期待有助于培养读者处理复杂数据的能力。
更准确地说,你会发现:
强调我们所说的数据周期,这是一种指导读者完成统计调查过程的策略。数据周期包括四个阶段:提出问题、考察数据、分析数据和解释数据。新增的环形周期图说明数据周期特别重要。
更加强调把提出问题作为数据周期中重要的第一步。以前的版本强调了其他三个步骤,但我们认为读者需要实际设计问题,这会有助于他们解释数据。提出问题就是进行数学和统计建模,这一版将花更多的时间讲授这项重要的技能。
每章都包含数据项目一节。数据项目是自主实践活动,向读者传授重要的数据迁移,帮助他们浏览现实世界中经常出现的庞大而复杂的数据集。
添加了数据迁移图标。 一些示例是从较大的数据集中提取的部分数据。数据迁移图标将读者引向这些数据集,并说明这是提取数据。感谢 Tim Erickson创造了 数据迁移(data move)这个术语。
第5章介绍了更平滑、更精细的模拟方法。
更新了技术提示以匹配当前的硬件和软件。
数以百计的新练习。
每章中的新例子和对旧例子的更新。
新的和更新的数据集,包括更多的大数据。
方法
本书是基于概念的,而不是基于方法的。我们讲授有用的统计方法,但我们强调应用方法对于理解概念而言是次要的。
在现实世界中,计算机为统计学家完成了大部分繁重的工作。因此,我们采用了一种方法而不必囿于烦琐的程序,而是留出更多时间去介绍如何更深入地理解概念。因此,我们认为公式是用来帮助理解这些概念的,而不是学习的重点。
我们认为读者需要学习:
如何确定适用的统计软件;
如何操作软件执行这些程序;
如何解释输出结果。
我们知道读者可能只会使用一种统计软件。但我们认为比较几个不同软件的输出结果对读者很有用,因此在一些例子中,我们会介绍两个及以上软件的输出结果。
内容
本书的前三分之二是概念驱动的,涵盖了探索性数据分析和推断统计每个统计学的读者都应该学习的基本概念。本书的后三分之一建立在这些强大的概念基础之上,并且更加基于方法,其中介绍了几种流行的统计方法,更全面地探讨了前几章介绍的方法,例如回归和数据收集。
主题排序以分析数据的过程为指导。首先,读者需要探索和描述数据,利用图形和汇总统计洞察数据。然后,他们需要对更广阔的世界进行概括(推断)。
第1~4章:探索性数据分析。前四章涵盖数据收集和汇总。第 1 章介绍了数据收集这一重要主题,并将观察性研究与对照实验进行了对比。本章还介绍如何处理原始数据,以便将数据上传到统计软件。第2章和第 3 章讨论基于样本的单变量图形和汇总统计。我们的目的不仅仅是得到一个图形或一个数字,而是要解释这些图形和数字传递了什么信息。第 4章介绍了简单线性回归,并将其视作提供了两个数值型变量之间关系图和相关关系统计量的统计方法。
我们认为,在本书的开头引入回归内容有助于读者理解统计学在现实世界中的适用性。 在完成涵盖数据收集和汇总统计几章的学习后,读者已经获得了描述两变量关系和生成非正式假设所需的技能和技巧
作者简介:
罗伯特·古尔德(Robert Gould) 统计学教育界的领导者。他曾担任美国统计学会(ASA)统计学教育专委会主任、美国两年制学院数学协会(AMATYC)与ASA联合委员会主席,曾在美国数学教师委员会与ASA联合委员会任职,还是2005年统计学教育教学评估指南(GAISE)学院报告的合作撰写人。他目前在加州大学洛杉矶分校统计系任教,指导本科生统计学项目,是该校统计教学主任。2012年,他当选为美国统计学会会士。
丽贝卡·王(Rebecca Wong) 在西谷学院教授数学和统计学已有20多年,因出色的教学而受到美国国家职员与组织发展研究所和加州社区学院数学委员会的表彰。
科琳·莱恩(Colleen Ryan) 几十年来一直在不同的社区大学讲授统计学、化学和物理学,目前在墨尔帕克学院兼职讲授统计学。1975年至2006年,她在奥克斯纳德学院任教,并在那里获得年度优秀教师奖。
译者简介:
田金方,山东财经大学教授,博士生导师,校学术委员会委员,统计交叉科学研究中心主任兼统计与数学学院副院长,兼任中国统计学会常务理事、全国投入产出与大数据研究会副会长、中国商业统计学会常务理事、中国统计教育学会社会经济统计分会常务理事、山东省大数据研究会创会秘书长等职务。他主要从事社会经济统计分析、金融大数据挖掘、环境统计等研究,发表SSCI、SCI、CSSCI检索期刊论文50余篇,主持国家级课题2项、省部级课题20余项,出版著作5部,获得省部级科研奖励4项。
目 录
前言
第1章 数据导论 1
1.1 什么是数据 2
1.2 数据分类与存储 5
1.2.1 变量类型 6
1.2.2 分类数据的数字编码 7
1.2.3 数据存储 8
1.3 数据调查 10
1.4 分类数据的组织 14
1.5 数据收集与因果关系识别 18
1.5.1 逸事 19
1.5.2 观察性研究 20
1.5.3 对照实验 22
1.5.4 样本量 22
1.5.5 随机分配 22
1.5.6 盲法 23
1.5.7 安慰剂 24
1.5.8 结论推广 25
1.5.9 新闻中的统计 26
数据项目:下载和上传数据 28
本章回顾 30
练习 32
练习指导 46
第2章 图形可视化变异 48
2.1 数值数据变异的可视化 49
2.1.1 点图 51
2.1.2 直方图 51
2.1.3 茎叶图 54
2.2 数值分布重要特征汇总 55
2.2.1 形状 56
2.2.2 中心 60
2.2.3 变异性 62
2.2.4 分布的描述 64
2.3 分类变量变异的可视化 64
2.3.1 条形图 65
2.3.2 饼图 67
2.4 分类分布的汇总 68
2.4.1 众数 68
2.4.2 变异性 69
2.4.3 分类变量分布的描述 70
2.5 解释图表 72
2.5.1 误导性图表 72
2.5.2 统计图形的未来 73
数据项目:提出问题 75
本章回顾 76
练习 78
练习指导 96
技术提示 97
第3章 中心和变异的数值汇总统计量 103
3.1 对称分布的汇总统计量 104
3.1.1 均值:中心的平衡点度量 104
3.1.2 标准差:变异性的度量 109
3.2 经验法则与z分数:异常现象的度量 114
3.2.1 经验法则 114
3.2.2 z分数:与均值距离的度量 117
3.3 偏态分布的汇总统计量 119
3.3.1 中位数:中心的另一种度量 120
3.3.2 四分位距:变异性的度量 122
3.3.3 全距:变异性的另一种度量 126
3.4 度量中心的方法比较 126
3.4.1 分布图的形状 126
3.4.2 异常值的影响 128
3.4.3 多峰分布的中心与离散程度 129
3.4.4 不同分布的比较 130
3.5 箱线图 131
3.5.1 潜在异常值分析 134
3.5.2 水平箱线图与竖直箱线图 135
3.5.3 基于箱线图比较分布 135
3.5.4 使用箱线图的注意事项 136
3.5.5 五数概括法 136
数据项目:统计调查周期 139
本章回顾 140
练习 142
练习指导 165
技术提示 166
第4章 回归分析:探究变量的相关性 172
4.1 变异性的可视化:散点图 173
4.1.1 趋势 173
4.1.2 强度 175
4.1.3 形状 175
4.1.4 变量相关性 176
4.1.5 关于回归的统计问题 177
4.2 相关性的强度度量 178
4.2.1 相关系数可视化 178
4.2.2 相关系数:基于情境 180
4.2.3 相关性与因果关系 181
4.2.4 相关系数的计算 182
4.2.5 相关系数的意义 184
4.3 对线性趋势建模 187
4.3.1 回归线 187
4.3.2 解释回归线 192
4.4 线性模型的评估 199
4.4.1 建模误区 199
4.4.2 决定系数r2:拟合优度的度量 203
数据项目:数据迁移 206
本章回顾 209
练习 210
练习指导 237
技术提示 238
第5章 概率:用模型解释随机性 243
5.1 什么是随机性 244
5.2 理论概率的计算 248
5.2.1 理论概率的性质 248
5.2.2 等可能结果的理论概率 249
5.2.3 积事件与和事件 252
5.2.4 和事件 253
5.2.5 互斥事件 255
5.3 分类变量的相关性 257
5.3.1 条件概率 258
5.3.2 独立事件与相关事件 261
5.3.3 判断事件是否独立 263
5.3.4 独立事件序列与相关事件序列 264
5.4 经验概率与模拟概率的计算 269
5.4.1 模拟的设计 270
5.4.2 模拟的步骤 271
5.4.3 大数定律 272
5.4.4 大数定律的内涵 275
数据项目:构造数据子集 276
本章回顾 277
练习 279
练习指导 302
技术提示 303
第6章 随机事件概率模型:正态模型
与二项模型 306
6.1 随机实验模型:概率分布 307
6.1.1 离散概率分布:表格或图表 308
6.1.2 离散概率分布:公式 309
6.1.3 连续概率:概率密度曲线下方的
面积 311
6.1.4 计算连续值结果的概率 311
6.2 正态模型 312
6.2.1 正态分布可视化 313
6.2.2 计算正态概率 315
6.2.3 用软件计算概率 316
6.2.4 不用统计软件:用经验法则 318
6.2.5 不用统计软件:标准正态 320
6.2.6 根据正态分布的分位数计算
度量值 323
6.2.7 正态模型的适用性 326
6.3 二项模型 326
6.3.1 二项分布可视化 329
6.3.2 计算二项概率 330
6.3.3 计算(稍微)复杂的概率 332
6.3.4 二项分布的形状:中心与离散
程度 335
6.3.5 抽样调查:二项模型的应用 337
数据项目:生成随机数 339
本章回顾 341
练习 343
练习指导 363
技术提示 364
第7章 调查抽样与推断 371
7.1 通过调查了解世界 372
7.1.1 调查术语 372
7.1.2 调查偏差 375
7.1.3 简单随机抽样 377
7.2 度量调查质量 380
7.2.1 模拟与估计量 381
7.2.2 偏差与标准误差的计算 387
7.2.3 现实生活:我们只有一次机会 388
7.3 样本比例的中心极限定理 389
7.3.1 中心极限定理的适用条件 389
7.3.2 中心极限定理适用条件的检验 391
7.3.3 中心极限定理的应用 391
7.4 估计总体比例的置信区间 395
7.4.1 设置置信水平 396
7.4.2 设置误差范围 397
7.4.3 现实检验:在p未知的情况下计算
置信区间 399
7.4.4 解释置信区间 400
7.4.5 研究筹备:计算所需的样本量 403
7.5 基于置信水平比较总体比例 404
7.5.1 有什么区别 404
7.5.2 两个总体比例的置信区间 406
7.5.3 检查适用条件 407
7.5.4 解释两个比例之差的置信区间 409
7.5.5 随机分配与随机抽样 410
数据项目:编码类别 412
本章回顾 414
练习 416
练习指导 434
技术提示 436
第8章 总体比例的假设检验 440
8.1 假设检验的基本要素 441
8.1.1 核心要素:一对假设 442
8.1.2 另一个要素:犯错 445
8.1.3 增加一个要素:检验统计量 446
8.1.4 最后一个必不可少的要素:意想
不到的结果 448
8.1.5 假设检验与数据周期:提出问题 450
8.2 假设检验的四步法 450
8.2.1 步骤详解 451
8.2.2 四步法 455
8.3 假设检验:详细说明 459
8.3.1 检验统计量的值:极端情况 459
8.3.2 z统计量抽样分布:条件不满足的
解决方案 461
8.3.3 平衡两类错误 461
8.3.4 统计显著性与实际意义 463
8.3.5 不要改变假设 463
8.3.6 假设检验的逻辑 464
8.3.7 置信区间与假设检验 465
8.4 比较两个总体的比例 467
8.4.1 更改要素:假设 467
8.4.2 更改要素:检验统计量 468
8.4.3 更改要素:检查条件 470
数据项目:日期数据 475
本章回顾 477
练习 480
练习指导 499
技术提示 501
第9章 推断总体均值 505
9.1 随机样本的样本均值 506
9.1.1 样本均值的准度与精度 506
9.1.2 模拟的结果 509
9.2 样本均值的中心极限定理 510
9.2.1 样本均值分布的可视化 512
9.2.2 中心极限定理的应用 514
9.2.3 分布的类型 514
9.2.4 t分布 516
9.3 总体均值的置信区间估计 518
9.4 均值假设检验 528
9.5 两个总体均值的比较 534
9.5.1 利用置信区间估计均值之差
(独立样本) 536
9.5.2 两个均值之差的置信区间 537
9.5.3 两个均值的假设检验 540
9.5.4 两个均值的置信区间:相关样本 545
9.5.5 两个均值的假设检验:相关样本 547
9.6 均值分析方法总览 550
9.6.1 不接受原假设 550
9.6.2 置信区间和假设检验 551
9.6.3 选择假设检验还是置信区间 552
数据项目:堆栈数据 554
本章回顾 555
练习 558
练习指导 579
技术提示 581
第10章 分类变量研究与科研文献
阅读 589
10.1 分类变量的假设检验:基本要素 590
10.1.1 数据 591
10.1.2 理论频数 592
10.1.3 卡方统计量 595
10.1.4 计算卡方统计量的p值 597
10.2 分类变量之间的相关性:卡方检验 599
10.2.1 独立性检验与同质性检验 601
10.2.2 随机抽样与随机分配 604
10.2.3 比例检验 605
10.3 阅读学术文献 608
10.3.1 阅读摘要 610
10.3.2 注意事项 613
数据项目:小处着眼 617
本章回顾 618
练习 622
练习指导 638
技术提示 640
附录 645
附录A 表 645
附录B 奇数号练习答案 654