本书从数据科学视角,详细讲解概率分布、期望值、估计等概率统计知识,广泛使用真实的数据集,同时所有数据分析均由R编码支持。此外,本书包含许多数据科学应用,如主成分分析、混合分布、随机图模型、隐马尔科夫模型、线性回归、逻辑回归和神经网络等。
本书是一本面向数据科学、计算机科学专业学生的概率统计教材。全书共分为四部分:第壹部分(第1~6章)主要介绍概率论、蒙特卡罗模拟、离散型随机变量、期望值和方差、离散参数分布族、连续型概率模型;第二部分(第7~10章)主要介绍统计学基础知识,包括抽样分布、极大似然估计、中心极限定理、置信区间和显著性检验等;第三部分(第11~17章)主要介绍多元分析相关内容,包括多元分布、混合分布、主成分分析、对数线性模型、降维、过拟合和预测分析等;第四部分(附录)介绍R语言编程基础知识。
致教师
对于物理、化学或生物学这样的学科而言,我们学习一门学科是为了解决这门学科的问题,而统计学与这些学科不同,研究统计学的主要目的是解决其他学科的问题.
——C.R.Rao,现代统计学的先驱之一
教育的作用是教人认真思考和批判性思考.智慧与品格——这才是教育的真正目标.
——马丁·路德·金博士,美国民权领袖
其万折也必东,似志.
——孔子,中国古代哲学家
本书主要是为数据科学(包括计算机科学)专业学生设计的概率与统计教材,涵盖初级/高级/研究生水平的概率论和统计学知识.除微积分外,本书还要求学生掌握一些矩阵代数知识并具备基本的计算机编程能力.
但是,这本书为什么不同于其他概率论和数理统计教材呢?
事实上,这本书确实与其他概率论与数理统计方面的书完全不同.简要概括如下:
●本书英文版的副书名是Math+R+Data,这里直接体现了本书与其他数理统计类书籍的不同.
●强调数据科学应用,例如,随机图模型、幂律分布、隐马尔可夫模型、主成分分析、谷歌PageRank、遥感、混合分布、神经网络、维数灾难等.
●广泛使用R语言.
与其他数理统计类书籍相比,本书特别强调应用,使用了大量的真实数据.
本书从应用的角度出发组织内容,注重培养学生批判性思考使用统计学的方式和原因,并使学生具有“全局观”.
●使用真实数据,并及早地引入统计问题.
前面的Rao语录引起了我的强烈共鸣.虽然这是一本“数理统计”教材,涵盖了随机变量、密度函数、期望值、分布、统计估计和推断等,但是正如本书书名所体现的,本书特别强调这些知识在数据科学中的应用.作为一本关于数据科学的书,即使只是一本数理统计书,也应该充分利用数据!
这对本书章节的顺序有影响.我们很早地引入了统计学,并在正文中穿插着统计问题.甚至是在介绍数学期望的第3章,也包括一些简单的预测模型,为学习第15章的内容作铺垫.第5章介绍著名的离散参数模型,并包含用幂律分布拟合真实数据的例子.这是第7章的前奏,之后在第7章将讨论抽样分布、均值和方差估计、偏差等知识.第8章介绍点估计,并利用极大似然估计和矩方法对真实数据进行模型拟合.从该章起,后面每一章都广泛使用了真实数据.
因为这些数据集都是公开的,所以授课教师可以深入研究这些数据示例.
●数学上正确——还要有很好的直觉.
前面给出的孔子的这句话虽然早在统计方法正式发展之前就有了,但是这表明他已经具有敏锐的直觉,预见了当今数据科学领域的一个基本概念——数据平滑.培养学生的这种强烈的直觉是本书的重中之重.
这当然是一本数学书.所有模型、概念等都是用随机变量和分布来精确描述的.除了微积分之外,矩阵代数也扮演着重要的角色.在许多章节的后都增加了选学的数学补充内容,以便为好奇的读者提供更多材料,探索更复杂的内容.每章后的练习都包括一些常规练习题和一些更具挑战性的问题.
另外,这本书不是为了数学而“数学”的书,尽管用数学语言对相关内容描述得很精确,但它绝不是一本理论书.
例如,本书并没有从样本空间和集合论的角度来定义概率.以我的经验,用经典的方式定义概率是学习这些概念背后的直觉的一个主要障碍,也阻碍了后面做好应用工作.相反,我使用直觉的、非形式化的方法,从长期频率的角度来定义概率,本质上是把强大数定律作为一个公理.
我相信这种方法在解释条件概率和期望值时特别有用,这些概念是学生们常遇到的难题.在经典的方法下,如果题目叙述没有给定明确的短语(如给定条件下),学生们很难识别出这个练习(甚至是实际应用)需要条件概率或期望.相反,我是让学生从反复试验的角度来思考,在B发生的时间里,A发生了多少次?这更容易与实际相联系.
●提高学生的实际应用能力.
“应用”这个词对于不同的人意味着不同的事.例如,Mitzenmacher和Upfal\[33\]为计算机科学专业的学生编写了一本有趣而优雅的书,他所关注的概率实际上是离散型概率,他的预期应用实际上是针对计算机科学的理论.
相反,我关注的是在现实世界中使用这些知识,这往往涉及更多的是连续型而不是离散型概率,并且更多的是在统计学而不是概率论领域.这尤其有价值,因为现在大数据和机器学习在计算机和数据科学中发挥着重要的作用.
你马上可以在书中看到这种哲学.这本书的个例子不是关于骰子或硬币的,而是涉及公交系统模型和计算机网络模型.当然,书中也有使用骰子、硬币和游戏的例子,但是,就像已故的Leo Breiman的书\[5\]的副书名一样,“着眼于应用”(With a View toward Applications)永远不会遥远.
如果我可以冒昧地引述马丁·路德·金的话,我要指出的是,今天的统计学是一个核心的知识领域,它几乎影响着每个人的日常生活.具有使用统计数据或者至少可以理解统计数据的能力,对于我们来说至关重要.作为本书的作者,我将此视为一项使命.
●R编程语言的使用.
出于模拟和数据分析的目的,本书利用了R语言中一些轻量级的程序.学生应该具有一些基本的编程背景,比如说Python、C、Java或R中的一个,但是无须
诺曼·马特罗夫(Norman Matloff)是加州大学戴维斯分校计算机科学专业教授,并曾担任该校统计学专业教授。他是 Journal of Statistical Software和The R Journal的编委会成员。他的著作Statistical Regression and Classification: From Linear Models to Machine Learning曾入选2017年国际Ziegel奖。他还是该校杰出教学奖的获得者。
前言
作者简介
部分 概率论基础
第1章 基本的概率模型2
1.1 示例:公共汽车客流量2
1.2 “笔记本”视图:重复实验的概念3
1.2.1 理论方法3
1.2.2 更直观的方法3
1.3 我们的定义4
1.4 “邮寄筒”7
1.5 示例:公共汽车客流量(续)7
1.6 示例:ALOHA网络9
1.6.1 ALOHA网络模型总结10
1.6.2 ALOHA网络计算10
1.7 笔记本环境中的ALOHA12
1.8 示例:一个简单的棋盘游戏13
1.9 贝叶斯法则14
1.9.1 总则14
1.9.2 示例:文档分类15
1.10 随机图模型15
1.10.1 示例:择优连接模型16
1.11 基于组合数学的计算16
1.11.1 5张牌中哪一种情况更有可能:一张国王还是两张红心16
1.11.2 示例:学生的随机分组17
1.11.3 示例:彩票17
1.11.4 示例:数字之差18
1.11.5 多项式系数19
1.11.6 示例:打桥牌时得到4张A的概率19
1.12 练习20
第2章 蒙特卡罗模拟22
2.1 示例:掷骰子22
2.1.1 次改进22
2.1.2 第二次改进23
2.1.3 第三次改进24
2.2 示例:骰子问题24
2.3 使用runif()模拟事件25
2.4 示例:公共汽车客流量(续)25
2.5 示例:棋盘游戏(续)25
2.6 示例:断杆26
2.7 我们应该运行模拟多长时间26
2.8 计算补充26
2.8.1 replicate()函数的更多信息26
2.9 练习27
第3章 离散型随机变量:期望值28
3.1 随机变量28
3.2 离散型随机变量28
3.3 独立的随机变量29
3.4 示例:蒙提霍尔问题29
3.5 期望值31
3.5.1 一般性——不只是离散型随机变量31
3.5.2 用词不当31
3.5.3 定义和笔记本视图31
3.6 期望值的性质32
3.6.1 计算公式32
3.6.2 期望值的一些性质33
3.7 示例:公共汽车客流量35
3.8 示例:预测产品需求36
3.9 通过模拟求期望值36
3.10 赌场、保险公司和“总和使用者”与其他情况相比37
3.11 数学补充38
3.11.1 性质E的证明38
3.12 练习38
第4章 离散型随机变量:方差39
4.1 方差39
4.1.1 定义39
4.1.2 方差概念的核心重要性41
4.1.3 关于Var(X)大小的直觉41
4.2 有用的事实42
4.3 协方差43
4.4 指示随机变量及其均值和方差44
4.4.1 示例:图书馆图书归还时间(版)44
4.4.2 示例:图书馆图书归还时间(第二版)45
4.4.3 示例:委员会问题中的指示变量45
4.5 偏度47
4.6 数学补充47
4.6.1 切比雪夫不等式的证明47
4.7 练习48
第5章 离散参数分布族49
5.1 分布49
5.1.1 示例:掷硬币直到次出现正面为止49
5.1.2 示例:两个骰子的和49
5.1.3 示例:Watts-Strogatz随机图模型50
5.2 参数分布族51
5.3 对我们很重要的案例:pmf的参数族51
5.4 基于伯努利实验的分布51
5.4.1 几何分布族52
5.4.2 二项分布族55
5.4.3 负二项分布族56
5.5 两种主要的非伯努利模型58
5.5.1 泊松分布族58
5.5.2 幂律分布族59
5.5.3 根据数据拟合泊松和幂律模型60
5.6 其他示例62
5.6.1 示例:公共汽车客流量问题…62
5.6.2 示例:社交网络分析63
5.7 计算补充63
5.7.1 R中的图形和可视化63
5.8 练习64
第6章 连续型概率模型66
6.1 随机掷镖游戏66
6.2 单值点的概率为零66
6.3 现在我们有个问题67
6.4 解决该问题的方法:累积分布函数67
6.4.1 累积分布函数67
6.4.2 既非离散也非连续的分布68
6.5 密度函数69
6.5.1 密度函数的性质69
6.5.2 密度的直观含义70
6.5.3 期望值71
6.6 个示例71
6.7 著名的连续分布参数族72
6.7.1 均匀分布72
6.7.2 正态(高斯)分布族73
6.7.3 指数分布族74
6.7.4 伽马分布族76
6.7.5 贝塔分布族77
6.8 数学补充79
6.8.1 危险函数79
6.8.2 指数分布族与泊松分布族的对偶性79
6.9 计算补充80
6.9.1 R的integrate()函数80
6.9.2 从密度函数中抽样的逆方法…80
6.9.3 从泊松分布中抽样81
6.10 练习81
第二部分 统计基础
第7章 统计学:序言84
7.1 本章的重要性84
7.2 抽样分布84
7.2.1 随机抽样84
7.3 样本均值85
7.3.1 示例:玩具总体85
7.3.2 X的期望值和方差86
7.3.3 同样的示例:玩具总体87
7.3.4 解释87
7.3.5 笔记本视图88
7.4 简单随机抽样情况88
7.5 样本方差89
7.5.1 σ2的直观估计89
7.5.2 更易于计算的方法89
7.5.3 特殊情况:X为指示变量90
7.6 除以n还是n-190
7.6.1 统计偏差90
7.7 “标准误差”的概念91
7.8 示例:Pima糖尿病研究91
7.9 别忘了:样本≠总体93
7.10 模拟问题93
7.10.1 样本估计93
7.10.2 无限总体93
7.11 观测研究9