《声学事件检测理论与方法》系统地介绍声学事件检测的相关理论与方法,以及新研究进展。内容包括声学事件检测的基本原理、一般数据规模下的声学事件检测、大数据规模下的声学事件检测。在一般数据规模下的检测中,重点介绍基于长时特征的检测理论与方法,包括基于基频段特征的检测、基于混合模型的检测、基于稀疏低秩特征的检测,以及基于松弛边际与并行在线的模型训练方法。在大数据规模下的检测中,重点介绍适合大数据的快速和在线式模型训练方法,包括基于支持向量机的加速训练、基于深度模型的加速训练、通用型在线及随机梯度下降算法,以及牛顿型随机梯度下降算法等。最后介绍两个典型应用:行车周边声音环境的感知以及音频场景识别。
《声学事件检测理论与方法》可作为高等院校计算机应用、信号与信息处理、通信与电子系统等专业及学科的研究生教材,也可供该领域的科研及工程技术人员参考。
更多科学出版社服务,请扫码获取。
人类生活在一个充满声音的世界中,各种活动、事件无不伴随着丰富多彩的声音。对声音的感知与理解是人类认知世界的最重要途径之一。随着信息技术的迅猛发展,开展机器模仿人类对声音认知能力的相关研究越来越受到重视。
声音感知与理解的目标是使计算机能感知入耳听觉所能关注和理解的声音。声音的类型大体可分为语音和非语音,对不同的声音类型,所应采取的处理方法也不尽相同。有关语音感知与理解方面的研究已较为丰富,如语音识别、说话人识别等。近年来,针对非语音感知与理解的研究已逐渐成为学术界的研究热点。研究者普遍认为非语音的声音也能传递有用的信息,通过对这些声音的分析和处理,能够为智能决策提供重要的信息。非语音感知和理解的核心技术之一正是本书所要讨论的问题——声学事件检测。
声学事件检测是指对连续声音信号流中一段具有明确语义的片段进行分析,并标定其语义类别的过程。声学事件检测是机器对环境声音场景进行感知和语义理解的重要基础,其在未来类人机器人声音环境的语义理解、无人车行车周边环境的声音感知等方面将发挥重要的作用。
声学事件检测的研究经过十几年的发展已经取得了长足的进步。从其发展过程看,经历了从简单事件类型到复杂事件类型的检测,从孤立片段的事件检测到连续声音流中的事件检测,从实验室模拟的声学事件到现实生活中的声学事件检测的过程。多年来在语音识别和音乐处理方面的研究工作,为声学事件检测提供了数字信号处理与机器学习层面的技术积累;而机器的环境感知以及基于语义的多媒体信息检索对声学事件检测的强烈需求,牵引和驱动了声学事件检测的发展。近年来,数字信号处理与机器学习中,如稀疏表示与压缩感知、深度学习等方面的突破,为声学事件检测研究提供了更有效的理论方法和技术手段。
全书共15章,分别介绍声学事件检测中的特征提取和常用模型、一般数据规模下的声学事件检测、大数据规模下的声学事件检测,以及声学事件检测的典型应用。其目的不仅让读者对声学事件检测理论和方法有一个系统的了解,而且努力将本领域的新动态介绍给读者,希望读者能在学术思想上受到启发。
目录
前言
第 1 章绪论 1
1.1 声学事件检测技术的发展 1
1.1.1 声学事件检测的起源与发展脉络 2
1.1.2 基于特征的声学事件检测 12
1.1.3 基于模型的声学事件检测 17
1.2 声学事件检测技术的应用 20
1.3 声学事件检测系统的结构 21
1.4 本书的结构 22
第 2 章声学事件检测中的常用特征和模型 30
2.1 声学事件检测中的常用特征 30
2.1.1 声音信号的数字化 30
2.1.2 声音信号的时域特征 31
2.1.3 声音信号的频域特征 33
2.1.4 声音信号的时频域特征 41
2.1.5 特征降维与选择 43
2.2 声学事件检测中的常用模型 47
2.2.1 浅层模型 47
2.2.2 深度模型 53
2.3 本章小结 53
第 3 章基于基频段特征的声学事件检测 54
3.1 引言 54
3.2 长时特征提取 54
3.2.1 长时统计特征提取 54
3.2.2 基于基频段的特征提取 59
3.3 基于长时统计特征的声学事件检测 59
3.3.1 基于单分类器和多分类器融合的声学事件检测 60
3.3.2 基于类内细分聚类的声学事件检测 61
3.3.3 基于拒识和确认的声学事件检测 62
3.4 实验和结果 63
3.4.1 实验设置 63
3.4.2 实验结果与分析 63
3.5 本章小结 68
第 4 章基于混合模型的声学事件检测 69
4.1 引言 69
4.2 伪高斯混合模型 70
4.2.1 伪高斯混合模型的构建 70
4.2.2 伪高斯混合模型参数估计的 EM 算法 72
4.3 异质混合模型 74
4.3.1 多变量 Logistic 混合模型的可辨识性 75
4.3.2 异质混合模型的构建 78
4.3.3 异质混合模型的参数估计 79
4.4 实验和结果 82
4.4.1 基于伪高斯混合模型的声学事件检测 82
4.4.2 基于异质混合模型的声学事件检测 83
4.5 本章小结 86
第 5 章基于稀疏低秩特征的声学事件检测 87
5.1 引言 87
5.2 基于稀疏表示特征的声学事件检测 89
5.3 基于低秩矩阵表示特征的声学事件检测 92
5.3.1 低秩矩阵表示特征提取 92
5.3.2 低秩矩阵分类的问题描述 93
5.3.3 基于加速近似梯度方法的矩阵分类学习 94
5.4 基于低秩张量表示特征的声学事件检测 96
5.4.1 张量计算相关记号 97
5.4.2 低秩张量表示特征提取 97
5.4.3 基于加速近似梯度方法的张量分类学习 99
5.5 实验和结果 102
5.5.1 基于稀疏表示特征的声学事件检测 102
5.5.2 基于低秩矩阵表示特征的声学事件检测 104
5.5.3 基于低秩张量表示特征的声学事件检测 108
5.6 本章小结 112
第 6 章基于松弛边际下模型训练的声学事件检测 113
6.1 引言 113
6.2 基于迹范限制下的最大边际矩阵分类 113
6.2.1 基于迹范限制与松弛边际的矩阵分类问题描述 113
6.2.2 基于交替搜索方式的矩阵分类学习算法 114
6.3 基于迹范限制下的最大边际张量分类 116
6.3.1 基于迹范限制与松弛边际的张量分类问题描述 116
6.3.2 基于交替搜索方式的张量分类学习算法 117
6.4 实验和结果 119
6.5 本章小结 122
第 7 章基于在线并行模型训练的声学事件检测 123
7.1 引言 123
7.2 在线并行的矩阵数据分类学习方法 123
7.2.1 基于加速近似梯度方法的矩阵分类在线学习 123
7.2.2 基于逼近加速近似梯度方法的在线学习 125
7.2.3 基于小批量更新的在线学习 126
7.2.4 基于并行计算加速的矩阵分类学习 126
7.3 在线并行的张量数据分类学习方法 128
7.4 实验和结果 131
7.4.1 基于在线并行学习的低秩矩阵特征分类 131
7.4.2 基于在线并行学习的低秩张量特征分类 133
7.5 本章小结 135
第 8 章基于锚空间的声学事件检测 136
8.1 引言 136
8.2 锚模型简介 137
8.3 基于状态变化统计量的锚空间声学事件检测 139
8.3.1 基于状态变化统计量的锚空间生成方法 140
8.3.2 实验与讨论 143
8.4 基于高斯混合模型锚空间的声学事件检测 144
8.4.1 基于高斯混合模型锚空间的目标与集外锚模板的生成 144
8.4.2 基于高斯混合模型的声学事件检测机制 146
8.5 基于稀疏分解锚空间的声学事件检测 146
8.5.1 基于稀疏分解锚空间的目标与集外锚模板的生成 147
8.5.2 基于稀疏分解的声学事件检测机制 148
8.5.3 实验与讨论 149
8.6 本章小结 151
第 9 章面向大数据环境下声学事件检测的凸优化理论 152
9.1 引言 152
9.2 与声学事件检测相关的凸优化理论 153
9.2.1 早期凸优化 154
9.2.2 凸优化基础 155
9.2.3 一阶方法的动机 156
9.3 光滑与非光滑的凸优化一阶方法 157
9.3.1光滑目标 157
9.3.2 复合优化目标函数 160
9.3.3 近端目标 161
9.4 随机化技术 162
9.5 并行和分布式计算 164
9.6 本章小结 164
第 10 章面向大数据处理的支持向量机模型的加速算法 165
10.1 随机对偶坐标上升法 165
10.1.1 问题描述及相关工作 165
10.1.2 基于对偶间隙边界的 SDCA 收敛性分析 167
10.2 加速近端随机对偶坐标上升法 172
10.2.1 问题描述及相关工作 172
10.2.2 基于对偶间隙边界的 Prox-SDCA 收敛性分析 173
10.3 本章小结 180
第 11 章面向大数据处理的深度模型的加速算法 181
11.1 引言 181
11.2 全梯度与随机梯度下降算法 183
11.3 加速梯度算法 190
11.4 指数型收敛的随机梯度下降算法 192
11.4.1 随机平均梯度法 192
11.4.2 随机方差减梯度方法 194
11.5 坐标梯度下降算法 194
11.6 本章小结 199
第 12 章面向大数据的通用型在线及随机梯度下降算法 200
12.1 引言 200
12.2 通用在线梯度法 202
12.2.1 通用的在线原始梯度方法 203
12.2.2 通用的在线对偶梯度方法 205
12.2.3 通用的在线快速梯度方法 208
12.3 通用随机梯度法 212
12.3.1 算法描述 212
12.3.2 收敛性分析 212
12.4 数值实验 215
12.4.1 LASSO 问题 216
12.4.2 施泰纳问题 218
12.5 本章小结 221
第 13 章面向大数据的牛顿型随机梯度下降算法 223
13.1 引言 223
13.2 近端牛顿型随机梯度法 226
13.2.1 正则化的二次模型 228
13.2.2 Hessian 矩阵的近似 229
13.3 算法的收敛性分析 229
13.4 数值实验 234
13.5 本章小结 235
第 14 章基于声学事件检测的行车周边声音环境感知 236
14.1 引言 236
14.2 实验环境与基线系统 237
14.3 基于径向基函数神经网络噪声建模的声学事件检测 240
14.4 基于等响度曲线的声学事件检测 246
14.5 基于基频轨迹特征的声学事件检测 250
14.6 本章小结 255
第 15 章音频场景识另 256
15.1 引言 256
15.2 基于高斯直方图特征的音频场景识别 257
15.2.1 高斯直方图特征 257
15.2.2 分类模型 259
15.3 基于迁移学习的音频场景识别 259
15.3.1 迁移学习概述 259
15.3.2 基于样本平衡化的音频场景识别 260
15.3.3 基于改进样本平衡化的音频场景识别 263
15.4 实验和结果 265
15.5 本章小结 266
参考文献 267