内容简介
本书系统介绍了语音信号处理的基础、原理、方法、应用、新理论、新成果与新技术,以及该研究领域的背景知识、研究现状、应用前景和发展趋势。
全书分三篇共17章。第一篇语音信号处理基础,包括第1章绪论,第2章语音信号处理的基础知识;第二篇语音信号分析,包括第3章时域分析,第4章短时傅里叶分析,第5章倒谱分析与同态滤波,第6章线性预测分析,第7章语音信号的非线性分析,第8章语音特征参数检测与估计,第9章矢量量化,第10章隐马尔可夫模型;第三篇语音信号处理技术与应用,包括第11章语音编码,第12章语音合成,第13章语音识别,第14章说话人识别和语种辨识,第15章智能信息处理技术在语音信号处理中的应用,第16章语音增强,第17章基于麦克风阵列的语音信号处理。
本书体系完整,结构严谨;系统性强,层次分明;内容深入浅出,原理阐述透彻;取材广泛,繁简适中;内容丰富而新颖;联系实际应用。
作者简介
胡航,博士,哈尔滨工业大学电子信息学院副教授,主要教授《信号与系统》、《数字信号处理》等课程,研究方向为现代语音信号处理。
章节目录
目录
第一篇语音信号处理基础
第1章绪论 1
1.1语音信号处理的发展历史 1
1.2语音信号处理的主要研究内容及发展
概况 3
1.3本书的内容 7
思考与复习题 8
第2章语音信号处理的基础知识 9
2.1概述 9
2.2语音产生的过程 9
2.3语音信号的特性 12
2.3.1语言和语音的基本特性 12
2.3.2语音信号的时间波形和频谱特性 13
2.3.3语音信号的统计特性 15
2.4语音产生的线性模型 16
2.4.1激励模型 17
2.4.2声道模型 18
2.4.3辐射模型 20
2.4.4语音信号数字模型 21
2.5语音产生的非线性模型 22
2.5.1FM-AM模型的基本原理 22
2.5.2Teager能量算子 22
2.5.3能量分离算法 23
2.5.4FM-AM模型的应用 24
2.6语音感知 24
2.6.1听觉系统 24
2.6.2神经系统 25
2.6.3语音感知 26
思考与复习题 29
第二篇语音信号分析
第3章时域分析 30
3.1概述 30
3.2数字化和预处理 31
3.2.1取样率和量化字长的选择 31
3.2.2预处理 33
3.3短时能量分析 34
3.4短时过零分析 36
3.5短时相关分析 39
3.5.1短时自相关函数 39
3.5.2修正的短时自相关函数 40
3.5.3短时平均幅差函数 42
3.6语音端点检测 42
3.6.1双门限前端检测 43
3.6.2多门限过零率前端检测 43
3.6.3基于FM-AM模型的端点检测 43
3.7基于高阶累积量的语音端点检测 44
3.7.1噪声环境下的端点检测 44
3.7.2高阶累积量与高阶谱 44
3.7.3基于高阶累积量的端点检测 46
思考与复习题 48
第4章短时傅里叶分析 50
4.1概述 50
4.2短时傅里叶变换 50
4.2.1短时傅里叶变换的定义 50
4.2.2傅里叶变换的解释 51
4.2.3滤波器的解释 54
4.3短时傅里叶变换的取样率 55
4.4语音信号的短时综合 56
4.4.1滤波器组求和法 56
4.4.2FFT求和法 58
4.5语谱图 59
思考与复习题 61
第5章倒谱分析与同态滤波 62
5.1概述 62
5.2同态信号处理的基本原理 62
5.3复倒谱和倒谱 63
5.4语音信号两个卷积分量复倒谱的性质 64
5.4.1声门激励信号 64
5.4.2声道冲激响应序列 65
5.5避免相位卷绕的算法 66
5.5.1微分法 67
5.5.2最小相位信号法 67
5.5.3递推法 69
5.6语音信号复倒谱分析实例 70
5.7Mel频率倒谱系数 72
思考与复习题 73
第6章线性预测分析 74
6.1概述 74
6.2线性预测分析的基本原理 74
6.2.1基本原理 74
6.2.2语音信号的线性预测分析 75
6.3线性预测方程组的建立 76
6.4线性预测分析的解法(1)―自相关和
协方差法 77
6.4.1自相关法 78
6.4.2协方差法 79
6.4.3自相关和协方差法的比较 80
6.5线性预测分析的解法(2)―格型法 81
6.5.1格型法基本原理 81
6.5.2格型法的求解 83
6.6线性预测分析的应用―LPC谱估计和
LPC复倒谱 85
6.6.1LPC谱估计 85
6.6.2LPC复倒谱 87
6.6.3LPC谱估计与其他谱分析方法的
比较 88
6.7线谱对(LSP)分析 89
6.7.1线谱对分析原理 89
6.7.2线谱对参数的求解 91
6.8极零模型 91
思考与复习题 93
第7章语音信号的非线性分析 94
7.1概述 94
7.2时频分析 94
7.2.1短时傅里叶变换的局限 95
7.2.2时频分析 96
7.3小波分析 97
7.3.1概述 97
7.3.2小波变换的定义 97
7.3.3典型的小波函数 99
7.3.4离散小波变换 100
7.3.5小波多分辨分析与Mallat算法 100
7.4基于小波的语音分析 101
7.4.1语音分解与重构 101
7.4.2清/浊音判断 102
7.4.3语音去噪 102
7.4.4听觉系统模拟 103
7.4.5小波包变换在语音端点检测中的
应用 103
7.5混沌与分形 104
7.6基于混沌的语音分析 105
7.6.1语音信号的混沌性 105
7.6.2语音信号的相空间重构 106
7.6.3语音信号的Lyapunov指数 108
7.6.4基于混沌的语音、噪声判别 109
7.7基于分形的语音分析 110
7.7.1概述 110
7.7.2语音信号的分形特征 111
7.7.3基于分形的语音分割 112
思考与复习题 113
第8章语音特征参数估计 114
8.1基音估计 114
8.1.1自相关法 115
8.1.2并行处理法 117
8.1.3倒谱法 118
8.1.4简化逆滤波法 120
8.1.5高阶累积量法 122
8.1.6小波变换法 123
8.1.7基音检测的后处理 124
8.2共振峰估计 125
8.2.1带通滤波器组法 125
8.2.2DFT法 126
8.2.3倒谱法 127
8.2.4LPC法 129
8.2.5FM-AM模型法 130
思考与复习题 131
第9章矢量量化 132
9.1概述 132
9.2矢量量化的基本原理 133
9.3失真测度 134
9.3.1欧氏距离―均方误差 135
9.3.2LPC失真测度 135
9.3.3识别失真测度 137
9.4最佳矢量量化器和码本的设计 137
9.4.1矢量量化器最佳设计的两个条件 137
9.4.2LBG算法 138
9.4.3初始码书生成 138
9.5降低复杂度的矢量量化系统 139
9.5.1无记忆的矢量量化系统 140
9.5.2有记忆的矢量量化系统 142
9.6语音参数的矢量量化 144
9.7模糊矢量量化 145
9.7.1模糊集概述 146
9.7.2模糊矢量量化 147
9.8遗传矢量量化 148
9.8.1遗传算法 148
9.8.2遗传矢量量化 150
思考与复习题 151
第10章隐马尔可夫模型 152
10.1概述 152
10.2隐马尔可夫模型的引入 153
10.3隐马尔可夫模型的定义 155
10.4隐马尔可夫模型三个问题的求解 156
10.4.1概率的计算 157
10.4.2HMM的识别 159
10.4.3HMM的训练 160
10.4.4EM算法 161
10.5HMM的选取 162
10.5.1HMM的类型选择 162
10.5.2输出概率分布的选取 163
10.5.3状态数的选取 163
10.5.4初值选取 163
10.5.5训练准则的选取 165
10.6HMM应用与实现中的一些问题 166
10.6.1数据下溢 166
10.6.2多输出(观察矢量序列)情况 166
10.6.3训练数据不足 167
10.6.4考虑状态持续时间的HMM 168
10.7HMM的结构和类型 170
10.7.1HMM的结构 170
10.7.2HMM的类型 172
10.7.3按输出形式分类 173
10.8HMM的相似度比较 174
思考与复习题 175
第三篇语音信号处理技术与应用
第11章语音编码 176
11.1概述 176
11.2语音信号的压缩编码原理 178
11.2.1语音压缩的基本原理 178
11.2.2语音通信中的语音质量 179
11.2.3两种压缩编码方式 180
11.3语音信号的波形编码 180
11.3.1PCM及APCM 180
11.3.2预测编码及自适应预测编码 183
11.3.3ADPCM及ADM 185
11.3.4子带编码(SBC) 187
11.3.5自适应变换编码(ATC) 189
11.4声码器 191
11.4.1概述 191
11.4.2声码器的基本结构 192
11.4.3通道声码器 192
11.4.4同态声码器 194
11.5LPC声码器 195
11.5.1LPC参数的变换与量化 196
11.5.2LPC-10 197
11.5.3LPC-10e 198
11.5.4变帧率LPC声码器 199
11.6各种常规语音编码方法的比较 200
11.6.1波形编码的信号压缩技术 200
11.6.2波形编码与声码器的比较 200
11.6.3各种声码器的比较 201
11.7基于LPC模型的混合编码 201
11.7.1混合编码采用的技术 202
11.7.2MPLPC 204
11.7.3RPELPC 207
11.7.4CELP 209
11.7.5CELP的改进形式 211
11.7.6基于分形码本的CELP 213
11.8基于正弦模型的混合编码 214
11.8.1正弦变换编码 215
11.8.2多带激励(MBE)编码 215
11.9极低速率语音编码 217
11.9.1400~1.2kb/s数码率的声码器 217
11.9.2识别-合成型声码器 218
11.10语音编码的性能指标 219
11.11语音编码的质量评价 221
11.11.1主观评价方法 221
11.11.2客观评价方法 222
11.11.3主客观评价方法的结合 225
11.11.4基于多重分形的语音质量评价 226
11.12语音编码国际标准 227
11.13语音编码与图像编码的关系 228
小结 229
思考与复习题 229
第12章语音合成 231
12.1概述 231
12.2语音合成原理 232
12.2.1语音合成的方法 232
12.2.2语音合成的系统特性 234
12.3共振峰合成 235
12.3.1共振峰合成原理 235
12.3.2共振峰合成实例 237
12.4LPC合成 237
12.5PSOLA语音合成 239
12.5.1概述 239
12.5.2PSOLA的原理 240
12.5.3PSOLA的实现 240
12.5.4PSOLA的改进 242
12.5.5PSOLA语音合成系统的发展 243
12.6文语转换系统 243
12.6.1组成与结构 243
12.6.2文本分析 244
12.6.3韵律控制 245
12.6.4语音合成 248
12.6.5TTS系统的一些问题 248
12.7基于HMM的参数化语音合成 249
12.8语音合成的研究现状和发展趋势 253
12.9语音合成硬件简介 255
思考与复习题 256
第13章语音识别 257
13.1概述 257
13.2语音识别原理 260
13.3动态时间规整 264
13.4基于有限状态矢量量化的语音识别 266
13.5孤立词识别系统 267
13.6连接词识别 270
13.6.1基本原理 270
13.6.2基于DTW的连接词识别 271
13.6.3基于HMM的连接词识别 273
13.6.4基于分段K-均值的最佳词串分割及
模型训练 273
13.7连续语音识别 274
13.7.1连续语音识别存在的困难 274
13.7.2连续语音识别的训练及识别方法 275
13.7.3连续语音识别的整体模型 276
13.7.4基于HMM统一框架的大词汇非特定
人连续语音识别 277
13.7.5声学模型 278
13.7.6语言学模型 280
13.7.7最优路径搜索 282
13.8说话人自适应 284
13.8.1MAP算法 285
13.8.2基于变换的自适应方法 285
13.8.3基于说话人分类的自适应方法 286
13.9鲁棒的语音识别 287
13.10关键词确认 289
13.11可视语音识别 291
13.11.1概述 291
13.11.2机器自动唇读 291
13.11.3双模态语音识别 293
13.12语音理解 296
13.12.1MAP语义解码 297
13.12.2语义结构的表示 297
13.12.3意图解码器 298
小结 299
思考与复习题 299
第14章说话人识别 300
14.1概述 300
14.2特征选取 301
14.2.1说话人识别所用的特征 301
14.2.2特征类型的优选准则 302
14.2.3常用的特征参数 303
14.3说话人识别系统 303
14.3.1说话人识别系统的结构 303
14.3.2说话人识别的基本方法概述 304
14.4说话人识别系统实例 305
14.4.1DTW型说话人识别系统 305
14.4.2应用VQ的说话人识别系统 306
14.5基于HMM的说话人识别 307
14.6基于GMM的说话人识别 310
14.7说话人识别中需进一步研究的问题 312
14.8语种辨识 313
思考与复习题 316
第15章智能信息处理技术在语音信号
处理中的应用 317
15.1人工神经网络 317
15.1.1概述 317
15.1.2神经网络的基本概念 319
15.2神经网络的模型结构 320
15.2.1单层感知机 320
15.2.2多层感知机 321
15.2.3自组织映射神经网络 323
15.2.4时延神经网络 324
15.2.5循环神经网络 325
15.3神经网络与传统方法的结合 325
15.3.1概述 325
15.3.2神经网络与DTW 326
15.3.3神经网络与VQ 326
15.3.4神经网络与HMM 327
15.4神经网络语音识别 328
15.4.1静态语音识别 328
15.4.2连续语音识别 330
15.5基于神经网络的说话人识别 330
15.6基于神经网络的语音信号非线性预测
编码 332
15.6.1语音信号的非线性预测 332
15.6.2基于MLP的非线性预测编码 333
15.6.3基于RNN的非线性预测编码 334
15.7基于神经网络的语音合成 335
15.8支持向量机 336
15.8.1概述 336
15.8.2支持向量机的基本原理 337
15.9基于支持向量机的语音分类识别 339
15.10基于支持向量机的说话人识别 340
15.10.1基于支持向量机的说话人辨认 340
15.10.2基于支持向量机的说话人确认 340
15.11基于混沌神经网络的语音识别 342
15.11.1混沌神经网络 342
15.11.2基于混沌神经网络的语音识别 342
15.12分形在语音识别中的应用 344
15.13智能优化算法在语音信号处理中的
应用 344
15.14各种智能信息处理技术的融合与
集成 346
15.14.1模糊系统与神经网络的融合 347
15.14.2神经网络与遗传算法的融合 347
15.14.3模糊逻辑、神经网络及遗传算法的
融合 348
15.14.4神经网络、模糊逻辑及混沌的
融合 349
15.14.5混沌与遗传算法的融合 349
思考与复习题 350
第16章语音增强 351
16.1概述 351
16.2语音、人耳感知及噪声的特性 352
16.3滤波器法 354
16.3.1固定滤波器 354
16.3.2变换技术 354
16.3.3自适应噪声对消 354
16.4非线性处理 357
16.5基于相关特性的语音增强 358
16.6减谱法 359
16.6.1减谱法的基本原理 359
16.6.2减谱法的改进形式 360
16.7基于Wiener滤波的语音增强 361
16.8基于语音产生模型的语音增强 362
16.9基于小波的语音增强 364
16.9.1概述 364
16.9.2基于小波的语音增强 364
16.9.3基于小波包的语音增强 366
16.10基于信号子空间分解的语音增强 367
16.11语音增强的一些新发展 370
小结 371
思考与复习题 372
第17章基于麦克风阵列的语音信号
处理 373
17.1概述 373
17.2麦克风阵列语音处理技术的难点 374
17.3声源定位 375
17.3.1去混响 375
17.3.2近场模型 376
17.3.3声源定位 377
17.4语音增强 381
17.4.1概述 381
17.4.2方法与技术 382
17.4.3应用 386
17.4.4本节小结 387
17.5语音盲分离 387
17.5.1瞬时线性混合模型 388
17.5.2卷积混合模型 393
17.5.3非线性混合模型 395
17.5.4需进一步研究的问题 396
思考与复习题 396
汉英名词术语对照 398
参考文献 407
现代语音信号处理是2014年由电子工业出版社出版,作者胡航。
得书感谢您对《现代语音信号处理》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。