现代语音信号处理

胡航

电子与通信类型

查阅电子书

手机扫码

微信扫一扫

关注微信公众号

因版权原因待上架

类似推荐

内容简介

　　本书系统介绍了语音信号处理的基础、原理、方法、应用、新理论、新成果与新技术，以及该研究领域的背景知识、研究现状、应用前景和发展趋势。

　　全书分三篇共17章。第一篇语音信号处理基础，包括第1章绪论，第2章语音信号处理的基础知识；第二篇语音信号分析，包括第3章时域分析，第4章短时傅里叶分析，第5章倒谱分析与同态滤波，第6章线性预测分析，第7章语音信号的非线性分析，第8章语音特征参数检测与估计，第9章矢量量化，第10章隐马尔可夫模型；第三篇语音信号处理技术与应用，包括第11章语音编码，第12章语音合成，第13章语音识别，第14章说话人识别和语种辨识，第15章智能信息处理技术在语音信号处理中的应用，第16章语音增强，第17章基于麦克风阵列的语音信号处理。

　　本书体系完整，结构严谨；系统性强，层次分明；内容深入浅出，原理阐述透彻；取材广泛，繁简适中；内容丰富而新颖；联系实际应用。

作者简介

胡航，博士，哈尔滨工业大学电子信息学院副教授，主要教授《信号与系统》、《数字信号处理》等课程，研究方向为现代语音信号处理。

章节目录

第一篇语音信号处理基础

第1章绪论 1

1．1语音信号处理的发展历史 1

1．2语音信号处理的主要研究内容及发展

概况 3

1．3本书的内容 7

思考与复习题 8

第2章语音信号处理的基础知识 9

2．1概述 9

2．2语音产生的过程 9

2．3语音信号的特性 12

2．3．1语言和语音的基本特性 12

2．3．2语音信号的时间波形和频谱特性 13

2．3．3语音信号的统计特性 15

2．4语音产生的线性模型 16

2．4．1激励模型 17

2．4．2声道模型 18

2．4．3辐射模型 20

2．4．4语音信号数字模型 21

2．5语音产生的非线性模型 22

2．5．1FM-AM模型的基本原理 22

2．5．2Teager能量算子 22

2．5．3能量分离算法 23

2．5．4FM-AM模型的应用 24

2．6语音感知 24

2．6．1听觉系统 24

2．6．2神经系统 25

2．6．3语音感知 26

思考与复习题 29

第二篇语音信号分析

第3章时域分析 30

3．1概述 30

3．2数字化和预处理 31

3．2．1取样率和量化字长的选择 31

3．2．2预处理 33

3．3短时能量分析 34

3．4短时过零分析 36

3．5短时相关分析 39

3．5．1短时自相关函数 39

3．5．2修正的短时自相关函数 40

3．5．3短时平均幅差函数 42

3．6语音端点检测 42

3．6．1双门限前端检测 43

3．6．2多门限过零率前端检测 43

3．6．3基于FM-AM模型的端点检测 43

3．7基于高阶累积量的语音端点检测 44

3．7．1噪声环境下的端点检测 44

3．7．2高阶累积量与高阶谱 44

3．7．3基于高阶累积量的端点检测 46

思考与复习题 48

第4章短时傅里叶分析 50

4．1概述 50

4．2短时傅里叶变换 50

4．2．1短时傅里叶变换的定义 50

4．2．2傅里叶变换的解释 51

4．2．3滤波器的解释 54

4．3短时傅里叶变换的取样率 55

4．4语音信号的短时综合 56

4．4．1滤波器组求和法 56

4．4．2FFT求和法 58

4．5语谱图 59

思考与复习题 61

第5章倒谱分析与同态滤波 62

5．1概述 62

5．2同态信号处理的基本原理 62

5．3复倒谱和倒谱 63

5．4语音信号两个卷积分量复倒谱的性质 64

5．4．1声门激励信号 64

5．4．2声道冲激响应序列 65

5．5避免相位卷绕的算法 66

5．5．1微分法 67

5．5．2最小相位信号法 67

5．5．3递推法 69

5．6语音信号复倒谱分析实例 70

5．7Mel频率倒谱系数 72

思考与复习题 73

第6章线性预测分析 74

6．1概述 74

6．2线性预测分析的基本原理 74

6．2．1基本原理 74

6．2．2语音信号的线性预测分析 75

6．3线性预测方程组的建立 76

6．4线性预测分析的解法(1)―自相关和

协方差法 77

6．4．1自相关法 78

6．4．2协方差法 79

6．4．3自相关和协方差法的比较 80

6．5线性预测分析的解法(2)―格型法 81

6．5．1格型法基本原理 81

6．5．2格型法的求解 83

6．6线性预测分析的应用―LPC谱估计和

LPC复倒谱 85

6．6．1LPC谱估计 85

6．6．2LPC复倒谱 87

6．6．3LPC谱估计与其他谱分析方法的

比较 88

6．7线谱对(LSP)分析 89

6．7．1线谱对分析原理 89

6．7．2线谱对参数的求解 91

6．8极零模型 91

思考与复习题 93

第7章语音信号的非线性分析 94

7．1概述 94

7．2时频分析 94

7．2．1短时傅里叶变换的局限 95

7．2．2时频分析 96

7．3小波分析 97

7．3．1概述 97

7．3．2小波变换的定义 97

7．3．3典型的小波函数 99

7．3．4离散小波变换 100

7．3．5小波多分辨分析与Mallat算法 100

7．4基于小波的语音分析 101

7．4．1语音分解与重构 101

7．4．2清/浊音判断 102

7．4．3语音去噪 102

7．4．4听觉系统模拟 103

7．4．5小波包变换在语音端点检测中的

应用 103

7．5混沌与分形 104

7．6基于混沌的语音分析 105

7．6．1语音信号的混沌性 105

7．6．2语音信号的相空间重构 106

7．6．3语音信号的Lyapunov指数 108

7．6．4基于混沌的语音、噪声判别 109

7．7基于分形的语音分析 110

7．7．1概述 110

7．7．2语音信号的分形特征 111

7．7．3基于分形的语音分割 112

思考与复习题 113

第8章语音特征参数估计 114

8．1基音估计 114

8．1．1自相关法 115

8．1．2并行处理法 117

8．1．3倒谱法 118

8．1．4简化逆滤波法 120

8．1．5高阶累积量法 122

8．1．6小波变换法 123

8．1．7基音检测的后处理 124

8．2共振峰估计 125

8．2．1带通滤波器组法 125

8．2．2DFT法 126

8．2．3倒谱法 127

8．2．4LPC法 129

8．2．5FM-AM模型法 130

思考与复习题 131

第9章矢量量化 132

9．1概述 132

9．2矢量量化的基本原理 133

9．3失真测度 134

9．3．1欧氏距离―均方误差 135

9．3．2LPC失真测度 135

9．3．3识别失真测度 137

9．4最佳矢量量化器和码本的设计 137

9．4．1矢量量化器最佳设计的两个条件 137

9．4．2LBG算法 138

9．4．3初始码书生成 138

9．5降低复杂度的矢量量化系统 139

9．5．1无记忆的矢量量化系统 140

9．5．2有记忆的矢量量化系统 142

9．6语音参数的矢量量化 144

9．7模糊矢量量化 145

9．7．1模糊集概述 146

9．7．2模糊矢量量化 147

9．8遗传矢量量化 148

9．8．1遗传算法 148

9．8．2遗传矢量量化 150

思考与复习题 151

第10章隐马尔可夫模型 152

10．1概述 152

10．2隐马尔可夫模型的引入 153

10．3隐马尔可夫模型的定义 155

10．4隐马尔可夫模型三个问题的求解 156

10．4．1概率的计算 157

10．4．2HMM的识别 159

10．4．3HMM的训练 160

10．4．4EM算法 161

10．5HMM的选取 162

10．5．1HMM的类型选择 162

10．5．2输出概率分布的选取 163

10．5．3状态数的选取 163

10．5．4初值选取 163

10．5．5训练准则的选取 165

10．6HMM应用与实现中的一些问题 166

10．6．1数据下溢 166

10．6．2多输出(观察矢量序列)情况 166

10．6．3训练数据不足 167

10．6．4考虑状态持续时间的HMM 168

10．7HMM的结构和类型 170

10．7．1HMM的结构 170

10．7．2HMM的类型 172

10．7．3按输出形式分类 173

10．8HMM的相似度比较 174

思考与复习题 175

第三篇语音信号处理技术与应用

第11章语音编码 176

11．1概述 176

11．2语音信号的压缩编码原理 178

11．2．1语音压缩的基本原理 178

11．2．2语音通信中的语音质量 179

11．2．3两种压缩编码方式 180

11．3语音信号的波形编码 180

11．3．1PCM及APCM 180

11．3．2预测编码及自适应预测编码 183

11．3．3ADPCM及ADM 185

11．3．4子带编码(SBC) 187

11．3．5自适应变换编码(ATC) 189

11．4声码器 191

11．4．1概述 191

11．4．2声码器的基本结构 192

11．4．3通道声码器 192

11．4．4同态声码器 194

11．5LPC声码器 195

11．5．1LPC参数的变换与量化 196

11．5．2LPC-10 197

11．5．3LPC-10e 198

11．5．4变帧率LPC声码器 199

11．6各种常规语音编码方法的比较 200

11．6．1波形编码的信号压缩技术 200

11．6．2波形编码与声码器的比较 200

11．6．3各种声码器的比较 201

11．7基于LPC模型的混合编码 201

11．7．1混合编码采用的技术 202

11．7．2MPLPC 204

11．7．3RPELPC 207

11．7．4CELP 209

11．7．5CELP的改进形式 211

11．7．6基于分形码本的CELP 213

11．8基于正弦模型的混合编码 214

11．8．1正弦变换编码 215

11．8．2多带激励(MBE)编码 215

11．9极低速率语音编码 217

11．9．1400～1．2kb/s数码率的声码器 217

11．9．2识别-合成型声码器 218

11．10语音编码的性能指标 219

11．11语音编码的质量评价 221

11．11．1主观评价方法 221

11．11．2客观评价方法 222

11．11．3主客观评价方法的结合 225

11．11．4基于多重分形的语音质量评价 226

11．12语音编码国际标准 227

11．13语音编码与图像编码的关系 228

小结 229

思考与复习题 229

第12章语音合成 231

12．1概述 231

12．2语音合成原理 232

12．2．1语音合成的方法 232

12．2．2语音合成的系统特性 234

12．3共振峰合成 235

12．3．1共振峰合成原理 235

12．3．2共振峰合成实例 237

12．4LPC合成 237

12．5PSOLA语音合成 239

12．5．1概述 239

12．5．2PSOLA的原理 240

12．5．3PSOLA的实现 240

12．5．4PSOLA的改进 242

12．5．5PSOLA语音合成系统的发展 243

12．6文语转换系统 243

12．6．1组成与结构 243

12．6．2文本分析 244

12．6．3韵律控制 245

12．6．4语音合成 248

12．6．5TTS系统的一些问题 248

12．7基于HMM的参数化语音合成 249

12．8语音合成的研究现状和发展趋势 253

12．9语音合成硬件简介 255

思考与复习题 256

第13章语音识别 257

13．1概述 257

13．2语音识别原理 260

13．3动态时间规整 264

13．4基于有限状态矢量量化的语音识别 266

13．5孤立词识别系统 267

13．6连接词识别 270

13．6．1基本原理 270

13．6．2基于DTW的连接词识别 271

13．6．3基于HMM的连接词识别 273

13．6．4基于分段K-均值的最佳词串分割及

模型训练 273

13．7连续语音识别 274

13．7．1连续语音识别存在的困难 274

13．7．2连续语音识别的训练及识别方法 275

13．7．3连续语音识别的整体模型 276

13．7．4基于HMM统一框架的大词汇非特定

人连续语音识别 277

13．7．5声学模型 278

13．7．6语言学模型 280

13．7．7最优路径搜索 282

13．8说话人自适应 284

13．8．1MAP算法 285

13．8．2基于变换的自适应方法 285

13．8．3基于说话人分类的自适应方法 286

13．9鲁棒的语音识别 287

13．10关键词确认 289

13．11可视语音识别 291

13．11．1概述 291

13．11．2机器自动唇读 291

13．11．3双模态语音识别 293

13．12语音理解 296

13．12．1MAP语义解码 297

13．12．2语义结构的表示 297

13．12．3意图解码器 298

小结 299

思考与复习题 299

第14章说话人识别 300

14．1概述 300

14．2特征选取 301

14．2．1说话人识别所用的特征 301

14．2．2特征类型的优选准则 302

14．2．3常用的特征参数 303

14．3说话人识别系统 303

14．3．1说话人识别系统的结构 303

14．3．2说话人识别的基本方法概述 304

14．4说话人识别系统实例 305

14．4．1DTW型说话人识别系统 305

14．4．2应用VQ的说话人识别系统 306

14．5基于HMM的说话人识别 307

14．6基于GMM的说话人识别 310

14．7说话人识别中需进一步研究的问题 312

14．8语种辨识 313

思考与复习题 316

第15章智能信息处理技术在语音信号

处理中的应用 317

15．1人工神经网络 317

15．1．1概述 317

15．1．2神经网络的基本概念 319

15．2神经网络的模型结构 320

15．2．1单层感知机 320

15．2．2多层感知机 321

15．2．3自组织映射神经网络 323

15．2．4时延神经网络 324

15．2．5循环神经网络 325

15．3神经网络与传统方法的结合 325

15．3．1概述 325

15．3．2神经网络与DTW 326

15．3．3神经网络与VQ 326

15．3．4神经网络与HMM 327

15．4神经网络语音识别 328

15．4．1静态语音识别 328

15．4．2连续语音识别 330

15．5基于神经网络的说话人识别 330

15．6基于神经网络的语音信号非线性预测

编码 332

15．6．1语音信号的非线性预测 332

15．6．2基于MLP的非线性预测编码 333

15．6．3基于RNN的非线性预测编码 334

15．7基于神经网络的语音合成 335

15．8支持向量机 336

15．8．1概述 336

15．8．2支持向量机的基本原理 337

15．9基于支持向量机的语音分类识别 339

15．10基于支持向量机的说话人识别 340

15．10．1基于支持向量机的说话人辨认 340

15．10．2基于支持向量机的说话人确认 340

15．11基于混沌神经网络的语音识别 342

15．11．1混沌神经网络 342

15．11．2基于混沌神经网络的语音识别 342

15．12分形在语音识别中的应用 344

15．13智能优化算法在语音信号处理中的

应用 344

15．14各种智能信息处理技术的融合与

集成 346

15．14．1模糊系统与神经网络的融合 347

15．14．2神经网络与遗传算法的融合 347

15．14．3模糊逻辑、神经网络及遗传算法的

融合 348

15．14．4神经网络、模糊逻辑及混沌的

融合 349

15．14．5混沌与遗传算法的融合 349

思考与复习题 350

第16章语音增强 351

16．1概述 351

16．2语音、人耳感知及噪声的特性 352

16．3滤波器法 354

16．3．1固定滤波器 354

16．3．2变换技术 354

16．3．3自适应噪声对消 354

16．4非线性处理 357

16．5基于相关特性的语音增强 358

16．6减谱法 359

16．6．1减谱法的基本原理 359

16．6．2减谱法的改进形式 360

16．7基于Wiener滤波的语音增强 361

16．8基于语音产生模型的语音增强 362

16．9基于小波的语音增强 364

16．9．1概述 364

16．9．2基于小波的语音增强 364

16．9．3基于小波包的语音增强 366

16．10基于信号子空间分解的语音增强 367

16．11语音增强的一些新发展 370

小结 371

思考与复习题 372

第17章基于麦克风阵列的语音信号

处理 373

17．1概述 373

17．2麦克风阵列语音处理技术的难点 374

17．3声源定位 375

17．3．1去混响 375

17．3．2近场模型 376

17．3．3声源定位 377

17．4语音增强 381

17．4．1概述 381

17．4．2方法与技术 382

17．4．3应用 386

17．4．4本节小结 387

17．5语音盲分离 387

17．5．1瞬时线性混合模型 388

17．5．2卷积混合模型 393

17．5．3非线性混合模型 395

17．5．4需进一步研究的问题 396

思考与复习题 396

汉英名词术语对照 398

参考文献 407

现代语音信号处理是2014年由电子工业出版社出版,作者胡航。

得书感谢您对《现代语音信号处理》关注和支持，如本书内容有不良信息或侵权等情形的，请联系本网站。

得书 - 好书推荐、正版图书免费阅读