Kaldi语音识别实战

Kaldi语音识别实战

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

类似推荐

编辑推荐

Kaldi:流行语音识别开源工具包,降低门槛,快速搭建系统。

内容简介

Kaldi是目前语音识别领域,广受欢迎并流行的开源工具包。Kaldi设计之初对通用性,可拓展性等一系列源代码层次的考量,大大降低了Kaldi作为语音识别工具包的门槛,同时拥有非常完整的语音识别系统训练脚本。本书通过对Kaldi已有训练脚本的梳理和引导,帮助读者快速搭建可用的语音识别系统。

章节目录

封面

书名页

内容简介

版权页

序1

序2

好评来袭

作者简介

前言

目录

1 语音识别技术基础

1.1 语音识别极简史

1.1.1 语音识别早期探索

1.1.2 概率模型一统江湖

1.1.3 神经网络异军突起

1.1.4 商业应用推波助澜

1.2 语音识别系统架构

1.2.1 经典方法的直观理解

1.2.2 概率模型

1.2.3 端到端语音识别

1.3 一些其他细节

1.3.1 语音信号处理

1.3.2 发音和语言学

1.3.3 语音识别系统的评价

2 Kaldi概要介绍

2.1 发展历史

2.1.1 名字的由来

2.1.2 约翰霍普金斯大学夏季研讨会

2.1.3 Kaldi发展简史

2.2 设计思想

2.2.1 初衷

2.2.2 开源

2.2.3 训练脚本

2.3 安装

2.3.1 下载Kaldi代码

2.3.2 安装CUDA

2.3.3 安装编译依赖库

2.3.4 安装第三方工具

2.3.5 选择其他的矩阵库

2.3.6 编译Kaldi代码

2.3.7 配置并行环境

2.4 一个简单的示例

2.4.1 运行run.sh

2.4.2 脚本解析

2.5 示例介绍

2.5.1 数据示例

2.5.2 竞赛示例

2.5.3 其他示例

2.5.4 示例结构

3 数据整理

3.1 数据分集

3.1.1 Librispeech示例的数据处理过程

3.1.2 数据下载和解压

3.2 数据预处理

3.2.1 环境检查

3.2.2 生成表单文件

3.2.3 数据检查

3.3 输入和输出机制

3.3.1 列表表单

3.3.2 存档表单

3.3.3 读写声明符

3.3.4 表单属性

3.4 常用数据表单与处理脚本

3.4.1 列表类数据表单

3.4.2 存档类数据表单

3.4.3 数据文件夹处理脚本

3.4.4 表单索引的一致性

3.5 语言模型相关文件

3.5.1 发音词典与音素集

3.5.2 语言文件夹

3.5.3 生成与使用语言文件夹

4 经典声学建模技术

4.1 特征提取

4.1.1 用 Kaldi 提取声学特征

4.1.2 特征在 Kaldi 中的存储

4.1.3 特征的使用

4.1.4 常用特征类型

4.2 单音子模型的训练

4.2.1 声学模型的基本概念

4.2.2 将声学模型用于语音识别

4.2.3 模型初始化

4.2.4 对齐

4.2.5 Transition 模型

4.2.6 GMM 模型的迭代

4.3 三音子模型训练

4.3.1 单音子模型假设的问题

4.3.2 上下文相关的声学模型

4.3.3 三音子的聚类裁剪

4.3.4 Kaldi中的三音子模型训练流程

4.4 特征变换技术

4.4.1 无监督特征变换

4.4.2 有监督特征变换

4.5 区分性训练

4.5.1 声学模型训练流程的变迁

4.5.2 区分性目标函数

4.5.3 分子、分母

4.5.4 区分性训练在实践中的应用

5 构图和解码

5.1 N元文法语言模型

5.2 加权有限状态转录机

5.2.1 概述

5.2.2 OpenFst

5.3 用WFST表示语言模型

5.4 状态图的构建

5.4.1 用 WFST 表示发音词典

5.4.2 WFST 的复合运算

5.4.3 词图的按发音展开

5.4.4 LG 图对上下文展开

5.4.5 用 WFST 表示 HMM 拓扑结构

5.5 图的结构优化

5.5.1 确定化

5.5.2 最小化

5.5.3 图的stochastic性质

5.6 最终状态图的生成

5.7 基于令牌传递的维特比搜索

5.8 SimpleDecoder源码分析

5.9 Kaldi 解码器家族

5.10 带词网格生成的解码

5.11 用语言模型重打分提升识别率

6 深度学习声学建模技术

6.1 基于神经网络的声学模型

6.1.1 神经网络基础

6.1.2 激活函数

6.1.3 参数更新

6.2 神经网络在Kaldi中的实现

6.2.1 nnet1(nnet)

6.2.2 nnet2

6.2.3 nnet3

6.3 神经网络模型训练

6.3.1 输入特征的处理

6.3.2 神经网络的初始化

6.3.3 训练样本的分批与随机化

6.3.4 学习率的调整

6.3.5 并行训练

6.3.6 数据扩充

6.4 神经网络的区分性训练

6.4.1 区分性训练的基本思想

6.4.2 区分性训练的目标函数

6.4.3 区分性训练的实用技巧

6.4.4 Kaldi神经网络区分性训练示例

6.4.5 chain模型

6.5 与其他深度学习框架的结合

6.5.1 声学模型

6.5.2 语言模型

6.5.3 端到端语音识别

7 关键词搜索与语音唤醒

7.1 关键词搜索技术介绍

7.1.1 关键词搜索技术的主流方法

7.1.2 关键词搜索技术的主流应用

7.2 语音检索

7.2.1 方法描述

7.2.2 一个简单的语音检索系统

7.2.3 集外词处理之词表扩展

7.2.4 集外词处理之关键词扩展

7.2.5 集外词处理之音素/音节系统

7.2.6 一个实用的语音检索系统

7.3 语音唤醒

7.3.1 语音唤醒经典框架

7.3.2 语音唤醒进阶优化

7.3.3 语音唤醒的Kaldi实现思路

8 说话人识别

8.1 概述

8.2 基于i-vector和PLDA的说话人识别技术

8.2.1 整体流程

8.2.2 i-vector 的提取

8.2.3 基于余弦距离对 i-vector 分类

8.2.4 基于 PLDA 对 i-vector 分类

8.3 基于深度学习的说话人识别技术

8.3.1 概述

8.3.2 x-vector

8.3.3 基于 x-vector 的说话人识别示例

8.4 语种识别

9 语音识别应用实践

9.1 语音识别基本应用

9.1.1 离线语音识别与实时在线语音识别

9.1.2 语音识别应用模块

9.1.3 小结

9.2 话音检测模块

9.2.1 VAD算法

9.2.2 离线VAD

9.2.3 流式在线VAD

9.3 模型的适应

9.3.1 声学模型的适应

9.3.2 词表的扩展

9.3.3 语言模型的适应

9.3.4 小结

9.4 解码器的选择及扩展

9.4.1 Kaldi中的解码器

9.4.2 实际应用中的常见问题及扩展

9.4.3 小结

附录A 术语列表

附录B 常见问题解答

参考文献

封底

Kaldi语音识别实战是2020年由电子工业出版社出版,作者陈果果。

得书感谢您对《Kaldi语音识别实战》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
运营实战笔记 电子书
阿里铁军9年老兵运营心得 10000小时阿里内部运营经验总结 上百个阿里运营实践技巧分享,快速提升运营能力 健全的运营人员培养、成长、进阶体系,全面了解运营岗位,系统讲述运营人员职业成长路径 系统地讲解内容运营、社交化运营、活动运营、精细化运营、全渠道运营
机器学习实战 电子书
《机器学习实战》面向日常任务的高效实战内容,介绍并实现机器学习的主流算法。
ExcelVBA案例实战 电子书
本书以案例讲解的形式,由浅入深地介绍了VBA在Excel中的应用。
AppInventor开发实战 电子书
App Inventor是MIT开发的流行的可视化编程工具,编程爱好者可以在短时间学会创建炫目的安卓手机应用。
Python图像处理实战 电子书
本书先介绍经典的图像处理技术,然后探索图像处理算法的演变历程,始终紧扣图像处理以及计算机视觉与深度学习方面的最新进展。全书共12章,涵盖图像处理入门基础知识、应用导数方法实现图像增强、形态学图像处理、图像特征提取与描述符、图像分割,以及图像处理中的经典机器学习方法等内容。