编辑推荐
深度学习原理、Kaldi工具包实现和调用教程
内容简介
本书介绍了深度学习原理及其实现,包括开源语音识别工具包Kaldi的使用与代码分析(Kaldi采用C++编写),附带DNN(深度神经网络)的实现;加权有限状态转换以及在Kaldi中的实现;如何使用Python、Perl和Java调用Kaldi。同时本书还会赠送相关代码和数据,以及与图书配套的PPT文件。
章节目录
封面页
书名页
版权页
作者简介
内容简介
前言
目录
第1章 语音识别技术
1.1 总体结构
1.2 Linux基础
1.3 安装Micro编辑器
1.4 安装Kaldi
1.5 yesno例子
1.5.1 数据准备
1.5.2 词典准备
1.6 构建一个简单的ASR
1.7 Voxforge例子
1.8 数据准备
1.9 加权有限状态转换
1.9.1 FSA
1.9.2 FST
1.9.3 WFST
1.9.4 Kaldi对OpenFst的改进
1.10 语音识别语料库
1.10.1 TIMIT语料库
1.10.2 LibriSpeech语料库
1.10.3 中文语料库
1.11 Linux shell脚本基础
1.11.1 Bash
1.11.2 AWK
第2章 C#开发语音识别
2.1 准备开发环境
2.2 计算卷积
2.3 记录语音
2.4 读入语音信号
2.5 离散傅里叶变换
2.6 移除静音
第3章 Perl开发语音识别
3.1 变量
3.1.1 数字
3.1.2 字符串
3.1.3 数组
3.1.4 散列表
3.2 多维数组
3.3 常量
3.4 操作符
3.5 控制流
3.6 文件与目录
3.7 例程
3.8 执行命令
3.9 正则表达式
3.9.1 基本类型
3.9.2 正则表达式模式
3.10 命令行参数
第4章 Python开发语音识别
4.1 Windows操作系统下安装Python
4.2 Linux操作系统下安装Python
4.3 选择版本
4.4 开发环境
4.5 注释
4.6 变量
4.6.1 数值
4.6.2 字符串
4.7 数组
4.8 列表
4.9 元组
4.10 字典
4.11 控制流
4.11.1 条件判断
4.11.2 循环
4.12 模块
4.13 函数
4.14 读写文件
4.15 面向对象编程
4.16 命令行参数
4.17 数据库
4.18 日志记录
4.19 异常处理
4.20 测试
4.21 语音活动检测
4.22 使用numpy
第5章 Java开发语音识别
5.1 实现卷积
5.2 KaldiJava
5.2.1 使用Ant
5.2.2 使用Maven
5.2.3 使用Gradle
5.2.4 概率分布函数
5.3 TensorFlow的Java接口
5.3.1 在Windows操作系统下使用TensorFlow
5.3.2 在Linux操作系统下使用TensorFlow
第6章 语音信号处理
6.1 使用FFmpeg
6.2 标注语音
6.3 时间序列
6.4 端点检测
6.5 动态时间规整
6.6 傅里叶变换
6.6.1 离散傅里叶变换
6.6.2 快速傅里叶变换
6.7 MFCC特征
6.8 说话者识别
6.9 解码
第7章 深度学习
7.1 神经网络基础
7.1.1 实现多层感知器
7.1.2 计算过程
7.2 卷积神经网络
7.3 搭建深度学习开发环境
7.3.1 使用Cygwin模拟环境
7.3.2 使用CMake
7.3.3 使用Keras
7.3.4 安装TensorFlow
7.3.5 安装TensorFlow的Docker容器
7.3.6 使用TensorFlow
7.3.7 一维卷积
7.3.8 二维卷积
7.3.9 扩张卷积
7.3.10 TensorFlow实现简单的语音识别
7.4 nnet3实现代码
7.4.1 数据类型
7.4.2 基本数据结构
7.5 编译Kaldi
7.6 端到端深度学习
7.7 Dropout解决过度拟合问题
7.8 矩阵运算
第8章 语言模型
8.1 概率语言模型
8.1.1 一元模型
8.1.2 数据基础
8.1.3 改进一元模型
8.1.4 二元词典
8.1.5 完全二叉树数组
8.1.6 三元词典
8.1.7 N元模型
8.1.8 生成语言模型
8.1.9 评估语言模型
8.1.10 平滑算法
8.2 KenLM语言模型工具包
8.3 ARPA文件格式
8.4 依存语言模型
附录
深度学习:语音识别技术实践是2018年由清华大学出版社出版,作者柳若边。
得书感谢您对《深度学习:语音识别技术实践》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。