新一代人工智能与语音识别

新一代人工智能与语音识别

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

系统介绍基于新闻语料的俄语连续语音识别方法。

内容简介

本书阐述了语音识别的基本类型,对近60年来国内外俄语连续语音识别研究现状进行评析,并建立声学模型和语言模型是俄语连续语音识别研究需要解决的关键问题。

全书共分以下几个部分:基于Kaldi设计实现俄语连续语音识别原型系统,使之具备在线识别和离线识别功能,以验证声学模型和语言模型优化算法的有效性,进而为面向特定领域的俄语语音识别实用系统研发提供理论方法、实验数据和关键技术支撑。

为了实现上述目标,需要进行如下环环紧扣的操作步骤:俄语语音语料的采集加工处理、俄语文本语料的采集清洗过滤、俄语发音词典的自动预测生成、声学模型建模基本单元(音素集)的确定、声学模型和语言模型的优化等。

作者简介

作者马延周,男,战略支援部队信息工程大学洛阳校区,副教授,博士研究生。

章节目录

版权信息

内容简介

前言

第0章 绪论

0.1 研究依据

0.2 研究对象与研究目标

0.3 研究方法

0.4 研究意义

0.5 本书的创新点

0.6 语料来源

0.7 本书的结构

第1章 语音识别技术研究综述

1.1 语音识别的定义与分类

1.1.1 语音识别的定义

1.1.2 语音识别的分类

1.2 语音识别技术的研究进展

1.2.1 语音识别技术的发展概况

1.2.2 国外俄语语音识别技术的研究进展

1.2.3 中国俄语语音识别技术的研究进展

1.3 语音识别系统的基本原理

1.3.1 特征提取

1.3.2 声学模型

1.3.3 语言模型

1.3.4 解码

1.4 语音识别技术研究所关注的关键问题

本章小结

第2章 语音数据的加工处理

2.1 问题描述

2.2 众包的定义及内涵

2.2.1 众包的基本概念

2.2.2 众包的基本流程

2.2.3 众包的关键问题

2.3 解决方案

2.3.1 质量控制

2.3.2 语音标注平台的架构

2.3.3 标注平台的设计与实现

2.4 语音标注

2.4.1 语音有效性判断

2.4.2 语音转写规范

2.4.3 语音标注规范

2.5 实验设计与结果分析

2.5.1 实验设计

2.5.2 结果分析

2.5.3 结论

本章小结

第3章 俄语声学模型的建立

3.1 连续语音识别

3.1.1 连续语音识别的整体模型

3.1.2 声学模型训练的HMM-GMM方法

3.1.3 声学模型训练中的HMM-DNN方法

3.2 俄语语音学概述

3.2.1 俄语的使用及分布情况

3.2.2 俄语语音的基本特点

3.2.3 俄语音素的发音特征

3.2.4 俄语元音音素的随位变化

3.2.5 俄语辅音音素的随位变化

3.3 俄语声学单元的选择

3.3.1 俄语SAMPA音素集

3.3.2 俄语音系表

3.4 实验设计与结果分析

3.4.1 实验设计

3.4.2 结果分析

本章小结

第4章 俄语语言模型的建立

4.1 文本语料的准备与清洗

4.1.1 数据来源的筛选

4.1.2 数据爬取

4.1.3 数据的去重与清洗

4.1.4 格式化处理

4.2 语言模型简述

4.2.1 语言模型的平滑技术

4.2.2 语言模型的剪枝算法

4.3 语言模型的训练流程

4.3.1 语言模型的训练实现

4.3.2 词典的选择

4.3.3 LM的剪枝与优化

4.4 实验结果分析

4.4.1 词典规模测试

4.4.2 语料规模测试

4.4.3 语言模型剪枝测试

本章小结

第5章 基于Kaldi的俄语语音识别原型系统

5.1 系统设计的目标与原则

5.1.1 系统设计的目标

5.1.2 系统设计的原则

5.2 系统的开发环境与整体架构

5.2.1 系统的开发环境

5.2.2 系统的整体架构

5.3 Kaldi环境的搭建

5.3.1 Kaldi及实验环境

5.3.2 Kaldi训练服务器的搭建

5.3.3 AM训练数据及参数设置

5.3.4 LM训练数据及参数设置

5.4 Kaldi训练优化

5.4.1 Kaldi声学建模

5.4.2 GPU加速

5.5 语音识别原型系统的设计

5.5.1 系统GUI的设计

5.5.2 在线识别功能

5.5.3 离线识别功能

5.6 实验设计与结果分析

5.6.1 实验设计

5.6.2 实验结果

5.6.3 结果分析

本章小结

第6章 总结与展望

6.1 本书的主要成果

6.2 未来的研究计划

附录A 英汉术语对照表

附录B 其他相关资料

B.1 俄语发音词典(76277个词形)示例

B.2 俄语解码词表(189971个词形)示例

B.3 俄语字符Unicode编码对照表

B.4 俄语语音格式化程序(转换为16KB、16b)

B.5 俄语文本转Unicode编码程序

B.6 从https://twitter.com网站上下载的部分网页文件(json格式)示例

B.7 从http://www.interfax.ru网站上下载的部分网页文件(json格式)示例

B.8 俄语拉丁字母转写表

参考文献

附录CD

新一代人工智能与语音识别是2019年由清华大学出版社出版,作者马延周。

得书感谢您对《新一代人工智能与语音识别》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
AI智能语音技术与产业创新实践 电子书
1.中国信息通信研究院、科大讯飞、清华大学等多位大咖推荐作序。2.知识性:本书涉及智能语音各项前沿技术,涵盖了语音交互、声纹识别、全双工等多项新技术。3.丰富性:本书涵盖了技术、产业和应用3个方面,介绍智能语音全链条和各环节的现状趋势。4.系统性:本书介绍人类语音听说和机器语音听说的异同,包含语音学、语言学和计算机等多学科交叉,系统了解技术的衍生变化。5.实用性:本书汇集了智能语音应用在各领域、各场景的实际案例,从真实的案例中反映技术的产业赋能。
甘肃主要绿化树种识别与栽培 电子书
本书共收录了甘肃省主要造林及园林绿化的233个树种及变种,对每个树种从学名、别名、科属、地理分布、形态特征、生态习性、园林用途及繁育栽培等八个方面做了较为详细地介绍。
儿童急诊思维与重症早期识别 电子书
本书从儿科急诊诊疗方法、重症患儿病情危重度评分和重症儿童转运着手,系统描述急症症状学,重点对儿科常见的儿童呼吸道急症、心脏疾病相关急诊和消化系统急诊进行深入浅出的描述,使儿科医生领会儿科急诊的诊治思路,在实践中把握病情的判断,了解疾病的发展过程,做出最恰当和合理的决策,使急诊患儿得到有效救治。本书适合儿科医师、急诊科医师、全科医师、医学生和研究生学习,特别是工作在一线的青年骨干可以作为随手查阅和仔
新一代SDN:VMwareNSX网络原理与实践 电子书
本书适合网络和虚拟化设计架构师、项目实施工程师和IT管理人员阅读。
达斡尔语音系实验研究 电子书
本书基于结构主义音系学理论,使用声学分析方法,对达斡尔语布特哈方言的元音声学特征、辅音声学特征、音段音系、超音段特征等进行了分析研究,是一部具有重要学术意义的语音学著作。