类似推荐
编辑推荐
2600行代码,真实体验搜索引擎的开发过程!
内容简介
《自制搜索引擎》聚焦于Google和Yahoo!等Web搜索服务幕后的搜索引擎系统,首先讲解了搜索引擎的基础知识和原理,接着以现实中的开源搜索引擎Senna/Groonga为示例,使用该引擎的源代码引导读者亲自体验搜索引擎的开发过程。这部分讲解涉及了倒排索引的制作和压缩、检索的处理流程以及搜索引擎的优化等内容。又简单介绍了一些更加专业的搜索引擎的知识和要点,为读者今后进一步学习打下了基础。
作者简介
作者山田浩之,信息工程学博士。先后于日本IBM、雅虎从事分布式搜索引擎的研发工作。目前在东京大学生产技术研究所从事高性能并行数据库的研发工作。
章节目录
版权信息
版权声明
声明
译者序
前言
第1章 搜索引擎是如何工作的
1-1 理解搜索引擎的构成
1-2 实现了快速全文搜索的索引结构
1-3 深入理解倒排索引
1-4 制作中文文档的倒排索引
1-5 实现倒排索引
1-6 使用倒排索引进行检索
1-7 构建倒排索引
1-8 准备要检索的文档
第2章 准备全文搜索引擎的检索样本
2-1 全文搜索引擎 wiser
2-2 安装 wiser
2-3 运行 wiser
第3章 构建倒排索引
3-1 复习有关倒排索引的知识
3-2 构建倒排索引
第4章 开始检索吧
4-1 检索处理的大致流程
4-2 使用倒排索引进行检索
第5章 压缩倒排索引
5-1 压缩的基础知识
5-2 实现wiser 中的压缩功能
第6章 挑战wiser的优化及参数的调整
6-1 提高检索处理的效率
6-2 禁用短语检索
6-3 改变检索结果的输出顺序
6-4 让1 个字符的查询也能检索出结果
6-5 调整控制倒排索引更新的缓冲区容量
6-6 调整只有英文字母的词元的分割方法
6-7 确认压缩的效果
第7章 为今后更加深入的学习做准备
7-1 wiser 没能实现的功能
7-2 全文搜索引擎 Groonga 的特点
7-3 实现出考虑到用户意图的搜索引擎
7-4 收集、提取文档时的要点
附录
A-1 深度话题
A-2 wiser 中的文本提取和存储
后记
自制搜索引擎是2016年由人民邮电出版社出版,作者[日]山田浩之。
得书感谢您对《自制搜索引擎》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。