自制搜索引擎

自制搜索引擎

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

2600行代码,真实体验搜索引擎的开发过程!

内容简介

《自制搜索引擎》聚焦于Google和Yahoo!等Web搜索服务幕后的搜索引擎系统,首先讲解了搜索引擎的基础知识和原理,接着以现实中的开源搜索引擎Senna/Groonga为示例,使用该引擎的源代码引导读者亲自体验搜索引擎的开发过程。这部分讲解涉及了倒排索引的制作和压缩、检索的处理流程以及搜索引擎的优化等内容。又简单介绍了一些更加专业的搜索引擎的知识和要点,为读者今后进一步学习打下了基础。

作者简介

作者山田浩之,信息工程学博士。先后于日本IBM、雅虎从事分布式搜索引擎的研发工作。目前在东京大学生产技术研究所从事高性能并行数据库的研发工作。

章节目录

版权信息

版权声明

声明

译者序

前言

第1章 搜索引擎是如何工作的

1-1 理解搜索引擎的构成

1-2 实现了快速全文搜索的索引结构

1-3 深入理解倒排索引

1-4 制作中文文档的倒排索引

1-5 实现倒排索引

1-6 使用倒排索引进行检索

1-7 构建倒排索引

1-8 准备要检索的文档

第2章 准备全文搜索引擎的检索样本

2-1 全文搜索引擎 wiser

2-2 安装 wiser

2-3 运行 wiser

第3章 构建倒排索引

3-1 复习有关倒排索引的知识

3-2 构建倒排索引

第4章 开始检索吧

4-1 检索处理的大致流程

4-2 使用倒排索引进行检索

第5章 压缩倒排索引

5-1 压缩的基础知识

5-2 实现wiser 中的压缩功能

第6章 挑战wiser的优化及参数的调整

6-1 提高检索处理的效率

6-2 禁用短语检索

6-3 改变检索结果的输出顺序

6-4 让1 个字符的查询也能检索出结果

6-5 调整控制倒排索引更新的缓冲区容量

6-6 调整只有英文字母的词元的分割方法

6-7 确认压缩的效果

第7章 为今后更加深入的学习做准备

7-1 wiser 没能实现的功能

7-2 全文搜索引擎 Groonga 的特点

7-3 实现出考虑到用户意图的搜索引擎

7-4 收集、提取文档时的要点

附录

A-1 深度话题

A-2 wiser 中的文本提取和存储

后记

自制搜索引擎是2016年由人民邮电出版社出版,作者[日]山田浩之。

得书感谢您对《自制搜索引擎》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
分布式架构原理与实践 电子书
本书从软件结构的发展历史入手,描述了分布式架构的特性和存在的问题,并围绕这些问题展开了分析和实践。
WebAssembly标准入门 电子书
适读人群 :本书适合从事高性能Web前端开发、跨语言Web应用开发的技术人员学习参考,也可以作为WebAssembly标准参考手册随时查阅。 作为一种新颖的网页前端技术,WebAssembly的发展日新月异。本书基于已受浏览器普遍支持的WebAssembly极小可用特征集,致力于通过简单易懂的方式,从使用方法到虚拟机设计,讲解WebAssembly的运行原理。极小可用特征集只是快速迭代的起点,SIMD、多线程等更多特性将逐渐被添加到WebAssembly标准中。 在WebAssembly 大潮来临之际,希望本书能为该技术在国内的推广贡献绵薄之力。 本书内容要点: WebAssembly 简要介绍; 在JavaScript 中使用WebAssembly 模块的方法; WebAssembly 汇编语言及二进制格式; 使用高级语言开发WebAssembly 模块; WebAssembly 指令参考。
代码整洁之道:程序员的职业素养 电子书
编程大师40余年心得体会,阐释软件工艺中的原理、技术、工具和实践,助力专业软件开发人员具备令人敬佩的职业素养。
深入浅出Spring Boot 2.x 电子书
本书章节编排合理,深入浅出地阐述了Spring Boot 2.x的原理与应用,以及当今较为流行的微服务系统经常用到的技术及原理,内容通俗易懂。
PHP动态Web开发技术 电子书
理论结合实践,教你学会PHP动态Web开发。