搜索引擎技术与发展

搜索引擎技术与发展

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

Java搜索引擎开发: 爬虫、分词、Solr、Spring Boot

内容简介

本书主要介绍如何使用Java语言开发搜索引擎,包括搜索引擎技术入门,使用Java开发网络爬虫,实现从文档中提取索引内容,中文分词的原理与实现,在Linux服务器端开发Solr应用,Spring Boot微服务框架实现的后端,以及React框架实现的前端等内容。第1章主要介绍各种类型的搜索引擎和开发搜索引擎可以借助的软件工具;第2章主要介绍网络爬虫开发和数据存储;第3章主要介绍从HTML文件中提取文本,以及从PDF、Word等非HTML文件中提取文本;第4章主要介绍Lucene中的中文分析器的原理与实现;第5章主要介绍Solr索引库的创建与维护,以及Solr的查询解析器;第6章主要介绍Web方式搜索结果界面的实现;第7章主要介绍如何使用SolrCloud实现分布式搜索。

章节目录

封面

版权信息

内容简介

前言

第1章 遍历搜索引擎技术

1.1 快速上手搜索引擎

1.1.1 准备工作环境

1.1.2 生成索引

1.1.3 关键词查询

1.1.4 实现搜索界面

1.2 搜索语法

1.3 你也可以做搜索引擎

1.4 搜索引擎的基本技术

1.4.1 网络爬虫

1.4.2 全文索引结构

1.4.3 Solr全文检索引擎

1.4.4 Nutch网络搜索软件

1.4.5 用户界面

1.5 商业搜索引擎技术概述

1.5.1 通用搜索

1.5.2 垂直搜索

1.5.3 站内搜索

1.6 本章小结

第2章 获得海量数据

2.1 自己的网络爬虫

2.1.1 使用URL访问网络资源

2.1.2 重试

2.1.3 网络爬虫的遍历与实现

2.1.4 多线程爬虫

2.1.5 Log4j2日志

2.1.6 存储URL地址

2.1.7 定向采集

2.1.8 暗网抓取

2.1.9 Selenium抓取动态页面

2.1.10 图片抓取

2.2 数据存储

2.2.1 写入文件

2.2.2 Jdbi写入数据库

2.3 本地部署

2.4 本章小结

第3章 提取文档中的文本内容

3.1 从HTML文件中提取文本

3.1.1 使用HTMLParser实现定向抓取

3.1.2 结构化信息提取

3.1.3 网页的DOM结构

3.1.4 网页去噪

3.1.5 正文提取

3.2 从非HTML文件中提取文本

3.2.1 PDF文件

3.2.2 Word文件

3.2.3 Rtf文件

3.2.4 Excel文件

3.2.5 PowerPoint文件

3.2.6 从图片中提取文本

3.3 流媒体内容提取

3.3.1 音频流内容提取

3.3.2 视频流内容提取

3.4 本章小结

第4章 中文分词

4.1 Lucene中的中文分词

4.2 中文分词的原理

4.3 查找词典算法

4.4 句子切分

4.5 有限状态机识别未登录串

4.6 最大概率分词方法

4.7 N元分词方法

4.7.1 二元词典

4.7.2 二元分词

4.7.3 开发中文分析器

4.8 新词发现

4.9 命名实体识别

4.9.1 人名识别

4.9.2 组织机构名称识别

4.9.3 化学物质识别

4.10 词性标注

4.11 平滑算法

4.12 地名切分

4.13 本章小结

第5章 Solr服务器端开发

5.1 在Linux操作系统中安装Solr

5.2 创建和维护索引库

5.3 索引本地硬盘上的文件

5.4 使用Bean索引文档

5.5 更新索引库中的索引文档

5.6 删除数据

5.7 检测索引

5.8 查询解析器

5.9 本章小结

第6章 用户界面的设计与实现

6.1 Solr搜索接口(search代码)

6.2 搜索页面设计

6.2.1 用于显示搜索结果的模板

6.2.2 搜索结果分页

6.2.3 测试搜索结果页

6.2.4 界面国际化

6.2.5 用于Solr的Spring Data

6.2.6 Spring-HATEOAS实现REST架构

6.3 实现搜索接口

6.3.1 基本查询

6.3.2 布尔搜索

6.3.3 指定范围搜索

6.3.4 搜索结果排序

6.4 实现聚合

6.5 实现相似文档搜索

6.6 实现自动完成

6.6.1 总体结构

6.6.2 服务器端处理

6.6.3 自动完成客户端

6.7 搜索日志

6.8 React框架

6.9 本章小结

第7章 Solr分布式搜索

7.1 使用Solr实现分布式搜索

7.1.1 使用SolrCloud

7.1.2 分片

7.1.3 管理集群

7.1.4 SolrCloud工作原理

7.1.5 ZooKeeper分布式协调器

7.2 Jenkins持续集成

7.3 本章小结

参考文献

封底

搜索引擎技术与发展是2020年由电子工业出版社出版,作者罗刚。

得书感谢您对《搜索引擎技术与发展》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Excel技术与应用大全 电子书
本书涵盖150个应用案例、92个操作提示、30个交叉参考、59个注意事项,详细解析Excel的技术细节、操作技巧、应用方法。
网络调研技术与实战 电子书
市场调研书籍,来自专业机构的案例深度剖析,五大调研主题多角度解读,帮你快速掌握网络调研的新技术、新方法与新流程。
智能前端技术与实践 电子书
基于TensorFlow.js,讲述如何解决深度学习应用部署的难题。
数据共享与数据整合技术 电子书
本教材一共6个项目,项目1为SOA基础知识导入,主要介绍了SOA的基本概念、发展历程,与企业IT战略之间的关系;项目2介绍了Web服务的相关基础知识,包括Web服务的体系结构特性、服务规范、SOAP、WSDL、UDDI等;项目3介绍了ESB的相关知识,明确了ESB与EAI之间的关系,介绍了SOA思想针对实际问题的具体实现思路,重点讲解了iESB引擎和iESB设计器的安装配置方法;项目4至项目6比较
API安全技术与实战 电子书
本书深度剖析了API安全漏洞、API安全设计以及API生命周期安全管理等内容。