实体识别技术

实体识别技术

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书深入浅出、案例丰富,适合数据集成等方向的研究生阅读,也能为相关领域研究人员和开发人员提供重要参考。

内容简介

本书基于作者多年对数据集成的相关研究工作,从多角度阐述实体识别技术,主要包括相似度计算算法、实体识别的分块技术、典型的基于机器学习的实体识别技术和基于关系的实体记录识别技术,以及新型的实体识别技术(包括基于时间的实体识别技术、基于众包的实体识别、隐私保护下的实体识别)等内容。

章节目录

版权信息

丛书前言

前言

第1章 概述

1.1 实体识别问题的提出

1.2 实体识别研究的发展历史

1.3 实体识别问题的描述

1.4 实体识别的处理流程

1.5 实体识别的挑战

1.5.1 相似度衡量问题

1.5.2 计算效率问题

1.5.3 机器学习方法的应用问题

1.5.4 关联对象的识别问题

1.5.5 一些新的挑战

1.5.6 实体识别评估

1.6 实体识别的应用

1.6.1 医疗卫生

1.6.2 人口普查

1.6.3 客户关系管理

1.6.4 网购比价

1.6.5 犯罪及欺诈侦查

1.6.6 关联的开放数据

1.6.7 引文数据库

1.7 本章小结

参考文献

第2章 相似度计算算法

2.1 基于字段的相似度算法

2.1.1 Jaccard相似度算法

2.1.2 基于TF-IDF的相似度算法

2.1.3 基于q-grams的相似度算法

2.2 基于编辑距离的相似度算法

2.2.1 Levenshtein距离算法

2.2.2 Jaro和Jaro-Winkler距离算法

2.3 混合的相似度算法

2.3.1 扩展的Jaccard相似度算法

2.3.2 Monge-Elkan相似度算法

2.3.3 Soft TF-IDF相似度算法

2.4 数值型数据相似度算法

2.4.1 数字型相似度算法

1.精确距离算法

2.范围距离算法

2.4.2 日期型相似度算法

2.4.3 价格型相似度算法

2.5 本章小结

参考文献

第3章 实体识别的分块技术

3.1 引言

3.1.1 数据分块技术的应用

3.1.2 实体识别数据分块问题定义与算法分类

1.数据分块问题定义

2.数据分块算法分类

3.2 分块键

3.2.1 分块键的定义

1.属性相似性分类

2.影响分块键定义的要素

3.分块键定义的方法

3.2.2 分块键的编码

3.3 基于等值匹配的分块算法

3.3.1 标准分块方法

3.3.2 基于学习的分块键定义

3.4 基于相似性的分块算法

3.4.1 基于排序的分块方法

1.基于排序分块方法的原理

2.改进的基于排序分块方法

3.4.2 基于字符串分割的分块方法

1.基于q-grams的分块方法

2.基于后缀队列的分块方法

3.4.3 基于MinHash的分块方法

1.MinHash方法原理

2.基于MinHash的记录分块

3.4.4 基于Canopy聚类的分块方法

1.Canopy聚类分块方法原理

2.Canopy聚类分块方法的两种策略对比

3.4.5 基于前缀过滤的分块方法

1.基于前缀过滤分块方法的原理

2.基于前缀过滤分块方法的改进

3.5 本章小结

参考文献

第4章 基于机器学习的实体识别方法

4.1 基于分类器的实体识别方法

4.1.1 基于决策树的实体识别方法

1.一个实例

2.基于决策树的实体识别算法

4.1.2 基于贝叶斯分类器的实体识别方法

1.一个实例

2.基于贝叶斯分类器的实体识别算法

4.1.3 基于SVM的实体识别方法

1.一个实例

2.基于SVM的实体识别算法

4.1.4 基于主动学习的实体识别方法

1.一个实例

2.基于主动学习的实体识别算法

4.1.5 其他方法

4.2 基于概率图模型的实体识别方法

4.2.1 基于马尔可夫逻辑网络的实体识别方法

1.一个实例

2.基于马尔可夫逻辑网络的实体识别算法

4.2.2 基于条件随机场的实体识别方法

1.一个实例

2.基于条件随机场的实体识别算法

4.3 本章小结

参考文献

第5章 基于关系的实体识别方法

5.1 引言

5.2 联合式实体识别方法

5.2.1 基于关系聚类的联合式实体识别方法

1.一个实例

2.基于关系聚类的、迭代的联合式实体识别方法

5.2.2 复杂信息空间中的联合式实体识别方法

1.一个实例

2.面向复杂信息空间的联合式实体识别方法

5.3 基于实体关系的消歧方法

5.3.1 基于社交关系的名字消歧方法

5.3.2 基于实体关系的实体消歧方法

1.一个实例

2.相关概念

3.基于实体关系的实体消歧方法——RelDC

5.3.3 基于异构实体关系的实体消歧方法

1.一个实例

2.基于异构实体关系的实体消歧方法——DISTINCT

5.4 本章小结

参考文献

第6章 新型的实体识别技术

6.1 引言

6.2 基于时间模型的实体识别技术

6.2.1 一个实例

6.2.2 时间模型

1.时间衰减模型

2.实体突变模型

3.条件概率模型

4.属性值转换模型

6.2.3 基于时间模型的实体识别算法

1.基于时间衰减模型的实体识别算法

2.基于条件概率模型的实体识别算法

3.基于属性值转换模型的实体识别算法

6.3 基于众包的实体识别技术

6.3.1 一个实例

6.3.2 基于众包的实体识别框架

1.基于众包的基本实体识别框架

2.结合多众包处理步骤的实体识别框架

6.3.3 基于众包的实体识别的核心问题

1.候选匹配对选择

2.众包策略选择

3.匹配结果确定

6.3.4 基于众包的实体识别方法的特点

1.高准确率

2.高代价

3.适应性好

6.4 隐私保护下的实体识别技术

6.4.1 实体匹配中隐私保护的分类

1.数据扰乱技术

2.数据重构技术

3.数据加密技术

6.4.2 实体识别隐私保护算法的评估

1.隐私保护程度评估

2.实体识别结果评估

6.5 本章小结

参考文献

第7章 实体识别评估

7.1 基于记录对的精确性评价 ——准确率、召回率和F测度

7.2 分块技术评价

7.3 常用数据集

7.3.1 真实数据集

7.3.2 数据生成工具

7.4 本章小结

参考文献

第8章 总结与展望

8.1 实体识别研究总结

8.2 新型实体识别研究展望

8.2.1 基于时间模型的实体识别

8.2.2 基于众包的实体识别

1.在任务生成方面

2.在任务分解方面

3.在任务结果处理方面

8.2.3 隐私保护下的实体识别

1.现有PPRL方法可扩展性差,无法应用于大数据集

2.现有PPRL方法容错性差

3.现有PPRL方法还只局限于两个数据源

8.3 研究挑战

1.数据缺失处理

2.多数据源的识别

3.分布式实体识别

实体识别技术是2017年由机械工业出版社有限公司出版,作者申德荣。

得书感谢您对《实体识别技术》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
物联网:射频识别(RFID)核心技术详解(第3版) 电子书
本书内容共6篇18章,全面介绍了物联网RFID系统及其工作原理。系统架构篇介绍了物联网RFID的概念、产生背景、发展历程、基本组成和系统架构。无线传输篇、射频前端篇、数字通信篇和体系标准篇讲解了物联网RFID工作流程、工作原理、理论数据、工程举例、各国规范和标准体系,主要内容包括RFID使用频率、无线传播、电磁能量收发、天线技术、射频前端电路、编码与调制、数据完整性、数据安全性、电子标签体系结构、
实体店爆卖实战手册 电子书
随着电商的不断崛起,实体店开始慢慢走下坡路。为了让实体店改变被淘汰的命运,本书手把手教你打造赚钱的实体店。本书从实际出发,解读了实体店的各种优势,且就如何发挥实体店的优势,规避劣势,以及如何结合互联网,采用新型的营销方式等给出了翔实且具体的落地方案,可以帮助实体店在激烈的市场环境中逆势成长,最终赢得自己的稳定收益。
城市周边野花草识别 电子书
作为热爱自然却忙碌的都市人,你可能还没注意到,许多美丽的野花草其实就在您身边不远处、在城市的周边。本书以彩图为主,简要介绍了3百多种常见城郊野花草的形态、生长地点及花果期。以它为引导,找到和欣赏那些在城郊野外不远处悄悄绽放的野花草,能使您的生活不断充满惊喜和诗意,在城市近郊也能感受到大自然的美好气息。由于城郊野花草皮实坚韧、节能环保,本书也可供园林建设、社区绿化参考。
景观植物识别与应用 电子书
本书以740张照片展示了542种景观植物,重点介绍了石松类和真蕨类7科12种、裸子植物8科45种、被子植物115科397种的学名、分布、识别、栽培、特色与应用,并澄清了以往分类学文献的相关错误;还以图解形式介绍了景观植物的十大造景功能及其配置原则、程序和技巧。  本书是一本参照PPGI、APG4等排列的图册,可供植物学、观赏园艺、园林(景观、环艺)专业的师生,景观设计者以及花卉爱好者学习参考。
实体店这样运营能爆卖 电子书
本书列举了大量名企的经营案例,从海底捞、7-11、胖东来、宜家等知名企业取经,从拿得出手的产品、个性化的店铺、品牌式的服务、挖掘顾客的兴趣、采用立体促销方式、找准自我定位、借力互联网、重塑管理思维等八个方面,深入讲解了在当代的中国市场如何成功经营实体店的有效方法,让读者能够更好地理解新型实体店的运营方法,为经营者提供切实可行的新的经营思路与方式。