大数据管理概论

大数据管理概论

编辑推荐

大数据领域一流成果的汇集,为学术研究和人才培养提供可供参考的“基石”。

内容简介

《大数据管理概论》:

本书涵盖大数据管理的理论、方法、技术等诸多方面,集成了大数据融合、存储、分析、隐私和系统等方面的工作。本书适合对大数据管理领域有兴趣的学生、研究人员和相关从业人员阅读参考。

《短文本数据理解》:

短文本理解是伴随着搜索引擎、社交网络及聊天机器人等应用场景而兴起的一个研究课题。它是近些年的一个研究热点,且对未来人工智能的发展有重要的影响。由于短文本字词少、歧义大、不遵守语法规则等特点,传统自然语言处理技术如句法分析器等难以直接应用于短文本。因此,研究人员不得不另辟蹊径来解决机器理解短文本的问题。

《移动数据挖掘》:

本书从分析移动数据的特性出发,探讨和设计针对移动数据的数据挖掘算法,并指出在该领域展开研究将要面临的挑战。

《个人数据管理》:

系统介绍个人数据管理相关理论、技术与系统实现的著作。

《大数据、小数据、无数据:网络世界的数据学术》:

本书立足于大数据背景,深入探讨了学术界的数据现状,并详细阐释了数据与学术之间的复杂关系。

《度量空间数据管理》:

如何构建一个通用模型以规范表达各类数据是大数据管理的一大挑战。为此,需要借助度量空间。本书着重介绍度量空间数据管理技术,主要包括度量空间索引、度量空间查询和度量空间查询可用性。

《实体识别技术》:

本书基于作者多年对数据集成的相关研究工作,从多角度阐述实体识别技术,主要包括相似度计算算法、实体识别的分块技术、典型的基于机器学习的实体识别技术和基于关系的实体记录识别技术,以及新型的实体识别技术(包括基于时间的实体识别技术、基于众包的实体识别、隐私保护下的实体识别)等内容。全书深入浅出、案例丰富,适合数据集成等方向的研究生阅读,也能为相关领域研究人员和开发人员提供重要参考。

作者简介

作者孟小峰,中国人民大学信息学院副院长,博士生导师、教授。现为中国计算机学会常务理事、中国计算机学会数据库专委会秘书长,《Journal of Computer Science and Technology》《Frontiers of Computer Science in China》《软件学报》《计算机研究与发展》等编委。

章节目录

大数据管理概论

版权信息

丛书前言

前言

作者简介

第1章 概述

1.1 大数据的基本概念

1.2 大数据的演变过程

1.3 大数据应用

1.4 大数据的处理模式

1.4.1 批处理

1.4.2 流处理

1.5 大数据管理的关键技术

1.5.1 大数据融合

1.5.2 大数据分析

1.5.3 大数据隐私

1.5.4 大数据能耗

1.5.5 大数据处理与硬件的协同

1.6 小结

第2章 大数据融合

2.1 引言

2.2 大数据融合的概念

2.2.1 大数据融合需求的独特性

2.2.2 大数据融合对象的独特性

2.3 大数据融合的方法论

2.3.1 数据库视角下的融合

2.3.2 认知计算和人工智能视角下的融合

2.3.3 两种融合方式的对比分析

2.3.4 大数据融合范式

2.4 数据融合技术

2.4.1 模式/本体对齐

2.4.2 实体链接

2.4.3 冲突解决

2.4.4 知识库自适应发展

2.5 知识融合技术

2.5.1 知识抽象与建模

2.5.2 关系推演

2.5.3 深度知识发现

2.5.4 普适机理的剖析和归纳

2.6 大数据融合的驱动枢纽

2.6.1 智能晶格

2.6.2 迁移学习

2.6.3 数据溯源

2.6.4 D&2V处理

2.7 小结

第3章 大数据存储

3.1 引言

3.2 大数据存储与管理方法

3.2.1 基于PCM的主存架构

3.2.2 基于闪存的主存扩展架构

3.2.3 基于多存储介质的分层存储架构

3.2.4 分布式存储与缓存架构

3.3 基于新型存储的大数据管理

3.3.1 存储管理

3.3.2 索引管理

3.3.3 查询处理

3.3.4 事务处理

3.3.5 大数据分析

3.4 大数据处理与存储一体化技术

3.4.1 一体化架构中的大数据存储

3.4.2 一体化架构中的大数据处理

3.4.3 一体化架构面临的挑战

3.5 小结

第4章 大数据分析

4.1 引言

4.1.1 传统的数据分析技术

4.1.2 大数据的分析技术

4.2 大数据的实时分析

4.2.1 实时分析的背景和概念

4.2.2 实时分析技术

4.3 大数据的交互式分析

4.3.1 交互式分析的背景和概念

4.3.2 交互式分析技术

4.4 云在线聚集

4.4.1 云在线聚集技术的背景和概念

4.4.2 云在线聚集的关键技术

4.5 大数据的智能分析

4.5.1 大数据分析中的计算智能

4.5.2 智能分析的主要技术

4.6 小结

第5章 大数据隐私

5.1 引言

5.1.1 大数据的类型

5.1.2 隐私特征与类别

5.1.3 大数据的隐私风险

5.2 隐私保护技术

5.2.1 匿名化技术

5.2.2 数据加密技术

5.2.3 差分隐私技术

5.2.4 隐私信息检索技术

5.3 隐私保护技术的应用

5.3.1 位置大数据中的隐私保护

5.3.2 数据发布和分析中的隐私保护

5.3.3 互联网搜索中的隐私保护

5.3.4 云计算中的隐私保护

5.4 大数据隐私管理

5.4.1 隐私管理的目标

5.4.2 主动式隐私管理框架

5.5 小结

第6章 大数据管理系统

6.1 引言

6.2 云计算:大数据的基础平台与支撑技术

6.3 批数据与流数据管理系统

6.3.1 批数据管理系统

6.3.2 流数据管理系统

6.3.3 混合处理系统

6.4 SQL、NoSQL与NewSQL系统

6.4.1 SQL类数据库

6.4.2 NoSQL类数据库

6.4.3 NewSQL类数据库

6.5 小结

第7章 基于大数据的交叉学科研究

7.1 引言

7.2 在线用户行为演化研究

7.2.1 在线用户行为大数据

7.2.2 在线用户行为演化

7.3 在线用户兴趣长程演化

7.3.1 理论与方法

7.3.2 在线用户兴趣演化分析

7.4 在线用户集体注意力流

7.4.1 注意力流网络

7.4.2 注意力流网络中的异速标度律

7.4.3 注意力流的应用:Web站点排名

7.5 在线用户集体注意力流的普适模式

7.5.1 异速标度律

7.5.2 耗散律

7.5.3 引力律

7.5.4 Heaps律

7.6 小结

附录 大数据思考

附录A 大数据与小数据

附录B 数据的起源

附录C 大数据时代的信息系统

附录D 数据库(DB)与大数据(BD)

附录E 大数据多学科交叉研究

附录F 创新数据管理研究2.0

附录G 面向移动计算与云计算的数据管理

附录H 大数据时代的到来:数据空间与闪存数据库研究

附录I 隐私保护研究

附录J 网络与移动数据管理研究

附录K 大数据管理基石:Web数据管理

附录L 大数据管理基石:数据集成

附录M 从数据库大师看数据库发展

短文本数据理解

版权信息

丛书前言

丛书即将出版书目

推荐序一

推荐序二

前言

本书的内容和组织结构

本书读者对象

致谢

第1章 短文本理解及其应用

1.1 短文本理解

1.2 短文本理解研究现状

1.2.1 短文本理解模型概述

1.隐性语义模型

2.半显性语义模型

3.显性语义模型

1.2.2 短文本理解模型粒度分析

1.文本粒度模型

2.词粒度模型

3.文本合成

1.3 短文本理解框架

第2章 基于概率的属性提取与推导

2.1 引言

2.2 属性提取

2.2.1 属性提取的整体框架

2.2.2 概率isA网络

2.2.3 基于概念和基于实体的属性提取

1.网页文本的属性提取

2.外部知识库的属性(简称KB)提取

3.搜索日志的属性(简称QB)提取

4.属性分布

5.模式提取的过滤

2.3 属性得分推导

2.3.1 典型度得分

2.3.2 根据CB列表计算典型度

2.3.3 根据IB列表计算典型度

2.3.4 典型度聚合

2.3.5 同义属性集合

2.4 相关研究

2.5 小结

第3章 单实体概念化模型

3.1 引言

3.1.1 基本层次类别

3.1.2 应用

3.1.3 BLC计算方法

3.2 语义网络

3.3 基本层次类别化

3.3.1 典型性

3.3.2 将典型性用于BLC

3.3.3 将平滑典型性用于BLC

3.3.4 将PMI用于BLC

3.3.5 将Rep(e,c)用于BLC

3.4 小结

第4章 基于概念化的短文本理解

4.1 引言

4.2 预备知识

4.2.1 概念

4.2.2 概念聚类

4.2.3 属性

4.2.4 整体框架和符号表示

4.3 挖掘词汇关系

4.3.1 概述

4.3.2 解析

4.3.3 P(z|t)推导

4.3.4 P(c|t,z)推导

4.3.5 语义网络

4.4 查询理解

4.4.1 方法概况

4.4.2 算法

1.分词

2.构建语义子图

3.随机游走算法

4.5 小结

第5章 基于概念化的短文本主题词与修饰词检测

5.1 引言

5.2 整体框架

5.3 非限定性修饰词挖掘

5.4 限定性修饰词挖掘

5.4.1 Probase:一个大规模的isA知识库

5.4.2 实体级别主题词-修饰词

5.4.3 概念级别主题词-修饰词

1.概念化层级

2.概念化实体

3.概念对

5.5 主题词与修饰词检测

5.5.1 解析

5.5.2 针对两个组件的主题词-修饰词检测

5.5.3 针对两个以上组件的主题词-修饰词检测

5.6 相关工作

5.7 小结

第6章 基于概念化的词相似度计算

6.1 引言

6.2 语义网络和同义词集合

6.3 基本方法

6.3.1 类型判别

6.3.2 语境表示

6.3.3 语境相似度

6.3.4 讨论

6.4 改进方法

6.4.1 概念聚类

1.聚类方法

2.离线概念聚类

6.4.2 Max-Max相似度计算方法

6.4.3 聚类删减优化

6.5 相关工作

1.基于知识的方法

2.基于文集的方法

6.6 小结

第7章 基于概念化的海量竞价关键字匹配

7.1 引言

7.2 语义网络

7.3 系统框架

7.4 概念化

7.4.1 实体检测

7.4.2 词义推导

7.4.3 消除歧义

7.5 检索

7.5.1 基于点击数据的候选竞价关键字选择

7.5.2 基于概念的候选竞价关键字选择

7.5.3 排名

7.6 相关工作

7.7 小结

第8章 短文本理解研究展望

8.1 知识语义网

8.2 显性知识和隐性知识的结合

1.显性知识改进隐性模型

2.隐性知识改进显性模型

移动数据挖掘

版权信息

丛书前言

丛书即将出版书目

前言

第1章 引言

1.1 移动数据及其价值

1.2 概念与定义

1.3 挑战

1.4 本书简介

第2章 移动数据预处理

2.1 移动数据简介

移动数据具有如下特性:

2.2 缺失数据补全

2.2.1 公交卡的上下点补全

2.2.2 地点类别补全

2.3 重要地点检测

2.4 语义信息标注

2.4.1 区域功能标记

2.4.2 地点命名

第3章 用户移动建模

3.1 基于人类动力学的移动建模研究

3.1.1 连续时间的随机游走模型

3.1.2 引力模型

3.2 基于时空数据挖掘的移动建模研究

3.2.1 马尔可夫链模型

3.2.2 时间规律性模型

3.2.3 时空降维模型

3.2.4 社交关系影响

3.2.5 新颖地点预测

3.2.6 预测算法的融合

第4章 基于移动数据的用户画像

4.1 显性属性预测

4.1.1 移动数据和显性属性的关联

4.1.2 位置画像模型

特征提取

4.2 隐性属性预测

4.2.1 猎奇心理特质挖掘

4.2.2 消费冲动心理挖掘

第5章 个性化兴趣地点推荐

5.1 协同过滤

5.1.1 基于邻域的方法

5.1.2 基于社交相似性的协同过滤

5.1.3 基于模型的方法

5.2 基于内容的过滤

5.2.1 内容过滤方法简介

5.2.2 地理建模

5.2.3 文本内容与情感分析

5.3 混合方法

5.3.1 混合模型基本方法

5.3.2 地理建模和协同过滤的联合模型

5.3.3 社交正则化的矩阵分解

5.3.4 内容感知的协同过滤方法

5.3.5 集成学习

5.4 情境感知的协同过滤方法

5.4.1 时间感知的地点推荐

5.4.2 序列化地点推荐

5.5 地点推荐系统的评价

第6章 结语

参考文献

个人数据管理

版权信息

丛书前言

丛书即将出版书目

大数据管理丛书

异构信息网络挖掘:原理和方法

大规模元搜索引擎技术

大数据集成

短文本数据理解

个人数据管理

位置大数据隐私管理

移动数据挖掘

云数据管理:挑战与机遇

前言

本书与同类图书的比较

本书的内容和组织结构

致谢

第1章 绪论

1.1 引言

1.2 个人数据管理的发展

1.信息保持行为

2.信息查找行为

3.映射行为

1.3 个人数据特征

1.用户对数据的许多访问是“再访问”

2.个人数据访问的局部性和连续性

3.用户需要基于若干模糊的记忆线索查找数据对象

4.任务在个人数据管理中扮演重要角色

1.4 个人数据空间的提出

1.5 个人数据管理系统框架

1.多种查询方式

2.简单的查询接口

3.基于任务的查询

参考文献

第2章 个人数据空间模型

2.1 引言

2.2 概念模型

2.2.1 从数据到模式

2.2.2 基于图的数据空间模型

2.3 逻辑模型

2.3.1 iDM数据模型

2.3.2 RDF模型

2.3.3 基于四元组的模型

2.4 面向主体的数据模型

2.4.1 核心数据空间

1.如何界定数据和主体的相关性

2.如何对相关数据进行分类组织

2.4.2 任务空间

2.5 小结

参考文献

第3章 个人数据集成

3.1 引言

3.2 个人数据集成概述

3.2.1 个人数据来源

1.主体访问过的个人数据

2.主体未访问过的个人数据

3.2.2 集成系统框架

3.2.3 数据空间演化

3.2.4 主体访问行为识别

3.3 个人数据空间构建

3.3.1 个人数据特征

1.基于文件类型的规则

2.基于目录的规则

3.基于文件名的规则

4.基于目录结构的规则

3.3.2 个人数据识别

1.基于内容的算法

2.基于内容和结构的算法

3.4 任务识别

3.4.1 任务识别概述

1.基于特定行为监控的方法

2.基于任务生命周期的方法

3.基于文件夹的方法

4.基于文件内容的方法

3.4.2 基于访问模式的算法

3.4.3 基于稠密块的算法

1.时序关联图的预处理算法

2.基于稠密块的任务挖掘算法

3.5 小结

参考文献

第4章 个人数据融合

4.1 引言

4.2 个人同义词识别

4.2.1 个人同义词概述

4.2.2 个人实体命名特征分析

4.2.3 同义词概念模型

4.2.4 同义词表的构建

4.3 实体引用关系识别

4.3.1 个人数据引用关系概述

4.3.2 基于访问序列的引用模型

4.3.3 引用关系识别

4.4 数据版本识别

4.5 小结

参考文献

第5章 个人数据存储

5.1 引言

5.2 存储模式

5.2.1 分布式存储模式

5.2.2 分级数据存储

1.基于访问概率的多级数据存储策略

2.基于访问概率的自适应数据空间缓存策略

5.2.3 访问概率的计算

5.3 倒排索引技术

5.3.1 倒排表

5.3.2 属性倒排表

5.4 FAX索引

5.4.1 模式匹配片段

5.4.2 FAX索引结构

5.4.3 查询处理

5.4.4 索引更新

5.5 UFAX索引

5.5.1 索引结构

5.5.2 查询处理与索引更新

5.6 小结

参考文献

第6章 查询处理

6.1 引言

6.2 查询接口

6.3 基于同义词的关键字查询

6.4 多属性组合查询

6.4.1 数据分类结构

6.4.2 查询处理算法

6.5 基于任务的查询方法

6.5.1 任务关系的识别

1.内容关联度计算方法

2.时间关联度计算方法

6.5.2 查询处理

6.5.3 排序方法

6.6 小结

参考文献

第7章 个人数据空间系统

7.1 引言

7.2 系统概述

7.3 实现技术

7.3.1 数据存储

1.元数据

2.内容数据

7.3.2 索引策略

1.多级索引

2.选择性索引

3.混合索引技术

7.3.3 系统开发技术

1.数据存储

2.软件开发工具

7.4 系统框架

7.5 系统功能

7.5.1 灵活的数据更新操作

7.5.2 关联查询

7.5.3 基于任务查询

7.5.4 核心数据空间查询

1.基于主体相关度的核心数据空间排序

2.可视化多面查询功能

7.6 小结

参考文献

第8章 个人数据管理技术发展

8.1 引言

8.2 数据存储

8.2.1 分布式存储模式

8.2.2 基于云存储的个人数据管理

1.存储空间的局限性

2.数据的同步

3.数据安全

4.访问性能问题

8.2.3 个人数据缓存策略

8.3 数据安全与隐私保护

8.3.1 数据安全

1.硬件介质损毁造成的安全性问题

2.云存储的数据安全

3.信息交流中的数据安全

8.3.2 隐私保护

1.个人设备的隐私信息保护

2.位置隐私保护

3.社交网络中的隐私保护

4.网络搜索带来的隐私保护

8.4 数据融合

8.4.1 数据融合系统框架

8.4.2 个人数据融合实例

8.4.3 跨语言数据融合

8.4.4 跨媒体数据融合

1.基于信息标注与文本分析的方法

2.基于位置的数据融合方法

8.5 新技术发展

8.5.1 数据访问技术

1.个人数据可视化

2.基于语义的数据查询

3.基于上下文的查询方法

8.5.2 评价技术

1.数据价值评价

2.方法评价

8.5.3 个人数据计算

1.个人信息管理阶段

2.个人数据管理阶段

3.个人数据计算阶段

8.5.4 从个人数据空间到群组数据空间

8.5.5 个人数据管理与大数据

1.个人数据本身就是大数据

2.很多大数据应用依赖于个人数据管理

8.6 小结

参考文献

大数据、小数据、无数据:网络世界的数据学术

版权信息

丛书前言

大数据管理丛书

大数据管理概论

异构信息网络挖掘:原理和方法

大规模元搜索引擎技术

大数据集成

短文本数据理解

个人数据管理

位置大数据隐私管理

移动数据挖掘

云数据管理:挑战与机遇

大数据、小数据、无数据:网络世界的数据学术

译者序

前言

致谢

作者简介

克莉丝汀L.伯格曼(Christine L.Borgman)

推荐语

第一部分 数据与学术

第1章 挑战

1.1 引言

1.2 大数据与小数据

1.2.1 大

1.2.2 开放性

1.2.3 长尾

1.3 无数据

1.3.1 数据不可获取

1.3.2 数据不可发布

1.3.3 数据不可用

1.4 六项挑战

1.5 结论

第2章 何为数据

2.1 引言

2.2 定义与术语

2.2.1 按例定义

2.2.2 操作定义

2.2.3 分类定义

数据处理层级

2.2.4 概念区分

2.3 结论

第3章 数据学术

3.1 引言

3.2 知识基础设施

3.3 社会与技术

3.3.1 社区与协作

3.3.2 知识与表示

3.3.3 理论、实践与政策

3.4 开放学术

3.4.1 开放获取研究成果

3.4.2 开放获取数据

3.4.3 开放技术

3.5 交流融合

3.5.1 数据隐喻

3.5.2 数据单元

3.5.3 记录文件

3.6 结论

第4章 数据多样性

4.1 引言

4.2 学科与数据

4.3 数据大小问题

4.3.1 项目目标

4.3.2 数据采集

4.3.3 数据分析

4.4 数据产生问题

4.4.1 距离问题

4.4.2 外部影响因素

4.5 结论

第二部分 数据学术案例研究

第5章 自然科学领域的数据学术

5.1 引言

5.1.1 研究方法与数据实践

5.1.2 自然科学案例

5.2 天文学

5.2.1 数据大小问题

5.2.2 数据产生问题

5.2.3 天文学研究实践

5.3 传感器网络科学与技术

5.3.1 数据大小问题

5.3.2 数据产生问题

5.3.3 嵌入式传感器网络研究实践

5.4 结论

第6章 社会科学领域的数据学术

6.1 引言

6.1.1 研究方法与数据实践

6.1.2 社会科学案例

6.2 互联网调查与社交媒体研究

6.2.1 数据大小问题

6.2.2 数据产生问题

6.2.3 互联网调查与社交媒体研究实践

6.3 社会技术研究

6.3.1 数据大小问题

6.3.2 数据产生问题

6.3.3 CENS的社会技术研究实践

6.4 结论

第7章 人文学科领域的数据学术

7.1 引言

7.1.1 研究方法与数据实践

7.1.2 人文学科案例

7.2 古典艺术与考古学

7.2.1 数据大小问题

7.2.2 数据产生问题

7.2.3 古典艺术与考古学研究实践

7.3 佛教研究

7.3.1 数据大小问题

7.3.2 数据产生问题

7.3.3 佛教研究实践

7.4 结论

第三部分 数据政策与实践

第8章 数据共享、发布与重用

8.1 引言

8.2 研究类数据的供求分析

8.2.1 研究类数据的供给分析

8.2.2 研究类数据的需求分析

8.3 学术动机

8.3.1 出版物与数据

8.3.2 数据资产与数据债务

8.3.3 数据发布

8.3.4 获取重用数据

8.4 知识基础设施

8.4.1 知识库、数据集与档案馆

8.4.2 个体数据实践

8.4.3 人力基础设施

8.4.4 棘手问题

8.5 各学科领域的知识基础设施

8.5.1 自然科学

8.5.2 社会科学

8.5.3 人文学科

8.6 结论

第9章 数据信誉、归属与发现

9.1 引言

9.2 原则与问题

9.3 理论与实践

9.3.1 内容与格式:如何引用

9.3.2 引用行为理论:何时、为何引用何种对象

9.3.3 明确与否:信誉授予对象与责任归属对象

9.3.4 名称或编号:身份问题

9.3.5 当理论遇到技术:引用行为

9.3.6 风险与回报:引用价值

9.4 结论

第10章 保存何种数据及其原因

10.1 引言

10.2 挑战回顾

10.2.1 数据权利、责任、角色和风险

10.2.2 数据共享

10.2.3 出版物与数据

10.2.4 数据获取

10.2.5 利益相关者及其技能

10.2.6 过去、现在和未来的知识基础设施

10.3 结论

术语表

A

B

C

D

E

F

G

H

I

J

K

L

M

N

O

P

Q

R

S

T

U

V

W

X

Z

人名表

A

B

C

D

E

F

G

H

I

J

K

L

M

N

O

P

R

S

T

V

W

X

Y

机构、书籍和项目名称表

A

B

C

D

E

G

H

I

J

L

M

N

O

P

Q

R

S

T

U

V

W

Z

参考文献

度量空间数据管理

版权信息

丛书前言

大数据管理丛书

大数据管理概论

异构信息网络挖掘:原理和方法

大规模元搜索引擎技术

大数据集成

短文本数据理解

个人数据管理

位置大数据隐私管理

移动数据挖掘

云数据管理:挑战与机遇

大数据、小数据、无数据:网络世界的数据学术

实体识别技术

度量空间数据管理

前言

本书的内容和组织结构

致谢

第1章 基本概念

1.1 数据管理

1.1.1 关系型数据管理系统

1.1.2 空间数据管理系统

1.1.3 下一代数据管理系统

1.2 度量空间

1.3 存在的问题

第2章 度量空间索引

2.1 度量空间索引综述

2.1.1 基于划分的索引方法

2.1.2 基于支枢点的索引方法

2.1.3 混合索引方法

2.1.4 国内度量空间索引研究

2.1.5 分析与讨论

2.2 确定度量数据索引

2.2.1 索引构建框架

2.2.2 支枢点选择方法

2.2.3 SPB树

2.2.4 基于SPB树的度量区域查询

2.2.5 基于SPB树的度量k最近邻查询

2.2.6 分析与讨论

2.2.7 实验评估

2.3 不确定度量数据索引

2.3.1 研究动机

2.3.2 数据表达模型

2.3.3 UPB树和UPB森林

2.3.4 支枢点选择方法

2.3.5 基于UPB树的度量概率区域查询

2.3.6 基于UPB森林的度量概率区域查询46

2.3.7 分析与讨论

2.3.8 实验评估

2.4 本章小结

第3章 集中式度量空间查询

3.1 集中式度量空间查询综述

3.1.1 集中式度量相似查询处理技术

3.1.2 集中式度量反k最近邻查询处理技术

3.1.3 集中式度量相似连接处理技术

3.1.4 集中式度量全k最近邻查询处理技术

3.1.5 集中式度量k最近对查询处理技术

3.1.6 集中式度量Skyline查询处理技术

3.1.7 国内集中式度量空间查询研究

3.1.8 分析与讨论

3.2 度量全k最近邻查询

3.2.1 研究动机

3.2.2 问题陈述

3.2.3 剪枝策略

3.2.4 查询算法

3.2.5 分析与讨论

3.2.6 实验评估

3.3 度量k最近对查询

3.3.1 研究动机

3.3.2 问题陈述

3.3.3 剪枝策略

3.3.4 查询算法

3.3.5 分析与讨论

3.3.6 实验评估

3.4 本章小结

第4章 分布式度量空间查询

4.1 分布式度量空间查询综述

4.1.1 分布式相似连接处理技术

4.1.2 分布式全k最近邻查询处理技术

4.1.3 分布式Skyline查询处理技术

4.1.4 其他分布式查询处理技术

4.1.5 国内分布式海量数据查询研究

4.2 基于MapReduce的度量相似连接

4.2.1 研究动机

4.2.2 基于MapReduce的算法框架

4.2.3 基于聚簇的划分方法

1.中心点选择

2.Map的第一个阶段

3.Map的第二个阶段

4.讨论

4.2.4 基于KD树的划分方法

1.Map的第一个阶段

2.Map的第二个阶段

3.讨论

4.2.5 Reduce阶段

1.平面扫描法

2.讨论

4.2.6 实验评估

4.3 本章小结

第5章 度量空间查询可用性分析

5.1 查询结果可用性分析综述

5.1.1 Why与Why-not问题

1.Why-not问题研究现状

2.Why问题研究现状

3.其他Why-not和Why问题研究现状

5.1.2 Causality与Responsibility问题

5.1.3 Why-few与Why-many问题

1.Why-few问题研究现状

2.Why-many问题研究现状

3.其他Why-few和Why-many问题研究现状

5.2 度量概率区域查询上的Why-not问题

5.2.1 研究动机

5.2.2 问题陈述

5.2.3 处理算法

1.修改查询MPRQ(q,r,θ)

2.修改Why-not数据集W

3.修改MPRQ(q,r,θ)和W

5.2.4 分析与讨论

5.2.5 实验评估

1.算法有效性评估

2.算法性能评估

5.3 本章小结

第6章 社交图像检索与推荐系统

6.1 研究动机

6.2 数据模型与查询

6.3 系统框架与实现

6.3.1 系统框架

6.3.2 社交图像索引

6.3.3 查询处理

6.4 系统演示

6.5 本章小结

参考文献

实体识别技术

版权信息

丛书前言

前言

第1章 概述

1.1 实体识别问题的提出

1.2 实体识别研究的发展历史

1.3 实体识别问题的描述

1.4 实体识别的处理流程

1.5 实体识别的挑战

1.5.1 相似度衡量问题

1.5.2 计算效率问题

1.5.3 机器学习方法的应用问题

1.5.4 关联对象的识别问题

1.5.5 一些新的挑战

1.5.6 实体识别评估

1.6 实体识别的应用

1.6.1 医疗卫生

1.6.2 人口普查

1.6.3 客户关系管理

1.6.4 网购比价

1.6.5 犯罪及欺诈侦查

1.6.6 关联的开放数据

1.6.7 引文数据库

1.7 本章小结

参考文献

第2章 相似度计算算法

2.1 基于字段的相似度算法

2.1.1 Jaccard相似度算法

2.1.2 基于TF-IDF的相似度算法

2.1.3 基于q-grams的相似度算法

2.2 基于编辑距离的相似度算法

2.2.1 Levenshtein距离算法

2.2.2 Jaro和Jaro-Winkler距离算法

2.3 混合的相似度算法

2.3.1 扩展的Jaccard相似度算法

2.3.2 Monge-Elkan相似度算法

2.3.3 Soft TF-IDF相似度算法

2.4 数值型数据相似度算法

2.4.1 数字型相似度算法

1.精确距离算法

2.范围距离算法

2.4.2 日期型相似度算法

2.4.3 价格型相似度算法

2.5 本章小结

参考文献

第3章 实体识别的分块技术

3.1 引言

3.1.1 数据分块技术的应用

3.1.2 实体识别数据分块问题定义与算法分类

1.数据分块问题定义

2.数据分块算法分类

3.2 分块键

3.2.1 分块键的定义

1.属性相似性分类

2.影响分块键定义的要素

3.分块键定义的方法

3.2.2 分块键的编码

3.3 基于等值匹配的分块算法

3.3.1 标准分块方法

3.3.2 基于学习的分块键定义

3.4 基于相似性的分块算法

3.4.1 基于排序的分块方法

1.基于排序分块方法的原理

2.改进的基于排序分块方法

3.4.2 基于字符串分割的分块方法

1.基于q-grams的分块方法

2.基于后缀队列的分块方法

3.4.3 基于MinHash的分块方法

1.MinHash方法原理

2.基于MinHash的记录分块

3.4.4 基于Canopy聚类的分块方法

1.Canopy聚类分块方法原理

2.Canopy聚类分块方法的两种策略对比

3.4.5 基于前缀过滤的分块方法

1.基于前缀过滤分块方法的原理

2.基于前缀过滤分块方法的改进

3.5 本章小结

参考文献

第4章 基于机器学习的实体识别方法

4.1 基于分类器的实体识别方法

4.1.1 基于决策树的实体识别方法

1.一个实例

2.基于决策树的实体识别算法

4.1.2 基于贝叶斯分类器的实体识别方法

1.一个实例

2.基于贝叶斯分类器的实体识别算法

4.1.3 基于SVM的实体识别方法

1.一个实例

2.基于SVM的实体识别算法

4.1.4 基于主动学习的实体识别方法

1.一个实例

2.基于主动学习的实体识别算法

4.1.5 其他方法

4.2 基于概率图模型的实体识别方法

4.2.1 基于马尔可夫逻辑网络的实体识别方法

1.一个实例

2.基于马尔可夫逻辑网络的实体识别算法

4.2.2 基于条件随机场的实体识别方法

1.一个实例

2.基于条件随机场的实体识别算法

4.3 本章小结

参考文献

第5章 基于关系的实体识别方法

5.1 引言

5.2 联合式实体识别方法

5.2.1 基于关系聚类的联合式实体识别方法

1.一个实例

2.基于关系聚类的、迭代的联合式实体识别方法

5.2.2 复杂信息空间中的联合式实体识别方法

1.一个实例

2.面向复杂信息空间的联合式实体识别方法

5.3 基于实体关系的消歧方法

5.3.1 基于社交关系的名字消歧方法

5.3.2 基于实体关系的实体消歧方法

1.一个实例

2.相关概念

3.基于实体关系的实体消歧方法——RelDC

5.3.3 基于异构实体关系的实体消歧方法

1.一个实例

2.基于异构实体关系的实体消歧方法——DISTINCT

5.4 本章小结

参考文献

第6章 新型的实体识别技术

6.1 引言

6.2 基于时间模型的实体识别技术

6.2.1 一个实例

6.2.2 时间模型

1.时间衰减模型

2.实体突变模型

3.条件概率模型

4.属性值转换模型

6.2.3 基于时间模型的实体识别算法

1.基于时间衰减模型的实体识别算法

2.基于条件概率模型的实体识别算法

3.基于属性值转换模型的实体识别算法

6.3 基于众包的实体识别技术

6.3.1 一个实例

6.3.2 基于众包的实体识别框架

1.基于众包的基本实体识别框架

2.结合多众包处理步骤的实体识别框架

6.3.3 基于众包的实体识别的核心问题

1.候选匹配对选择

2.众包策略选择

3.匹配结果确定

6.3.4 基于众包的实体识别方法的特点

1.高准确率

2.高代价

3.适应性好

6.4 隐私保护下的实体识别技术

6.4.1 实体匹配中隐私保护的分类

1.数据扰乱技术

2.数据重构技术

3.数据加密技术

6.4.2 实体识别隐私保护算法的评估

1.隐私保护程度评估

2.实体识别结果评估

6.5 本章小结

参考文献

第7章 实体识别评估

7.1 基于记录对的精确性评价 ——准确率、召回率和F测度

7.2 分块技术评价

7.3 常用数据集

7.3.1 真实数据集

7.3.2 数据生成工具

7.4 本章小结

参考文献

第8章 总结与展望

8.1 实体识别研究总结

8.2 新型实体识别研究展望

8.2.1 基于时间模型的实体识别

8.2.2 基于众包的实体识别

1.在任务生成方面

2.在任务分解方面

3.在任务结果处理方面

8.2.3 隐私保护下的实体识别

1.现有PPRL方法可扩展性差,无法应用于大数据集

2.现有PPRL方法容错性差

3.现有PPRL方法还只局限于两个数据源

8.3 研究挑战

1.数据缺失处理

2.多数据源的识别

3.分布式实体识别

大数据管理概论是2017年由机械工业出版社华章分社出版,作者孟小峰。

得书感谢您对《大数据管理概论》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

你可能喜欢
手机摄影笔记 电子书

摄影笔记宁思潇潇力荐.李白兔子的手机摄影笔记给你学点高级的!从摄影审美讲起,小白也能学会的手机摄影光绘星空摄影建筑摄影微距摄影特效拍摄,近500页内容,颠覆手机摄影教程的套路!...
有趣得让人睡不着的化学 电子书

有趣得让人睡不着科普系列,带你走进118种化学元素的神奇世界。
最后的数学问题 电子书

数学是人类的发明还是发现?数学为何拥有解释万物的力量?上帝是数学家吗?
车联网权威指南:标准、技术及应用 电子书

一本全面且宝贵的车联网技术指南。
5G移动通信系统设计与标准详解 电子书

本书是一本专门介绍5G系统设计与标准的图书,书中内容涵盖了5G系统从标准体系到接口、从物理层到高层、从基带到射频的各个方面,对需求、技术及标准分别进行了详细介绍。
5G无线系统设计与国际标准 电子书

理解5G国际标准化的一把钥匙,也是标准化领域难得的一本好书。