面向web数据的信息抽取及融合技术研究

面向web数据的信息抽取及融合技术研究

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书旨在从情报检索的视角介绍面向非限定领域的Web数据分析及处理方法。

内容简介

随着Web数据的不断扩充,如何从Web数据中抽取信息并融合成指导决策的情报,已成为广泛关注的领域。面向Web数据的信息抽取和融合可以通过统计、在线分析处理、情报检索、机器学习、专家系统、模式识别等诸多方法来实现上述目标。

本书从基本概念讲解信息抽取以及融合,涉及词、句、篇章等层面的分析和处理策略,特别是针对情报处理的需要,以“事件”为切入点,将包括中文分词、词性标注、组块划分、句法分析、马尔科夫模型等各类相关的处理模型和技术融入事件抽取、事件类型及元素识别、事件信息融合等领域的具体处理任务中加以介绍,并对信息抽取及融合等领域的发展状况及代表性处理手段进行介绍。

作者简介

作者王君泽,1982年生,工学博士,管理学博士后,华中科技大学公共管理学院硕士生导师。2010年毕业于华中科技大学电子与信息工程系,获博士学位。主要研究方向为网络舆情、 信息安全、公共情报管理等。

章节目录

版权信息

总序

前言

第一章 Web数据在情报分析中的效用研究

第一节 情报分析中的Web数据使用

一、情报分析中使用Web数据的目标

二、情报分析中Web数据的特征选取

三、情报分析中Web数据的分析技术

四、情报分析工作中Web数据处理的具体对象

第二节 Web数据效用发挥面临的挑战

一、数据采集方面

二、噪声数据处理方面

三、数据分析方面

第三节 小结

第二章 中文分词及词性标注

第一节 中文自动分词的难点

一、语言学方面的困难

二、处理算法方面的困难

第二节 中文分词的基本方法

一、基于词典的分词方法

二、基于统计的分词方法

三、未登录词处理方法概述

第三节 中文词性标注的难点

第四节 中文词性标注的基本方法

一、基于统计模型的词性标注方法

三、基于统计方法与规则方法相结合的词性标注方法

四、基于深度学习的词性标注方法

五、词性标注中的未登录词处理方法

第三章 中文句法分析

第一节 完全句法分析技术

一、穷举算法

二、有限态自动机

三、完全句法分析的代表模型

第二节 浅层句法分析

第四章 语料库与词汇知识库

第一节 语料库技术

一、概述

二、语料库的类型

三、典型语料库介绍

第二节 词汇知识库

一、WordNet

二、FrameNet

三、EDR

四、知网

第五章 Web数据消重

第一节 引言

第二节 相关工作与研究框架

第三节 算法流程分析

一、基于统计观点的网页主题内容提取

二、基于高频词提取的转载关系初筛

三、基于核函数的转载关系判别

第四节 算法效果评估

一、主题内容块提取测试

二、转载关系判别测试

三、评估结果分析

第五节 基于网页转载关系识别的舆情传播态势分析

第六章 基于最大熵模型的中文事件抽取方法研究

第一节 引言

第二节 相关工作

第三节 基于最大熵模型的事件类型及元素标注

一、最大熵模型框架

二、标注过程介绍

第四节 基于组块分析的标注单元划分

第五节 实验及结果分析

一、数据准备与评价方法

二、实验结果及讨论

第七章 共指事件的事件表象可信度评估模型研究

第一节 引言

第二节 相关工作

第三节 事件表象信任网络

一、信任网络构建

二、候选事实的相似度计算

第四节 基于信任网络的事件表象可信度计算

第五节 实验与分析

一、实验数据集

二、实验一

三、实验二

四、实验三

五、实验四

第八章 面向新闻文本的事件表象融合策略研究

第一节 引言

第二节 相关研究工作

第三节 事件表象之间的共指关系识别

一、表象语句的组块分析

二、事件表象的相似度计算

第四节 基于OpinoSis图结构的共指事件表象融合

第五节 实验与结果分析

一、实验数据及评价指标

二、共指关系识别实验及结果分析

三、表象语句融合实验及结果分析

第九章 面向共指事件识别的同义表述模式抽取研究

第一节 引言

第二节 相关研究工作

第三节 词级别同义表述模式抽取

一、现有同义词知识库的不足

二、词级别同义表述模式抽取的基本思路

三、词级别同义表述模式抽取算法表述

第四节 语句级别同义表述模式抽取

一、语句级别同义表述实例抽取的基本思路

二、语句级别同义表述模式抽取算法表述

三、语句级别同义表述模式中的冗余成分剔除

第五节 实验

一、实验数据集合及算法评价指标

二、实验结果及分析

第十章 基于共指事件识别的同义词集构建研究

第一节 研究背景

第二节 相关工作

第三节 共指事件表述识别

一、表象语句的组块分析

二、事件属性确定

三、共指事件识别策略

第四节 同义词抽取及筛选策略

一、抽取策略1

二、抽取策略2

三、抽取结果筛选

第五节 实验

一、实验数据及预处理

二、基线方法及评价指标

三、实验及结果分析

第十一章 基于评论针对性的评论排序

第一节 问题定义与分析

一、评论类别

二、评论结构

三、计算评论针对性需考虑的因素

第二节 评论针对性的计算策略

一、评论与文章的相似性

二、评论之间的相关度

三、集成方法

第三节 实验

一、实验数据集合与评价指标

二、基线方法和评价指标

三、实验结果

第四节 分析和讨论

一、实验结果分析

二、进一步讨论

第十二章 裁判文书类案推送中的案情相似度计算模型研究

第一节 背景介绍

第二节 相关研究工作

第三节 模型构建

一、裁判文书中的案件详情部分抽取

二、案件详情内容中词项重要性分析

三、裁判文书的案情相似度计算

第四节 实验

一、实验设计

二、实验过程及结果分析

第十三章 舆情数据中的话题分析研究

第一节 PLSA介绍

第二节 数据相关工作

一、数据收集

二、数据预处理

三、数据分析

第三节 结果

一、微博文本内容分析结果

二、主要话题的占比情况分析

三、微博文本数据的时空分析结果

第四节 讨论

参考文献

面向web数据的信息抽取及融合技术研究是2021年由华中科技大学出版社出版,作者王君泽。

得书感谢您对《面向web数据的信息抽取及融合技术研究》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
信息技术及实验指导 电子书
本书具有以下特点:1.理论与实践结合;2.注重深层次发掘信息技术教育的基本内涵;3.强调自主学习、勤于动手、主动探究的思想;4.把“学技术”与“用技术”融合在一起,让学生能够主动理解知识、掌握技能、发展能力。
信息设计:数据与图表的可视化表现 电子书
本书精选了57幅全球经典的信息设计作品,分为“示意图”“统计图表”“象形图标”和“地图”四个部分。书中有大量的信息设计作品展示,并有详细的文字介绍和精彩的设计师访谈。书中的作品运用了图表、图标、矢量图形、照片、地图、文字等多种元素,囊括了信息设计的各种类型,为读者展示了信息设计的创作思路和表现手法。本书适合设计专业的老师、学生作为参考用书,同时可供从业的设计师阅读。
信息技术基础及应用教程 电子书
本书共7章,全书以Windows7为操作平台,以实例讲解为主线,将每章节的知识点有机地融合在实例中。其内容主要涵盖信息技术基础知识、计算机硬件系统、Windows7的基本操作、网络应用基本操作、Word2010、Excel2010、PowerPoint2010等办公软件的应用及Flash动画设计技术等计算机及信息技术知识。
信息技术及素养实训教程 电子书
本书详细介绍了Windows7系统基本操作,实用工具软件的使用,常用办公自动化软件Office2010的文字处理软件、电子表格处理软件和演示文稿软件的使用,以及安全密码的基础知识和相关设置等内容。
Web应用安全 电子书
深入解析Web应用安全的核心概念和方法。