面向web数据的信息抽取及融合技术研究

王君泽

计算机与互联网类型

查阅电子书

手机扫码

微信扫一扫

关注微信公众号

因版权原因待上架

类似推荐

电子书


Python程序设计——编程基础、Web开发及数据分析

李辉刘洋编著
电子书


Java Web应用设计及实战

肖睿
电子书


Java面向对象程序开发及实战

肖睿主编
电子书


Web安全漏洞原理及实战

田贵辉
电子书


Web数据库技术与MySQL应用教程

李国红

编辑推荐

本书旨在从情报检索的视角介绍面向非限定领域的Web数据分析及处理方法。

内容简介

随着Web数据的不断扩充，如何从Web数据中抽取信息并融合成指导决策的情报，已成为广泛关注的领域。面向Web数据的信息抽取和融合可以通过统计、在线分析处理、情报检索、机器学习、专家系统、模式识别等诸多方法来实现上述目标。

本书从基本概念讲解信息抽取以及融合，涉及词、句、篇章等层面的分析和处理策略，特别是针对情报处理的需要，以“事件”为切入点，将包括中文分词、词性标注、组块划分、句法分析、马尔科夫模型等各类相关的处理模型和技术融入事件抽取、事件类型及元素识别、事件信息融合等领域的具体处理任务中加以介绍，并对信息抽取及融合等领域的发展状况及代表性处理手段进行介绍。

作者简介

作者王君泽，1982年生，工学博士，管理学博士后，华中科技大学公共管理学院硕士生导师。2010年毕业于华中科技大学电子与信息工程系，获博士学位。主要研究方向为网络舆情、信息安全、公共情报管理等。

章节目录

版权信息

总序

前言

第一章 Web数据在情报分析中的效用研究

第一节情报分析中的Web数据使用

一、情报分析中使用Web数据的目标

二、情报分析中Web数据的特征选取

三、情报分析中Web数据的分析技术

四、情报分析工作中Web数据处理的具体对象

第二节 Web数据效用发挥面临的挑战

一、数据采集方面

二、噪声数据处理方面

三、数据分析方面

第三节小结

第二章中文分词及词性标注

第一节中文自动分词的难点

一、语言学方面的困难

二、处理算法方面的困难

第二节中文分词的基本方法

一、基于词典的分词方法

二、基于统计的分词方法

三、未登录词处理方法概述

第三节中文词性标注的难点

第四节中文词性标注的基本方法

一、基于统计模型的词性标注方法

三、基于统计方法与规则方法相结合的词性标注方法

四、基于深度学习的词性标注方法

五、词性标注中的未登录词处理方法

第三章中文句法分析

第一节完全句法分析技术

一、穷举算法

二、有限态自动机

三、完全句法分析的代表模型

第二节浅层句法分析

第四章语料库与词汇知识库

第一节语料库技术

一、概述

二、语料库的类型

三、典型语料库介绍

第二节词汇知识库

一、WordNet

二、FrameNet

三、EDR

四、知网

第五章 Web数据消重

第一节引言

第二节相关工作与研究框架

第三节算法流程分析

一、基于统计观点的网页主题内容提取

二、基于高频词提取的转载关系初筛

三、基于核函数的转载关系判别

第四节算法效果评估

一、主题内容块提取测试

二、转载关系判别测试

三、评估结果分析

第五节基于网页转载关系识别的舆情传播态势分析

第六章基于最大熵模型的中文事件抽取方法研究

第一节引言

第二节相关工作

第三节基于最大熵模型的事件类型及元素标注

一、最大熵模型框架

二、标注过程介绍

第四节基于组块分析的标注单元划分

第五节实验及结果分析

一、数据准备与评价方法

二、实验结果及讨论

第七章共指事件的事件表象可信度评估模型研究

第一节引言

第二节相关工作

第三节事件表象信任网络

一、信任网络构建

二、候选事实的相似度计算

第四节基于信任网络的事件表象可信度计算

第五节实验与分析

一、实验数据集

二、实验一

三、实验二

四、实验三

五、实验四

第八章面向新闻文本的事件表象融合策略研究

第一节引言

第二节相关研究工作

第三节事件表象之间的共指关系识别

一、表象语句的组块分析

二、事件表象的相似度计算

第四节基于OpinoSis图结构的共指事件表象融合

第五节实验与结果分析

一、实验数据及评价指标

二、共指关系识别实验及结果分析

三、表象语句融合实验及结果分析

第九章面向共指事件识别的同义表述模式抽取研究

第一节引言

第二节相关研究工作

第三节词级别同义表述模式抽取

一、现有同义词知识库的不足

二、词级别同义表述模式抽取的基本思路

三、词级别同义表述模式抽取算法表述

第四节语句级别同义表述模式抽取

一、语句级别同义表述实例抽取的基本思路

二、语句级别同义表述模式抽取算法表述

三、语句级别同义表述模式中的冗余成分剔除

第五节实验

一、实验数据集合及算法评价指标

二、实验结果及分析

第十章基于共指事件识别的同义词集构建研究

第一节研究背景

第二节相关工作

第三节共指事件表述识别

一、表象语句的组块分析

二、事件属性确定

三、共指事件识别策略

第四节同义词抽取及筛选策略

一、抽取策略1

二、抽取策略2

三、抽取结果筛选

第五节实验

一、实验数据及预处理

二、基线方法及评价指标

三、实验及结果分析

第十一章基于评论针对性的评论排序

第一节问题定义与分析

一、评论类别

二、评论结构

三、计算评论针对性需考虑的因素

第二节评论针对性的计算策略

一、评论与文章的相似性

二、评论之间的相关度

三、集成方法

第三节实验

一、实验数据集合与评价指标

二、基线方法和评价指标

三、实验结果

第四节分析和讨论

一、实验结果分析

二、进一步讨论

第十二章裁判文书类案推送中的案情相似度计算模型研究

第一节背景介绍

第二节相关研究工作

第三节模型构建

一、裁判文书中的案件详情部分抽取

二、案件详情内容中词项重要性分析

三、裁判文书的案情相似度计算

第四节实验

一、实验设计

二、实验过程及结果分析

第十三章舆情数据中的话题分析研究

第一节 PLSA介绍

第二节数据相关工作

一、数据收集

二、数据预处理

三、数据分析

第三节结果

一、微博文本内容分析结果

二、主要话题的占比情况分析

三、微博文本数据的时空分析结果

第四节讨论

参考文献

面向web数据的信息抽取及融合技术研究是2021年由华中科技大学出版社出版,作者王君泽。

得书感谢您对《面向web数据的信息抽取及融合技术研究》关注和支持，如本书内容有不良信息或侵权等情形的，请联系本网站。

得书 - 好书推荐、正版图书免费阅读