首页> 中文学位 >面向市场情报分析的Web实体事件融合问题研究
【6h】

面向市场情报分析的Web实体事件融合问题研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 Web实体事件融合面临的问题

1.3 研究内容及贡献

1.3.1 研究环境

1.3.2 研究内容

1.3.3 本文贡献

1.4 论文结构

第2章 Web实体事件融合相关研究

2.1 引言

2.2 事件融合

2.2.1 事件融合面临的挑战

2.2.2 事件融合的研究现状

2.3 共指事件识别

2.4 事件冲突解决

2.5 关系抽取研究

2.6 小结

第3章 基于异质信息网络的Web共指实体事件识别方法

3.1 引言

3.2 问题的定义和说明

3.3 两阶段共指事件识别模型

3.3.1 第一阶段

3.3.2 第二阶段

3.4 事件实体属性相似度度量方法

3.4.1 事件参与者相似度度量方法

3.4.2 时间相似度度量方法

3.4.3 地点相似度度量方法

3.4.4 事件实体综合相似度的度量

3.4.5 活动类型的识别

3.5 实验与评价

3.5.1 数据集与实验环境

3.5.2 评价标准

3.5.3 实验结果和分析

3.6 相关工作

3.7 小结

第4章 基于D-S证据理论的事件冲突解决方法

4.1 引言

4.2 问题定义

4.3 事件冲突解决方法

4.3.1 事件冲突的分类

4.3.2 D-S证据理论及扩展

4.3.3 事件属性事实可信度计算要考虑的因素

4.3.4 事件属性事实可信度计算

4.3.5 利用扩展D-S证据理论组合

4.3.6 两阶段事件冲突解决方法

4.4 实验与评价

4.4.1 数据集及实验环境

4.4.2 实验结果与分析

4.5 相关工作

4.6 小结

第5章 实体事件关联图的构建

5.1 引言

5.2 问题描述与定义

5.3 事件关联图的构建

5.3.1 事件关联的基本类型

5.3.2 事件关系建模

5.4 实验分析

5.4.1 测试集和评价标准

5.4.2 实验结果及分析

5.5 相关工作

5.6 小结

第6章 总结与展望

6.1 总结

6.2 展望

参考文献

致谢

攻读学位期间发表的学术论文目录

攻读学位期间参与科研项目情况

外文论文

展开▼

摘要

随着Internet的快速发展,Web已经成为一个开放的、分布广泛的全球信息服务中心。企业希望通过大数据的分析,获取有价值的市场情报,在激烈的市场竞争中取得先机。在Web上,企业更加关心描述与其存在利益关系的实体(包括企业、产品、人物等)的一些事件信息,这些事件描述了实体从事的一些活动或者其最新的状态,为企业挖掘市场情报提供了第一手的资料。大量的事件信息以新闻、评论、消息等形式充斥在Web上,具有冗余度高、准确度差、数据离散等特点,给企业进行市场情报分析带来极大的不便。因此,如何消除冗余、事件关系发现,从而有效地整合事件信息,成为准确获取市场情报的前提。
  作为企业进行市场情报分析的重要步骤,Web实体事件融合可以为市场情报分析提供高质量的数据,为市场情报分析提供全面、真实、可靠的数据支持,因此,吸引了越来越多的研究者的关注。但是,由于Web上事件信息多以新闻等非结构化形式出现,存在表达自由、形式多样、发布随意等特点,因此Web实体事件融合还存在以下问题亟待解决:(1)Web上不同网站对同一事件的描述存在较大的差异,事件融合首先需要识别描述同一事件的不同表象;(2)由于事件不断发展、不同网站对事件描述详细程度的不同、网站的偏好以及编辑出错等原因,使得Web上事件信息存在不完整、过时、错误、虚假等冲突情况的发生,因此,为了保证市场情报分析数据的准确性,Web实体事件融合需要进行事件冲突解决;(3)从单个事件的描述信息很难发现事件的全貌,无法知道其来龙去脉,因此,为了给市场情报分析提供实体事件全面描述信息,Web实体事件融合需要建立起不同实体事件之间的关联关系,为挖掘事件间的隐式关联奠定基础。
  Web实体事件融合是数据质量的保证,以及市场情报分析的前提,本文针对事件融合面临的若干关键问题而展开研究,本文的主要工作与贡献可以概括为如下几个方面:
  (1)针对如何识别Web上存在的众多不同事件表象问题,本文提出了一种基于异质信息网络的Web实体共指事件识别方法,有效地提高了识别事件不同表象的准确性。
  该方法使用一种层次聚类的整体式共指事件识别算法,并利用了匹配决策之间的相互影响,进而迭代实现共指事件的识别。在事件相似度度量方面,本文提出的方法综合利用了实体、事件、文档、数据源之间的关系,通过运用多种特征进行事件相似度度量,得到准确度较高的事件表象综合相似度。通过在企业事件数据集、人物事件数据集、产品事件数据上的实验说明,所提出的算法可以有效地完成Web实体共指事件识别任务,具有较好的查全率和查准率。
  (2)针对不同事件表象所提供的事件信息存在不完整、过时、矛盾、错误等问题,文本提出了一种基于D-S证据理论的事件冲突解决方法,可以有效地解决事件表象间存在的冲突问题。
  该方法根据事件冲突的类型,采用有针对性的冲突解决策略,利用D-S证据理论的组合规则,有效地提高了事件冲突解决的准确率。在事件属性可信度的计算方面,利用事件属性事实出现的频率、在文档中的位置、数据源的质量等因素,采用半监督学习的方法,分别计算事件属性事实的可信度。针对传统D-S证据理论存在的合成法则悖论问题,对D-S证据理论进行了扩展,提高了事件冲突解决的准确度,并且允许新的策略和特征的加入,因此该方法具有较强的适应性。
  (3)针对无法从单个事件描述洞悉事件的起因、发展以及走向等问题,本文提出了基于事件关系和实体关系构建实体事件关联图的方法,可以有效地建立起实体事件间的关联。
  该方法利用事件间最基本的五种关系模式还原事件发生与发展的脉络,并借助于实体关系的发现,将实体事件间的复杂关联以图的形式描述出来,为挖掘事件间存在的隐式关系奠定基础。在事件关系方面,根据已有的事件关系模式,提出了一种事件关联图的构建方法;通过实验验证,本文所提方法能够有效建立实体事件间关联,具有较高的准确率。
  通过对Web实体事件融合的研究,解决了市场情报分析面临的数据质量问题,并为大规模情报分析奠定了基础,因此,本文的研究具有积极的意义。另外,事件关系检测、事件模式发现以及新的事件关系的表示机制是下一步的研究方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号