首页> 中文学位 >网络文本信息中的共指消歧方法及应用
【6h】

网络文本信息中的共指消歧方法及应用

代理获取

目录

摘 要

ABSTRACT

目 录

Contents

第 1 章 绪论

1.1 课题背景及意义

1.2 国内外研究现状

1.2.1 共指消歧研究现状

1.2.2 时间信息处理研究现状

1.2.3 文本聚类研究现状

1.3 本文的研究内容

1.4 本文的内容安排

第 2 章 基于多分类器投票的中文共指消歧

2.1 引言

2.2 共指消歧问题描述

2.3 中文共指消歧策略

2.3.1 分类实例的生成

2.3.2 特征选择

2.3.3 多分类器投票

2.4 实验与分析

2.4.1 实验数据与评价体系

2.4.2 结果与分析

2.5 本章小结

第 3 章 基于决策模型的中文共指消歧

3.1 引言

3.2 共指消歧问题分类

3.3 先验知识库构建

3.4 共指关系判断

3.4.1 共指候选项特征抽取

3.4.2 子问题规则集

3.5 实验与分析

3.5.1 实验设置

3.5.2 结果与分析

3.6 本章小结

第 4 章 基于时间信息共指消歧的搜索结果排序

4.1 引言

4.2 时间表达式识别

4.3 时间表达式标准化

4.4 搜索结果排序

4.4.1 查询时间信息提取

4.4.2 网页事件时间信息提取

4.4.3 查询与事件的时间信息共指关系判断

4.4.4 搜索结果排序方法

4.5 实验与分析

4.5.1 实验设置

4.5.2 评测指标

4.5.3 结果与分析

4.6 本章小结

第 5 章 基于共指消歧的多特征组合事件发现

5.1 引言

5.2 新闻文本特征提取与组合

5.2.1 文本特征提取

5.2.2 时间特征提取

5.2.3 词典特征提取

5.2.4 相似度加权

5.3 基于共指消歧的特征补全

5.4 文本聚类方法描述

5.5 实验与分析

5.5.1 实验设置

5.5.2 结果及分析

5.6 基于异构信息的事件推荐

5.7 本章小结

结 论

参考文献

攻读博士学位期间发表的学术论文及其它成果

哈尔滨工业大学学位论文原创性声明及使用授权

致 谢

个人简历

展开▼

摘要

随着网络技术的快速发展和网络信息的不断丰富,互联网为人们的工作和生活提供了越来越多的便利。要满足人们对网络信息服务越来越高的要求,我们不仅需要从存储、传播和显示等方面处理信息,更要从内容上理解信息。目前网络信息的形式已经非常丰富,但是文本信息仍然是互联网信息的重要组成部分,文本作为语言的载体,理解其内容需要自然语言处理的相关技术,而共指消歧则是其中一个非常重要的方面。网络文本信息中包含着许多共指现象,即针对同一实体有着不同的描述,例如代词的指代和名词的缩写等。这些现象都是语言表达的常用形式,但对计算机而言理解其真正内容却是很难的。如果能将这些不同的实体描述加以识别并归类,那么文本内容将得到更准确规范的整理。网络文本信息的共指消歧,可以帮助计算机更准确的理解信息的内容以及用户的需求,从而提高信息服务的质量。
  迄今为止,共指消歧特别是中文共指消歧,仍然是自然语言处理的研究难点。中文语言表达的多样性使得中文共指消歧更为复杂。网络文本信息中语言表达形式的不断发展,也增加了将共指消歧应用到网络文本信息处理中的难度。解决共指消歧的基本途径是利用机器学习方法,其主要思想是将该问题转换成分类问题,利用分类模型完成共指消歧。但是共指消歧问题的复杂性使得利用单个分类器得到的结果不够理想。为此论文提出了基于多分类器投票的中文共指消歧方法。首先对训练数据样例的生成方式进行了改进,平衡了正反例的比例。通过训练多个分类方法,包括决策树模型,随机森林模型和最大熵模型,分别完成共指关系的判断,然后投票给出最后的结果。多个分类器的投票方法,修正了单分类器的判断错误并中和了各分类器的优势,得到了更好的共指消歧结果。
  机器学习方法的优点是不需要过多语言学知识,但是利用投票方式解决中文共指消歧的结果仍不够理想。为了更好的解决该问题,论文认为共指现象是由多个子问题组成,因此提出了基于决策模型的中文共指消歧方法。论文建立了共指消歧问题的分类体系,通过该分类体系将共指消歧问题拆分成若干子问题,如名词性短语的共指,代词共指问题等,对每一个子问题建立了详细的判定准则。同时论文利用有效的人称识别,性别和单复数判定等先验知识帮助建立子问题规则集。在CoNLL-2012国际公开评测数据集上决策模型得到的结果优于利用机器学习方法得到的结果,并在该国际评测的中文共指消歧任务中取得国内第一,国际第二的成绩。决策模型解决共指消歧的优势是可以快速实现单个子问题的解决策略,从而更方便应用到网络信息处理过程中。
  时间信息的共指判断是共指消歧中特定的任务。实际上所有时间信息在时间轴上是唯一定位并可以相互比较的,那么时间信息的共指消歧可以帮助确定文档在时间维度上的相关性。该方法可以应用到网络文本信息的处理中,例如搜索引擎的返回结果排序主要是基于关键词匹配的程度和网页自身的重要度等,针对包含时间信息修饰的查询,忽略了查询的时间限定作用,因此可以对该类查询与网页内容的时间信息进行共指消歧,调整搜索结果的排序使其更合理。为此论文提出了基于时间信息共指消歧的搜索结果排序方法。首先完成了用户查询中的时间信息抽取和时间信息标准化。提取用户查询包含的事件描述特征,并根据该特征完成网页中事件的定位和时间信息的提取,通过网页内容和用户查询的时间信息共指对比,得到搜索结果的时间相关度排序。针对包含时间信息修饰的用户查询,在原有的搜索结果排序基础上,给出了基于时间信息共指消歧的搜索结果排序,为用户提供更好的信息服务。
  论文将共指消歧解决方法应用到网络新闻的事件发现研究中,提出了基于共指消歧的多特征组合事件发现方法。论文利用文本聚类方法来实现网络新闻事件发现。文本聚类多是利用词频作为特征,忽略了新闻事件包含的时间信息和领域词典分类信息等,并且表达习惯中的共指现象降低了某些词的词频,从而降低了文档间的相似度。论文将时间信息和词典信息加入文本特征,并通过共指消歧得到文本中的共指描述集合,用集合中最完整的描述替代文本中的其他描述,以此来调整文本的词频特征。最后计算不同特征的相似度,加权得到文本之间的相似度,以此完成事件发现。论文提出的方法将共指消歧研究应用到网络文本信息处理中,并考虑了网页新闻中包含的多种特征。针对金融领域公司新闻的实验结果证明了论文方法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号