网络文本信息中的共指消歧方法及应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着网络技术的快速发展和网络信息的不断丰富,互联网为人们的工作和生活提供了越来越多的便利。要满足人们对网络信息服务越来越高的要求,我们不仅需要从存储、传播和显示等方面处理信息,更要从内容上理解信息。目前网络信息的形式已经非常丰富,但是文本信息仍然是互联网信息的重要组成部分,文本作为语言的载体,理解其内容需要自然语言处理的相关技术,而共指消歧则是其中一个非常重要的方面。网络文本信息中包含着许多共指现象,即针对同一实体有着不同的描述,例如代词的指代和名词的缩写等。这些现象都是语言表达的常用形式,但对计算机而言理解其真正内容却是很难的。如果能将这些不同的实体描述加以识别并归类,那么文本内容将得到更准确规范的整理。网络文本信息的共指消歧,可以帮助计算机更准确的理解信息的内容以及用户的需求,从而提高信息服务的质量。
　　迄今为止,共指消歧特别是中文共指消歧,仍然是自然语言处理的研究难点。中文语言表达的多样性使得中文共指消歧更为复杂。网络文本信息中语言表达形式的不断发展,也增加了将共指消歧应用到网络文本信息处理中的难度。解决共指消歧的基本途径是利用机器学习方法,其主要思想是将该问题转换成分类问题,利用分类模型完成共指消歧。但是共指消歧问题的复杂性使得利用单个分类器得到的结果不够理想。为此论文提出了基于多分类器投票的中文共指消歧方法。首先对训练数据样例的生成方式进行了改进,平衡了正反例的比例。通过训练多个分类方法,包括决策树模型,随机森林模型和最大熵模型,分别完成共指关系的判断,然后投票给出最后的结果。多个分类器的投票方法,修正了单分类器的判断错误并中和了各分类器的优势,得到了更好的共指消歧结果。
　　机器学习方法的优点是不需要过多语言学知识,但是利用投票方式解决中文共指消歧的结果仍不够理想。为了更好的解决该问题,论文认为共指现象是由多个子问题组成,因此提出了基于决策模型的中文共指消歧方法。论文建立了共指消歧问题的分类体系,通过该分类体系将共指消歧问题拆分成若干子问题,如名词性短语的共指,代词共指问题等,对每一个子问题建立了详细的判定准则。同时论文利用有效的人称识别,性别和单复数判定等先验知识帮助建立子问题规则集。在CoNLL-2012国际公开评测数据集上决策模型得到的结果优于利用机器学习方法得到的结果,并在该国际评测的中文共指消歧任务中取得国内第一,国际第二的成绩。决策模型解决共指消歧的优势是可以快速实现单个子问题的解决策略,从而更方便应用到网络信息处理过程中。
　　时间信息的共指判断是共指消歧中特定的任务。实际上所有时间信息在时间轴上是唯一定位并可以相互比较的,那么时间信息的共指消歧可以帮助确定文档在时间维度上的相关性。该方法可以应用到网络文本信息的处理中,例如搜索引擎的返回结果排序主要是基于关键词匹配的程度和网页自身的重要度等,针对包含时间信息修饰的查询,忽略了查询的时间限定作用,因此可以对该类查询与网页内容的时间信息进行共指消歧,调整搜索结果的排序使其更合理。为此论文提出了基于时间信息共指消歧的搜索结果排序方法。首先完成了用户查询中的时间信息抽取和时间信息标准化。提取用户查询包含的事件描述特征,并根据该特征完成网页中事件的定位和时间信息的提取,通过网页内容和用户查询的时间信息共指对比,得到搜索结果的时间相关度排序。针对包含时间信息修饰的用户查询,在原有的搜索结果排序基础上,给出了基于时间信息共指消歧的搜索结果排序,为用户提供更好的信息服务。
　　论文将共指消歧解决方法应用到网络新闻的事件发现研究中,提出了基于共指消歧的多特征组合事件发现方法。论文利用文本聚类方法来实现网络新闻事件发现。文本聚类多是利用词频作为特征,忽略了新闻事件包含的时间信息和领域词典分类信息等,并且表达习惯中的共指现象降低了某些词的词频,从而降低了文档间的相似度。论文将时间信息和词典信息加入文本特征,并通过共指消歧得到文本中的共指描述集合,用集合中最完整的描述替代文本中的其他描述,以此来调整文本的词频特征。最后计算不同特征的相似度,加权得到文本之间的相似度,以此完成事件发现。论文提出的方法将共指消歧研究应用到网络文本信息处理中,并考虑了网页新闻中包含的多种特征。针对金融领域公司新闻的实验结果证明了论文方法的有效性。

著录项

作者
袁博;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机应用技术
授予学位博士
导师姓名王晓龙,陈清财;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;国际互联网;
关键词
共指消歧; 自然语言处理; 网络文本信息; 时间信息; 事件发现;

相似文献

中文文献
外文文献
专利

1. 文献数据库中作者名自动化消歧方法应用研究 [J] . 郭舒 . 情报杂志 . 2013,第009期
2. 统计学习方法在语义消歧中的应用研究 [J] . 刘莉 ,谈文蓉 . 西南民族大学学报（自然科学版） . 2007,第001期
3. 一种循环神经网络的词义消歧方法 [J] . 张春祥 ,周雪松 ,高雪瑶 . 哈尔滨理工大学学报 . 2020,第001期
4. 基于元路径异构网络嵌入的姓名实体消歧方法 [J] . 王建霞 ,张玉璇 ,许云峰 . 河北科技大学学报 . 2020,第003期
5. 一种改进的无监督网络图词义消歧方法研究 [J] . 王苗 ,杨鹏 . 机床与液压 . 2017,第018期
6. 网络社区中的图像标签消歧算法研究 [C] . 程文刚 ,汤庄园 . 2011信息技术与应用学术会议 . 2011
7. 基于方式信息的自然语言篇章消歧方法及其在智能仪器设计中的应用 [A] . 雷晨曦 . 2014

网络文本信息中的共指消歧方法及应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅