首页> 中文学位 >维基百科在IR4QA系统中的应用研究
【6h】

维基百科在IR4QA系统中的应用研究

代理获取

摘要

问答系统是新一代智能搜索引擎,它允许用户以自然语言提问,并能够向用户返回准确的答案。所以,与传统的搜索引擎相比,问答系统能更好的满足用户的查询要求,更准确地检索出用户所需要的答案。本文主要基于NTCIR8中所做的工作,研究的是问题理解和信息检索这两个中文问答系统中的主要部分,即IR4QA阶段的研究,并最终实现了这个IR4QA系统。
   问题理解阶段是所有涉及到自然语言接口系统的研究内容,是问答系统开始执行的第一个阶段,这个阶段的分析结果对后面的几个阶段的处理有着重大的影响;信息检索阶段在问答系统中处于中间的执行阶段,它的分析结果将会极大地影响后续模块的结果质量。本文通过比较和分析一般问答系统中这两个阶段目前存在的问题,找出更有效的处理方法应用在我们的系统中。
   本文在前人的研究基础上作了如下的一些工作:
   (1)整理并分析国内外有关自动问答系统与搜索引擎技术的研究现状,结合两种系统的长处,对于当前使用者在运用搜索引擎时出现的搜索结果冗杂、花费时间长、结果准确度不高等一些问题,提出了将维基百科应用于自动问答系统的方法,即基于维基百科的IR4QA系统,设计并实现了该系统。
   (2)通过分析系统最终达到的效果,本文在系统设计初期就制定了一系列切实可行的方法。以这些方法为基础,同时采用分层以及模块化的设计思想,确定了系统的设计原则,并将系统分为索引生成模块、问题分析模块、查询扩展模块、文档检索模块和文档重排模块。
   (3)研究了系统中涉及到的一些关键技术,对实现过程中遇到的难点做了理论和技术的积累,并提出了切实可行的解决方案。
   (4)在问题分类时,结合问题集中问题的特点,并考虑到汉语语法和语义分析的庞大工作任务,提高系统的质量,系统没有采用一般用在英文问答系统里面的机器学习的问题分类方法,而是利用启发式的规则,通过识别问题中的疑问词来工作的。这对于问题集中的这些句法简单的问题能达到良好的识别效果。
   (5)对于问题与查询文档中存在的词不匹配的情况,采用了基于维基百科的查询扩展方法,包括维基页面的查找、相关段落的定位和扩展词的选取。通过实验对比证明此方法能够有效地提高检索结果的质量。
   (6)为了进一步提高检索结果的准确率,系统还在文档重排模块使用BM25算法对检索结果进行重排,重排后得到最终的检索结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号