首页> 中文学位 >面向在线问答社区的问题检索与答案抽取技术研究与实现
【6h】

面向在线问答社区的问题检索与答案抽取技术研究与实现

代理获取

目录

声明

第一章 绪论

1.1 研究背景和意义

1.2 问答系统研究历史

1.3本文的主要工作与组织结构

第二章 问答系统相关技术与研究现状

2.1问答系统分类

2.3 问题检索

2.4 答案抽取

2.5 本章小结

第三章 问题检索方法

3.1 问题检索框架

3.2 基于支持向量机的问题分类模型

3.3 基于问题分类与语义距离特征的排序学习模型

3.4 本章总结

第四章 答案抽取方法

4.1 答案抽取框架

4.2 层次化答案预处理模型

4.3 结合问答特征的答案排序学习模型

4.4 本章总结

第五章 系统实现与评测

5.1 系统总体结构设计

5.2 问答系统的评测

5.3 系统实验环境

5.4 系统实验结果与分析

5.5 本章小结

结 束 语

致谢

参考文献

作者在学期间取得的学术成果

展开▼

摘要

由于自然语言处理的复杂性,现有的基于关键字的搜索引擎无法较好的理解、处理自然语言问题。与搜索引擎相比,社区型问答系统能够更好的理解用户意图,直接返回自然语言提问的答案。社区型问答系统已成为网络上不可或缺的高质量信息来源。
  然而社区型问答系统还存在如下挑战。问答平台较多,问答资源分散在各个问答社区;自然语言问句表述多样性造成相似问句难以匹配;高质量答案淹没在大量低质量答案之中;相似问题下的最佳答案无法快速获取。本文在问题检索、答案抽取方面进行了具体的工作,设计实现了一个面向在线问答社区的多平台的问答系统。
  在问题检索部分,本文设计了面向多平台的相似问题查询排序模型。第一步,识别问题类型并到对应在线问答社区的分类中检索相似问题。首先对自然语言形式的提问进行预处理,提取问题特征,考虑不同问题类别与不同在线问答社区的对应关系,到相应的问答社区分类中检索。第二步,将多个来源的相似问题检索结果按照与提问的相关度进行排序。排序过程综合考虑问句的语义距离特征,统计模型特征与问题质量特征,通过排序学习算法调整权重,选择与用户意图最相近的问题。
  在答案抽取部分,本文设计了面向多平台的最佳答案查询排序模型。第一步采用有监督机器学习的方法从大量答案中过滤掉无关答案,通过层次化模型来得到高质量候选答案集合。第二步综合考虑相似问题下的所有答案,得到多平台的最佳答案。首先通过比较问题与提问的关联度、问题和答案的关联度,提取答案质量的关键特征。然后基于ListNet算法构建答案排序模型,选出与问句最相关的答案。
  在人工构建的测试集合对上述方法进行了评测,并与经典的算法进行了对比分析。实验结果显示,系统能够实现多平台在线相似问题检索与最佳答案提取,基本满足用户需求。
  基于上述两项关键技术,作者参与了一个QA系统的设计与开发。该系统参加了2015 年国际文本检索会议(TREC)举办的在线问答竞赛,并在答案质量综合得分上取得了第三名的优秀成绩。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号