首页> 中文学位 >面向问答系统的问题分类与答案抽取研究
【6h】

面向问答系统的问题分类与答案抽取研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景

1.2 相关工作

1.2.1 问题分析

1.2.2 答案检索

1.2.3 答案抽取

1.3 本文组织结构

第2章 问答系统基础技术

2.1 问题预处理

2.1.1 分词及去除停用词

2.1.2 词性标注

2.1.3 句法分析

2.2 问题分类技术

2.2.1 类别体系

2.2.2 常用的问题分类方法

2.3 答案检索

2.3.1 基于搜索引擎的答案检索

2.3.2 检索结果页面分析

2.3.3 网页正文提取技术

2.4 相关段落检索

2.5 实体识别

2.5.1 条件随机场模型

2.6 句子相似度计算

2.7 本章小结

第3章 问题的特征选取与分类

3.1 问题数据集的构建与类别体系

3.2 构建停用词表

3.2.1 算法介绍

3.2.2 停用词表抽取结果对比

3.3 基于词的特征选取

3.3.1 基于类别信息的特征词选取

3.3.2 TFC-ICF方法的改进

3.3.3 对比实验

3.4 人工选取问句特征词

3.5 关键词扩展

3.5.1 同义词扩展

3.5.2 上位词扩展

3.5.3 关键词扩展实验

3.6 基于语法信息的特征选取

3.6.1 基于依存句法的特征选取

3.6.2 基于句法特征的实验

3.7 本章小结

第4章 事实型问题的答案抽取

4.1 句子相似度计算

4.1.1 基于向量空间模型的方法

4.2 实体识别

4.2.1 基于规则的实体识别

4.2.2 基于统计模型的实体识别

4.2.3 实体识别的实验

4.3 传统的答案抽取

4.3.1 事实型答案抽取方法

4.3.2 答案抽取实验

4.4 基于问答社区的答案抽取

4.5 本章小结

第5章 总结与展望

5.1 工作总结

5.2 未来工作

参考文献

致谢

硕士期间参与的项目及发表的论文

展开▼

摘要

随着人工智能、信息检索以及自然语言处理等技术地发展,问答系统的研究也取得了长足地进步。特别是TREC等会议举办的问答系统评测任务又进一步推动了问答系统的发展。相比英文而言,中文领域并没有流行的问答系统评测,相关的数据集也十分匮乏,导致目前中文问答系统的研究相对落后。本文使用基于在线搜索引擎的方式来实现答案检索,主要研究工作为面向中文问答系统的问题分析与答案抽取。
  在问题分析部分,本文首先提出了一种基于词组合及问题类别的停用词选取方法,在选取停用词时先从由n个词组合成的短语中提取,并且在提取过程中考虑问题类别情况,通过不断减小n的值来完成迭代。在本文的数据集上,这一方法取得了较好的效果。
  接着,针对本文的问题,基于TF-IDF的思想提出了一种问句分类特征选取方法TFC-ICF。该方法综合考虑了一个词语标识某个类别的能力及其在各个类别中的分布情况,从而可以选取到质量更高的分类特征。本文使用基于SVM模型的分类器来进行自动分类,使用TFC-ICF方法选取的特征词在问题分类上的准确率可以达到80.45%。为了进一步提高问题分类的性能,本文以TFC-ICF方法为基准,提出了人工特征选取方法、基于关键词扩展的特征选取和选取语法信息的特征选取,并且在后两种方法中实验了多种不同的特征使用方法。通过与TFC-ICF方法结合使用,上述三种方法在问题分类上的最高准确率分别可以达到86.01%、85.14%和82.13%。
  在答案抽取部分,本文首先讨论了如何使用基于向量空间模型的句子相似度计算方法选取候选答案句子,进而使用实体识别的方法从候选答案句子中提取与问句类别相关的实体,最后,本文提出了一种基于句子相似度和实体信息的答案抽取方法,在NTCIR5的CLQA问答测试集上取得了较好的实验结果。
  本文对问题分类和答案抽取做了重点研究,并得到了一些成果,但其中也存在一定的问题,比如,问题数据集质量较差、实体识别的效果还不能完全令人满意、最终答案抽取的效果也不够理想。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号