面向问答系统的问题分类与答案抽取研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着人工智能、信息检索以及自然语言处理等技术地发展，问答系统的研究也取得了长足地进步。特别是TREC等会议举办的问答系统评测任务又进一步推动了问答系统的发展。相比英文而言，中文领域并没有流行的问答系统评测，相关的数据集也十分匮乏，导致目前中文问答系统的研究相对落后。本文使用基于在线搜索引擎的方式来实现答案检索，主要研究工作为面向中文问答系统的问题分析与答案抽取。
　　在问题分析部分，本文首先提出了一种基于词组合及问题类别的停用词选取方法，在选取停用词时先从由n个词组合成的短语中提取，并且在提取过程中考虑问题类别情况，通过不断减小n的值来完成迭代。在本文的数据集上，这一方法取得了较好的效果。
　　接着，针对本文的问题，基于TF-IDF的思想提出了一种问句分类特征选取方法TFC-ICF。该方法综合考虑了一个词语标识某个类别的能力及其在各个类别中的分布情况，从而可以选取到质量更高的分类特征。本文使用基于SVM模型的分类器来进行自动分类，使用TFC-ICF方法选取的特征词在问题分类上的准确率可以达到80.45％。为了进一步提高问题分类的性能，本文以TFC-ICF方法为基准，提出了人工特征选取方法、基于关键词扩展的特征选取和选取语法信息的特征选取，并且在后两种方法中实验了多种不同的特征使用方法。通过与TFC-ICF方法结合使用，上述三种方法在问题分类上的最高准确率分别可以达到86.01％、85.14％和82.13％。
　　在答案抽取部分，本文首先讨论了如何使用基于向量空间模型的句子相似度计算方法选取候选答案句子，进而使用实体识别的方法从候选答案句子中提取与问句类别相关的实体，最后，本文提出了一种基于句子相似度和实体信息的答案抽取方法，在NTCIR5的CLQA问答测试集上取得了较好的实验结果。
　　本文对问题分类和答案抽取做了重点研究，并得到了一些成果，但其中也存在一定的问题，比如，问题数据集质量较差、实体识别的效果还不能完全令人满意、最终答案抽取的效果也不够理想。

著录项

作者
张傲;
展开▼
作者单位

东北大学;

展开▼
授予单位东北大学;
学科计算机软件与理论
授予学位硕士
导师姓名胡明涵;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
问答系统; 问题分类; 特征选取; 答案抽取; 实体识别; 信息检索;

相似文献

中文文献
外文文献
专利

1. 中小学藏语文问答系统中答案抽取算法的研究 [J] . 群毛措 ,安见才让 . 电脑知识与技术 . 2016,第004期
2. 藏文问答系统中答案抽取算法的研究 [J] . 群毛措 ,安见才让 . 电子技术与软件工程 . 2016,第004期
3. 中文问答系统中答案抽取的研究 [J] . 刘宁锋 ,史晓东 . 电脑知识与技术 . 2011,第012期
4. 中文问答系统答案抽取的研究 [J] . 何鹍 ,叶昕 ,李巍 . 商情 . 2010,第028期
5. 基于招生咨询域的问答系统中答案抽取的研究 [J] . 袁春兰 ,张琳 . 电脑知识与技术 . 2009,第013期
6. 藏文问答系统中问题分类方法研究 [C] . Rou Te ,柔特 . 第四届全国少数民族青年自然语言信息处理学术研讨会 . 2012
7. 面向非结构化文本的问答系统中答案抽取技术研究 [A] . 麻俊满 . 2019

面向问答系统的问题分类与答案抽取研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅