首页> 中文学位 >自动问答系统中英文问句特征抽取方法研究
【6h】

自动问答系统中英文问句特征抽取方法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景与意义

1.2 研究内容

1.3 论文的组织结构

第2章 国内外研究现状

2.1 特征抽取方法

2.1.1 词法特征抽取

2.1.2 句法特征抽取

2.1.3 语义特征抽取

2.2 问句分类方法

2.3 问句分类体系

2.4 问句分类评价

2.5 本章小结

第3章 基于序列模式挖掘的词法特征抽取

3.1 频繁模式及评估标准

3.2 PrefixSpan算法

3.3 基于改进的PrefixSpan算法的词法特征提取

3.4 本章小结

第4章 基于改进的信息增益的语义特征抽取

4.1 基于信息增益的特征选取模型

4.2 词语间语义相似度

4.2.1 WordNet

4.2.2 语义相似度计算方法

4.3 基于单词相似度改进的信息增益特征提取方法

4.4 本章小结

第5章 实验与分析

5.1 实验数据集建立

5.2 实验环境搭建及实验参数计算

5.2.1 语义特征参数计算

5.2.2 词法特征参数设置

5.3 实验结果分析

5.3.1 本文实验结果对比

5.3.2 与以往工作对比

5.4 本章小结

第6章 总结与展望

6.1 工作总结

6.2 未来工作

参考文献

攻读学位期间公开发表论文情况

致谢

作者简介

展开▼

摘要

自动问答系统的研究目标是正确地理解用户以自然语言描述的问题,进而高效、准确地反馈给用户答案。问句分类是问答系统的第一步,准确地对问句分类不仅能够有效地缩小答案搜索的范围,而且能够有效地提升答案检索的准确率。虽然自然语言处理和机器学习技术已经显著地改善了问句分类的水平,但问句分类的性能及准确率仍有待进一步提高。
  问句特征是影响问句分类效果的关键因素,因此特征抽取是问句分类的关键步骤。本文提出了一种改进的基于信息增益模型的问句单词语义特征抽取方法。首先利用WordNet计算问句中单词的语义相似度,然后结合单词的语义相似度和信息增益模型计算单词的信息增益值,根据信息增益值来评估单词的重要性,最后选取高增益值的词汇构成问句的语义特征空间。为了获取问句的词法特征,本文将问句表示为单词序列,提出了一种基于序列模式挖掘的问句频繁模式挖掘方法,得到的频繁模式构成问句的词法特征空间。
  本文使用了三种分类器在公共的UIUC数据集上对所提方法进行了评测。实验结果表明支持向量机的分类效果要优于朴素贝叶斯分类器和C4.5分类器,基于支持向量机的大类准确率为96%,小类准确率为90%,优于现有的问句分类方法。此外,本文所提的特征抽取方法由于不需要对问句进行语法解析,因此有效地节省了计算开销。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号