基于支持向量机的中文问题分类研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

问答系统是信息检索的高级形式，其中问题理解模块的问题分类任务能够为后续的信息检索模块缩小搜索范围，并有助于答案抽取模块制定抽取策略，对问答系统整体性能的提高具有重要作用。处在发展初期的中文问答系统尤其需要追求每个阶段的品质，所以中文问题分类作为首要子过程极具研究价值。
　　采取支持向量机的方法对中文问题进行分类比较可行且有效，因为处理问题集得到的特征空间维数较高，支持向量机可以有效解决高维问题；问题向量特征相关性小，支持向量机能够不受特征独立性假设的影响；问题向量特征稀疏，支持向量机具有主动学习能力。此外，如果缺乏用于公测的问题集，支持向量机在自行构建的问题集上仍然可以得到相对最优的结果，具有良好的泛化和推广性。
　　中文问题包含的信息非常少，转换成向量后在高维空间的分类精度很低，因此需要对原始问句中的关键词在概念上进行扩展，一般地，从同义、近义和上下位三个方向扩展能够在尽量不引入噪音的前提下使问题向量的维数升高，从而大幅度提高分类精度。在易分中文问题分类系统上实验显示，对问题特征数目扩大一倍，分类精度可以提高55.263%；对每个类的问题个数增加一倍，分类精度提高35.956%。选取支持向量机参数的过程中发现参数和分类准确率有这样的关系：一、对于同一个数据集，数据区间范围的伸缩不影响分类准确率，罚因子值不变，高斯宽度参数值随区间的伸缩增大或减小；二、数据区间范围不变的情况下，罚因子和高斯宽度参数的值此消彼长，在追求最佳分类精度的取值趋势上是相对的。三、数据集的实例个数不变，罚因子不变；实例中非零属性个数较多时，高斯宽度参数相对较小。

著录项

作者
赵冰心;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科计算机应用技术
授予学位硕士
导师姓名张茂元;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
支持向量机; 问答系统; 信息检索; 中文问题分类;

相似文献

中文文献
外文文献
专利

1. 基于依存关系与支持向量机的中文问题分类方法 [J] . 林旭东 ,孙爱东 ,林丕源 . 郑州大学学报（理学版） . 2009,第001期
2. 基于Ontology的中文问答系统问题分类研究 [J] . 张亮 ,黄河燕 ,胡春玲 . 中国图书馆学报 . 2006,第002期
3. 基于双字耦合度支持向量机模型的中文文本分类技术研究 [J] . 李锐 . 机电工程技术 . 2017,第012期
4. 一种基于改进的TF-IDF和支持向量机的中文文本分类研究 [J] . 郭太勇 . 软件 . 2016,第012期
5. 基于支持向量机的中文农业文本分类技术研究 [J] . 魏芳芳 ,段青玲 ,肖晓琰 . 农业机械学报 . 2015,第S1期
6. 面向潜在语义分析的中文问题分类模型 [C] . Hu Jinfeng ,胡金凤 ,Li Yi . SCEG2014研讨会（2014年“计算机科学与技术及教育技术“学术研讨会） . 2014
7. 基于支持向量机和语义信息的问题分类的研究 [A] . 余峰 . 2008

基于支持向量机的中文问题分类研究

摘要

著录项

相似文献

相关主题

期刊订阅