首页> 中文学位 >基于支持向量机的中文问题分类研究
【6h】

基于支持向量机的中文问题分类研究

代理获取

摘要

问答系统是信息检索的高级形式,其中问题理解模块的问题分类任务能够为后续的信息检索模块缩小搜索范围,并有助于答案抽取模块制定抽取策略,对问答系统整体性能的提高具有重要作用。处在发展初期的中文问答系统尤其需要追求每个阶段的品质,所以中文问题分类作为首要子过程极具研究价值。
   采取支持向量机的方法对中文问题进行分类比较可行且有效,因为处理问题集得到的特征空间维数较高,支持向量机可以有效解决高维问题;问题向量特征相关性小,支持向量机能够不受特征独立性假设的影响;问题向量特征稀疏,支持向量机具有主动学习能力。此外,如果缺乏用于公测的问题集,支持向量机在自行构建的问题集上仍然可以得到相对最优的结果,具有良好的泛化和推广性。
   中文问题包含的信息非常少,转换成向量后在高维空间的分类精度很低,因此需要对原始问句中的关键词在概念上进行扩展,一般地,从同义、近义和上下位三个方向扩展能够在尽量不引入噪音的前提下使问题向量的维数升高,从而大幅度提高分类精度。在易分中文问题分类系统上实验显示,对问题特征数目扩大一倍,分类精度可以提高55.263%;对每个类的问题个数增加一倍,分类精度提高35.956%。选取支持向量机参数的过程中发现参数和分类准确率有这样的关系:一、对于同一个数据集,数据区间范围的伸缩不影响分类准确率,罚因子值不变,高斯宽度参数值随区间的伸缩增大或减小;二、数据区间范围不变的情况下,罚因子和高斯宽度参数的值此消彼长,在追求最佳分类精度的取值趋势上是相对的。三、数据集的实例个数不变,罚因子不变;实例中非零属性个数较多时,高斯宽度参数相对较小。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号