首页> 中文学位 >基于引力场模型的文本分类方法
【6h】

基于引力场模型的文本分类方法

代理获取

摘要

随着I工业的发展,特别是互联网的应用普及,信息处理已成为人们获取有用信息不可或缺的一项关键技术,而自动文本分类技术又是信息处理的重要研究课题,它是指在预定义分类体系下,根据文本的内容,自动判别文本类别的过程。
   本文首先介绍中文文本自动分类系统框架,然后介绍几种中文文本分类相关技术,接着介绍几种经典文本分类方法并总结其优缺点,最后本文提出一种新的文本分类算法。
   该方法是受引力场启发而设计的一个基于引力场模型的“虚核”(Virtual Kernel,简记VK)文本分类方法。其基本思想:首先,在训练阶段,通过对单个类别下已标记文本的特征词频进行某种数学变换,计算该类别“虚核”在各个特征处的特征引力场强,从而获得单个类的类别“虚核”,以此类推,得到所有预定义类别的“虚核”,至此,分类模型构建完成;然后,在测试阶段,当未标记文本到来时,按照一定规则,计算各个类的类别“虚核”对该未标记文本产生的引力;最后,将引力大小排序来最终确定该文本所属类别。究其本质,该方法是按照预定义类别与文本特征之间的相关性进行自动分类的。
   为了验证VK分类方法的实用性,本文做了大量精心设计的实验,实验采用向量空间模型来表示文本,采用两种特征选择方法-文档频率(DF)、信息增益(IG),与两种经典的文本分类方法-kNN、朴素贝叶斯做比较,在两个语料库上进行测试,得出了一些有意义的结论:
   1)VK分类方法不论在分类效果还是分类时间方面均优于kNN与朴素贝叶斯。
   2)VK分类方法在非平衡语料库上也能表现出很好的分类效果。
   3)VK分类方法对训练样本集的大小没有很强的依赖性。
   4)就特征选择方法而言,IG优于DF。
   5)语料集的质量对分类结果有着直接影响。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号