首页> 中文学位 >面向Web文本检索的归一化一分类算法
【6h】

面向Web文本检索的归一化一分类算法

代理获取

摘要

信息检索作为互联网应用的重要组成部分,与人们的日常生活密不可分;而作为文本形式的web应用仍然是互联网的主流应用。如何从大量的Web文本中更加有效的检索信息,依然是许多科研人员所面临的难题。文本自动分类技术,不仅是自然语言处理领域的一个重要分支,而且是信息检索和数据挖掘的基础和重要组成部分。
   面对每天数以亿计的互联网Web文本页面的更新,针对Web信息检索的文本分类技术,不能仅仅考虑分类算法的正确性,还要考虑分类算法的效率。本文从分类的精度和时间性能两方面作为切入点,提出了一种分类精度高,训练和分类时间代价小的归一化向量(Normalized Vector,简记NLV)文本分类算法。
   本文首先介绍了信息检索和文本分类的背景知识和相关过程,然后对已有的典型特征选择方法和文本分类算法做了较详细描述。通过对已有方法与技术的总结,提出了一种基于矩阵投影(MP)运算的特征选择方法和归一化向量(NLV)分类算法。
   MP方法属于概率模型的特征选择方式,不仅考虑词的文档频率,并且还考虑了词的平均出现频率。对信息增益(IG)、卡方校验(CHI)、文档频率(DF)、互信息(MI)和矩阵投影(MP)特征选择做了对比分析;并且采用多种分类算法验证MP特征选择方式是可行有效的。
   NLV分类算法通过压缩运算将高维的单类别向量空间压缩成低维的归一化向量,并通过归一化函数(方根型或对数型)对归一化向量的特征权重进行调整,较好地训练出分类模型。本文分别采用三套不同平衡性和语种的较大规模Web文本型语料库(20-Newgroups、TanCorpV1.0、SogouC),五种特征选择方法(DF、CHI、IG、MI、MP)和四种分类算法(kNN、MBNB、MNNB、SVM)做了大量而全面的对比实验来验证NLV算法的实用性和高效性。NLV算法训练和分类速度是五种算法中最快的,分类精度在中文语料库上略低于SVM,但是速度方面与SVM相比占有绝对优势;而在20-Newgroups语料库上NLV算法能够取得最优的分类精度和时间性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号