首页> 中文学位 >基于特征提取和权值计算算法的中文网页分类研究
【6h】

基于特征提取和权值计算算法的中文网页分类研究

代理获取

目录

文摘

英文文摘

声明

第一章 前言

第二章 中文网页自动分类技术

第三章 特征提取、权值计算及分类

第四章 实验

第五章 总结和展望

参考文献

附录

致 谢

攻读硕士学位期间发表的学术论文目录

展开▼

摘要

在现代社会,互联网急剧地改变着我们的生活,面对互联网上巨量的信息,如何得到我们真正想要的信息变成了一个非常重要的问题,网页分类便成为了一个热点研究领域。网页分类就是根据一定的规则实现大量的网页的自动归类,进而对网页进行有序组织,改善信息检索的性能,提高网络资源的利用率。特征提取和加权是网页分类过程中的重要步骤,也是提高网页分类效率的前提,算法的优劣直接影响到分类器的性能。
   本文的工作是在“中文网页分类系统”的开发过程中,对网页分类技术进行了较为深入的研究,包括中文网页信息提取、自动分词、特征提取、权值计算、自动网页分类等方面,并基于传统的特征提取和权值计算算法提出自己的改进算法。本文的主要工作如下:
   首先,介绍了网页分类的国内外现状和研究方法,并指出课题研究的重点和难点。
   其次,我们较为深入地研究了传统的MI算法和tf-idf公式在网页分类中的应用及其存在的不足,发现传统的MI算法忽视了互信息值为负的特征以及过分倾向于低频词,另外传统的tf-idf公式忽视了特征项在类别之间的分布,并针对这些不足对传统的算法提出改进,再通过实验证明改进的优越性和可行性。
   最后,本文利用有监督的机器学习理论构建一个网页分类器。运用改进型的互信息算法对分词结果进行特征提取,对传统的tf-idf加权公式进行了一些改进,运用KNN算法构建分类器。进行了大量的实验,实验结果表明改进后的算法相对传统算法具有优越性,实现了较高的精确度。
   伴随着互联网上信息的飞速增长,网络数据挖掘越来越变成一个重要的学术研究领域,中文网页分类作为网络数据挖掘领域的重要分支,具有重大的研究价值和现实意义。

著录项

  • 作者

    孔令成;

  • 作者单位

    安徽大学;

  • 授予单位 安徽大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 郑诚;
  • 年度 2010
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.092;
  • 关键词

    中文网页分类; 特征提取; 权值计算;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号