基于特征提取和权值计算算法的中文网页分类研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

在现代社会，互联网急剧地改变着我们的生活，面对互联网上巨量的信息，如何得到我们真正想要的信息变成了一个非常重要的问题，网页分类便成为了一个热点研究领域。网页分类就是根据一定的规则实现大量的网页的自动归类，进而对网页进行有序组织，改善信息检索的性能，提高网络资源的利用率。特征提取和加权是网页分类过程中的重要步骤，也是提高网页分类效率的前提，算法的优劣直接影响到分类器的性能。
　　本文的工作是在“中文网页分类系统”的开发过程中，对网页分类技术进行了较为深入的研究，包括中文网页信息提取、自动分词、特征提取、权值计算、自动网页分类等方面，并基于传统的特征提取和权值计算算法提出自己的改进算法。本文的主要工作如下：
　　首先，介绍了网页分类的国内外现状和研究方法，并指出课题研究的重点和难点。
　　其次，我们较为深入地研究了传统的MI算法和tf-idf公式在网页分类中的应用及其存在的不足，发现传统的MI算法忽视了互信息值为负的特征以及过分倾向于低频词，另外传统的tf-idf公式忽视了特征项在类别之间的分布，并针对这些不足对传统的算法提出改进，再通过实验证明改进的优越性和可行性。
　　最后，本文利用有监督的机器学习理论构建一个网页分类器。运用改进型的互信息算法对分词结果进行特征提取，对传统的tf-idf加权公式进行了一些改进，运用KNN算法构建分类器。进行了大量的实验，实验结果表明改进后的算法相对传统算法具有优越性，实现了较高的精确度。
　　伴随着互联网上信息的飞速增长，网络数据挖掘越来越变成一个重要的学术研究领域，中文网页分类作为网络数据挖掘领域的重要分支，具有重大的研究价值和现实意义。

著录项

作者
孔令成;
展开▼
作者单位

安徽大学;

展开▼
授予单位安徽大学;
学科计算机软件与理论
授予学位硕士
导师姓名郑诚;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.092;
关键词
中文网页分类; 特征提取; 权值计算;

相似文献

中文文献
外文文献
专利

1. 基于特征权值系数算法的网页分类方法研究 [J] . 俞五炎 . 中国电子商务 . 2012,第008期
2. 中文网页分类中特征提取的研究 [J] . 程传鹏 ,李钜 . 中原工学院学报 . 2005,第006期
3. 基于KNC算法的中文网页分类方法研究 [J] . 李旻 ,杜海顺 ,王琪 . 河南大学学报：自然科学版 . 2010,第5期
4. 基于权值算法的中文情感分析系统研究与实现 [J] . 张昊旻 ,石博莹 ,刘栩宏 . 计算机应用研究 . 2012,第012期
5. 基于投影寻踪的中文网页分类算法 [J] . 万中英 ,王明文 ,廖海波 . 中文信息学报 . 2005,第004期
6. kNN与NB算法在中文网页分类上的比较研究 [C] . 龚笔宏 ,冯是聪 . 全国搜索引擎和网上信息挖掘学术讨论会 . 2003
7. 中文网页分类特征提取算法探讨 [A] . 梁永江 . 2010

基于特征提取和权值计算算法的中文网页分类研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅