基于向量空间模型的中文网页自动分类技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

信息技术的发展和互联网资源的迅速膨胀对传统的搜索引擎提出了挑战。在提高搜索引擎对信息的检索效率和用户操作的方便性方面，中文网页自动分类技术是一个有效的解决方案，是中文信息处理中的重要环节。它能够自动地把搜索引擎检索到的结果归类，便于用户按类别进行查找，提高检索信息的效率，已成为信息检索方向的研究热点。介绍了网页分类的原理、流程和分类的各项关键技术。阐述了网页预处理、向量空间模型的原理、特征选取技术、流行的分类算法和分类的评价指标，对这几种分类算法的分析表明KNN算法是最适合应用于网页分类的分类算法。概括了网页分类在搜索引擎中的重要作用。深入研究了KNN算法，分析了国内外主要的改进算法，发现KNN在大规模在线分类方面存在着效率上的缺陷。从修剪训练集合的角度出发，提出了一种生成代表样本集合的算法，并在中文网页分类器CPCK上进行验证。实验证明，与普通的KNN分类算法相比，代表样本算法的分类效率得到了一定程度的提高。从网页的布局和功能进行分析，发现在网页的分块信息中，相关链接与网页的主题存在着一定关联。在研究网页分块算法的基础上，充分利用网页中的结构化信息和链接资源，提出了利用分块算法提取主题相关链接块，并对相关链接的锚文本进行加权的权值修正方法。设计并实现了一个中文网页分类器CPCK，实现了对网页的自动处理、特征抽取和分类，并将提出的改进算法应用到分类器中进行验证。

著录项

作者
冯静;
展开▼
作者单位

中国石油大学(华东);

展开▼
授予单位中国石油大学(华东);
学科计算机软件与理论
授予学位硕士
导师姓名李村合;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类国际互联网;
关键词
中文网页; 自动分类; 分类算法; 向量空间模型; 中文信息处理;

相似文献

中文文献
外文文献
专利

1. 基于向量空间模型中文农业网页分类技术研究 [J] . 段园磊 ,张太红 . 新疆农业大学学报 . 2012,第002期
2. 一个基于向量空间模型的中文文本自动分类系统 [J] . 朱华宇 ,孙正兴 ,张福炎 . 计算机工程 . 2001,第002期
3. 基于向量空间模型的中文网页主题特征项抽取 [J] . 代宽 ,赵辉 ,韩冬 . 吉林大学学报（信息科学版） . 2014,第001期
4. 基于CFS-GA特征选择算法的中文网页自动分类 [J] . 喻春萍 ,黄晓霞 . 上海海事大学学报 . 2012,第001期
5. 基于内容的中文网页自动分类系统 [J] . 孙瑶琴 . 中国校外教育（理论） . 2009,第007期
6. 基于内容的中文网页自动分类系统 [C] . 梁久祯 . 第三届中国Rough集与软计算机学术研讨会 . 2003
7. 基于SVM的中文网页自动分类技术研究 [A] . 盛魁 . 2011

基于向量空间模型的中文网页自动分类技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅