首页> 中文学位 >基于向量空间模型的中文网页自动分类技术研究
【6h】

基于向量空间模型的中文网页自动分类技术研究

代理获取

目录

文摘

英文文摘

声明

第一章 绪论

1.1课题的研究背景及意义

1.2国内外研究现状

1.2.1自动分类技术的发展趋势

1.2.2分类模型和分类算法的发展现状

1.2.3基于网页特性的分类研究现状

1.3课题研究的主要内容

1.4论文的组织结构

第二章 中文网页分类关键技术

2.1文本分类技术概述

2.1.1文本分类概念

2.1.2自动分类的方法

2.1.3网页分类过程

2.2网页预处理

2.2.1 HTML文档解析

2.2.2中文分词

2.2.3停用词删除

2.2.4词性选择

2.3文本表示

2.3.1向量空间模型

2.3.2权重计算

2.4特征选取技术

2.4.1文档频率(DF)

2.4.2信息增益(IG)

2.4.3开方拟合检验(x2-CHI)

2.4.4互信息法(MI)

2.5分类算法简介

2.5.1简单距离向量法

2.5.2朴素贝叶斯(Naive-Bayes)

2.5.3支持向量机方法(SVM)

2.5.4最近邻居算法(NN)

2.6文本分类效果评价指标

2.7网页分类在搜索引擎中的应用

2.8本章小结

第三章 基于代表样本的KNN算法研究

3.1 KNN算法

3.1.1算法描述

3.1.2算法分析

3.1.3相关研究工作

3.2代表样本生成新策略

3.2.1代表样本概念的提出

3.2.2一种新的代表样本生成策略

3.3改进算法描述

3.3.1训练算法

3.3.2分类算法

3.4基于代表样本生成策略的KNN分类过程

3.5本章小结

第四章 基于中文网页结构特征的特征项加权

4.1网页的半结构特性

4.2常见的基于网页结构特征的特征加权方法

4.2.1利用HTML标记进行解析加权

4.2.2基于网页分块的特征加权

4.2.3基于超链接文本的特征加权

4.3基于主题相关链接的权值修正方法的提出

4.3.1网页的DOM解析及分块

4.3.2相关链接块的提取

4.4本章小结

第五章 中文网页分类器设计与实现

5.1开发与运行平台

5.2处理流程

5.3分类器设计说明

5.3.1系统结构

5.3.2模块功能描述

5.3.3系统类说明

5.3.4数据集说明

5.3.5网页下分类器CPCK界面

5.4实验结果分析

5.4.1代表样本法与传统KNN算法的实验比较

5.4.2代表样本法与其他算法的实验比较

5.4.3主题相关链接加权法实验对比

结论

主要工作

主要创新点

存在的问题及未来的方向

参考文献

攻读硕士学位期间取得的学术成果

致谢

展开▼

摘要

信息技术的发展和互联网资源的迅速膨胀对传统的搜索引擎提出了挑战。在提高搜索引擎对信息的检索效率和用户操作的方便性方面,中文网页自动分类技术是一个有效的解决方案,是中文信息处理中的重要环节。它能够自动地把搜索引擎检索到的结果归类,便于用户按类别进行查找,提高检索信息的效率,已成为信息检索方向的研究热点。 介绍了网页分类的原理、流程和分类的各项关键技术。阐述了网页预处理、向量空间模型的原理、特征选取技术、流行的分类算法和分类的评价指标,对这几种分类算法的分析表明KNN算法是最适合应用于网页分类的分类算法。概括了网页分类在搜索引擎中的重要作用。深入研究了KNN算法,分析了国内外主要的改进算法,发现KNN在大规模在线分类方面存在着效率上的缺陷。从修剪训练集合的角度出发,提出了一种生成代表样本集合的算法,并在中文网页分类器CPCK上进行验证。实验证明,与普通的KNN分类算法相比,代表样本算法的分类效率得到了一定程度的提高。从网页的布局和功能进行分析,发现在网页的分块信息中,相关链接与网页的主题存在着一定关联。在研究网页分块算法的基础上,充分利用网页中的结构化信息和链接资源,提出了利用分块算法提取主题相关链接块,并对相关链接的锚文本进行加权的权值修正方法。设计并实现了一个中文网页分类器CPCK,实现了对网页的自动处理、特征抽取和分类,并将提出的改进算法应用到分类器中进行验证。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号