首页> 中文学位 >基于体裁的中文网页自动分类的研究与实现
【6h】

基于体裁的中文网页自动分类的研究与实现

代理获取

目录

文摘

英文文摘

声明

第1章 引言

1.1研究背景及意义

1.2国内外的研究现状

1.3课题研究的难点

1.4本课题研究的主要内容

1.4.1中文网页体裁特征的选取

1.4.2基于K-近邻的分类算法

1.4.3设计和实现网页体裁分类系统

1.5本文的组织结构

第2章 网页体裁分类概述

2.1体裁(Genre)的概念

2.2体裁的类别

2.2.1体裁类别的确定

2.2.2体裁类别的研究现状

2.3网页的特征项

2.4网页的特征选取

2.4.1文本的特征选取

2.4.2网页的特征选取

2.5常用的分类算法

2.5.1朴素贝叶斯算法(Naive Bayes,NB)

2.5.2 K-近邻算法(K-Nearest Neighbor,KNN)

2.5.3支持向量机算法(Support Vector Maehine,SVM)

2.6实验语料库

2.6.1语料库的概念

2.6.2网页语料库

第3章 网页体裁分类的研究

3.1网页的表示模型

3.1.1向量空间模型(Vector Space Model,VSM)

3.1.2四维向量空间模型

3.2体裁特征的归纳

3.2.1标签特征向量

3.2.2形态特征向量

3.2.3内容特征向量

3.2.4词性特征向量

3.3体裁特征的选取

3.3.1特征项频率(Term Frequency:TF)

3.3.2集中度(Concentration)

3.3.3分散度(Dispersion)

3.3.4本课题的特征选取算法TFCD

3.4基于机器学习的分类算法

3.4.1 K-近邻分类算法

3.4.2 K-近邻分类算法的改进与分析

第4章 网页体裁分类系统的设计与实现

4.1体裁类别的确定

4.2语料库的构建

4.3分类系统的设计

4.4开发环境

4.5主要功能模块的实现

4.5.1 HTML解析

4.5.2中文分词

4.5.3特征选取

4.5.4 KNN学习和分类

第5章 实验测试与结果分析

5.1实验评价标准

5.2实验结果与分析

第6章 结论与展望

6.1工作总结

6.2研究成果

6.3未来的研究

参考文献

致谢

攻读硕士学位期间发表论文情况

展开▼

摘要

随着Internet的快速发展,因特网上信息数据量与日俱增,当人们利用搜索引擎检索关键词,面对其返回的一个庞大的相关网页链接列表时,常常还是难以寻找到自己真正所需的资源。解决该问题的重要途径之一就是从体裁的角度对网页进行分类,在分类的基础上再进行检索可以大大提高检索的精度。 网页的体裁分类不同于传统的基于主题和内容的网页分类。网页的体裁分类是按网页的类型进行分类,是综合考虑网页的风格、样式、内容、功能等各种信息的分类方式,是一种“垂直于”网页内容分类的分类方式。目前,网页体裁分类还处于全面研究阶段,技术尚不够成熟,尤其是国内的研究才刚刚开始。 本文对网页体裁分类进行了初步的研究和探讨,提出了一种网页体裁分类的方法。该方法结合体裁分类的特点使用可扩展的多维向量空间模型来表示网页,并能够自动选取体裁特征,在分类计算中根据不同类型的特征向量采用不同的相似度加权值,最后采用Java语言编写了程序实现了中文网页的体裁分类。其主要研究工作如下: (1) 本文归纳选取了因特网上常见的9种体裁类别,根据此类别人工收集了共1251篇网页文档,并对其加以类别标记后作为网页体裁分类的语料库。 (2) 借鉴文本分类的相关理论和技术,采用4维向量空间模型来表示一个网页。对网页的体裁特征进行了分析,采用标签、形态、内容、词性四种类型的特征向量共同来描述网页的体裁特征。 (3) 对网页体裁特征项的选取进行了研究和分析,并利用特征项频率、集中度和分散度三者结合的衡量标准对特征项进行自动选取。 (4) 对传统的K-近邻分类算法进行了相似度加权组合的改进,以适用于网页的体裁分类。 (5) 本文提出了网页体裁分类系统的总体设计,采用Java语言实现了整个分类系统,并系统进行了实验测试和结果分析。实验结果表明:开放测试分类的平均精度达到80%以上,达到了预期的目标,证明了网页体裁分类的可行性,为下一步更深入的探索奠定了初步的研究基础,也为未来网页体裁分类的实际应用提供了一定的理论支撑。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号