基于体裁的中文网页自动分类的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Internet的快速发展，因特网上信息数据量与日俱增，当人们利用搜索引擎检索关键词，面对其返回的一个庞大的相关网页链接列表时，常常还是难以寻找到自己真正所需的资源。解决该问题的重要途径之一就是从体裁的角度对网页进行分类，在分类的基础上再进行检索可以大大提高检索的精度。网页的体裁分类不同于传统的基于主题和内容的网页分类。网页的体裁分类是按网页的类型进行分类，是综合考虑网页的风格、样式、内容、功能等各种信息的分类方式，是一种“垂直于”网页内容分类的分类方式。目前，网页体裁分类还处于全面研究阶段，技术尚不够成熟，尤其是国内的研究才刚刚开始。本文对网页体裁分类进行了初步的研究和探讨，提出了一种网页体裁分类的方法。该方法结合体裁分类的特点使用可扩展的多维向量空间模型来表示网页，并能够自动选取体裁特征，在分类计算中根据不同类型的特征向量采用不同的相似度加权值，最后采用Java语言编写了程序实现了中文网页的体裁分类。其主要研究工作如下： (1) 本文归纳选取了因特网上常见的9种体裁类别，根据此类别人工收集了共1251篇网页文档，并对其加以类别标记后作为网页体裁分类的语料库。 (2) 借鉴文本分类的相关理论和技术，采用4维向量空间模型来表示一个网页。对网页的体裁特征进行了分析，采用标签、形态、内容、词性四种类型的特征向量共同来描述网页的体裁特征。 (3) 对网页体裁特征项的选取进行了研究和分析，并利用特征项频率、集中度和分散度三者结合的衡量标准对特征项进行自动选取。 (4) 对传统的K-近邻分类算法进行了相似度加权组合的改进，以适用于网页的体裁分类。 (5) 本文提出了网页体裁分类系统的总体设计，采用Java语言实现了整个分类系统，并系统进行了实验测试和结果分析。实验结果表明：开放测试分类的平均精度达到80％以上，达到了预期的目标，证明了网页体裁分类的可行性，为下一步更深入的探索奠定了初步的研究基础，也为未来网页体裁分类的实际应用提供了一定的理论支撑。

著录项

作者
赵文;
展开▼
作者单位

武汉理工大学;

展开▼
授予单位武汉理工大学;
学科计算机应用技术
授予学位硕士
导师姓名唐建雄;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类国际互联网;
关键词
中文网页; 网页分类; 网页体裁; 多维向量空间; 体裁分类; 特征提取;

相似文献

中文文献
外文文献
专利

1. 基于CFS-GA特征选择算法的中文网页自动分类 [J] . 喻春萍 ,黄晓霞 . 上海海事大学学报 . 2012,第001期
2. 基于内容的中文网页自动分类系统 [J] . 孙瑶琴 . 中国校外教育（理论） . 2009,第007期
3. 基于标题的中文新闻网页自动分类 [J] . 钱爱兵 ,江岚 . 现代图书情报技术 . 2008,第010期
4. 基于改进的kNN算法的中文网页自动分类方法研究 [J] . 胡燕 ,吴虎子 ,钟珞 . 武汉大学学报：工学版 . 2007,第4期
5. 基于增量式Bayes的中文网页自动分类技术 [J] . 高洁 ,赵俊荣 . 电脑知识与技术 . 2006,第005期
6. 基于内容的中文网页自动分类系统 [C] . 梁久祯 . 第三届中国Rough集与软计算机学术研讨会 . 2003
7. 基于网页特征的中文网页自动分类问题研究 [A] . 朱珠 . 2009

基于体裁的中文网页自动分类的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅