首页> 中文学位 >基于本体的Web页面分类挖掘
【6h】

基于本体的Web页面分类挖掘

代理获取

目录

文摘

英文文摘

原创性声明及关于学位论文使用授权说明

第一章绪论

1.1 问题的提出

1.2 问题的解决方案

1.3 本文的工作和组织

第二章基于主题特征词的Web页面分类挖掘

2.1 Web数据挖掘的定义

2.2 Web数据挖掘的分类

2.2.1 Web内容挖掘

2.2.2 Web结构挖掘

2.2.3 Web日志挖掘

2.3 Web文本挖掘

2.3.1文本总结

2.3.2文本分类

2.3.3文本聚类

2.3.4关联规则

2.4 基于主题特征词的Web文本分类挖掘

2.4.1 Web数据预处理

2.4.2文本表示

2.4.3特征提取

2.4.4分类和评估

2.5 一个已有Web页面分类数据挖掘系统

2.5.1系统介绍

2.5.2系统分析

第三章本体

3.1 本体的定义

3.2 本体的作用

3.3本体的种类

3.4 本体的建模语言

3.5本体的描述

3.5.1用RDF(S)元语建立Ontology

3.5.2 RDF(S)元语集合的扩展

第四章基于本体的Web页面分类挖掘

4.1 基于本体的Web页面分类挖掘模型

4.2 应用本体

4.3本体解析

4.3.1一致性映射规则

4.3.2推理映射规则

4.3.3上下文映射规则

4.3.4关系映射规则

4.4 Html页面解析

4.5本体匹配

4.6 相关度向量计算

4.6.1密度算法

4.6.2期望值算法

4.6.3 1max集合算法:

4.7 学习算法

4.8分类过程描述

4.8.1基本分类过程

4.8.2改进后的分类过程

4.9测试评估

第五章研究实验及其说明

5.1 实验描述

5.1.1原型系统

5.1.2实验过程

5.2 验证实验说明和分析

5.2.1实验1

5.2.2实验2

5.2.3实验3

5.3 对比实验说明和分析

5.3.1实验4

5.3.2实验5

第六章结束语

6.1 本文的总结

6.2 进一步的研究方向

参考文献

致谢

攻读学位期间主要的研究成果

展开▼

摘要

Web是一个巨大的、广泛分布的全球化信息仓库,它提供了新闻、财经、广告、商务、文化、教育等多方面的信息服务.如何有效地帮助用户从Web上发现他们感兴趣的资源,已经成为一个迫切需要解决的课题.论文首先介绍了Web挖掘的一些基本概念、方法和技术,阐述了什么是Web挖掘,为什么要进行挖掘.研究了基于主题特征词和统计学知识的Web页面分类挖掘的一般过程和方法.作者针对一个已有的系统进行分析,指出了该方法的局限性——在学习阶段对于训练集依赖性大,导致在训练集不足的情形下分类的精度不高.针对基于主题特征词和统计学知识的Web页面分类挖掘的缺陷提出了基于本体的Web页面分类挖掘模型.该模型利用本体来表述已有知识,在此基础上对解析后的页面采用多种匹配方法进行信息抽取,并结合三个算法来计算页面与本体的相关度,来提高相关度计算的正确性,建立更为有效的分类规则,以力求提高分类的精度.建立了一个基于本体的Web页面分类挖掘原型系统,通过实验表明,这种基于本体的方法确实能够在训练集数量较小的情况下,得到较高的分类精度.同时也与原有的系统进行了对比性实验,确实证明了该方法的在训练集较小的情形下,比基于主题特征词方法的能够有更好的精度.最后对本文的工作进行了总结,并确定了进一步研究方向.

著录项

  • 作者

    马征;

  • 作者单位

    中南大学;

  • 授予单位 中南大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 李建华;
  • 年度 2004
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    Web挖掘; 本体; 分类;

  • 入库时间 2022-08-17 11:20:49

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号