首页> 中文学位 >语义Web使用挖掘研究
【6h】

语义Web使用挖掘研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 课题背景

1.2 国内外研究概况

1.3 课题主要研究工作

2 语义Web使用挖掘系统的分析与总体设计

2.1 需求分析

2.2 设计目标

2.3 系统总体设计

2.4 小结

3 语义Web使用挖掘关键算法

3.1 语义距离计算方法的改进

3.2 基于语义距离的AprioriAll算法改进

3.3 基于页面内容的语义相似度分析

3.4 小结

4 语义Web使用挖掘系统的实现

4.1 Web日志预处理模块实现

4.2 Web站点本体树构建

4.3语义挖掘模块实现

4.4 小结

5 实验与结果分析

5.1 实验目的及实验环境

5.2 实验结果与分析

5.3 小结

6 总结与展望

6.1 全文总结

6.2 研究展望

致谢

参考文献

展开▼

摘要

随着Web技术的快速发展及广泛应用,Internet上的Web页面数目开始呈指数级的速度增长,如何结合语义知识来挖掘分析用户对Web页面的访问行为成为一个重要的研究方向。这里分别从用户的Web使用日志信息和Web页面内容信息着手,从语义距离计算、语义挖掘算法和结果序列的语义相似度分析这三个方面展开研究。
  在语义距离计算方面,在已有的计算方法的基础上加入页面在日志数据中的出现概率信息,由页面在本体层次树中的深度、分支度和出现概率这三个因素共同决定结点页面的语义权值,进而得到任意两个页面间的语义距离信息。实验表明,改进后的语义权值计算方法得到的结果更加合理和全面。
  在语义挖掘算法方面,结合Mabroukeh提出的使用语义距离来辅助挖掘的理论思想,考虑到日志数据中访问时间的有序性,以吴海燕提出的AprioriAll算法的连接条件为基础,加入改进后计算得到的语义距离信息,即在算法的连接步中除了要满足已有的连接条件外还需要考虑两个连接页面的语义距离,如果大于给定的语义距离值,则不再执行连接操作。实验表明,改进后的算法挖掘得到的频繁语义访问序列具有一定的语义相关性,算法的计算规模和执行时间也得到了一定程度的改善。
  在结果序列的语义相似度分析方面,结合本体和本体映射的相关理论,给出一种新的页面本体的定义形式,以页面前导符的形式按照页面内容词组信息将所有的页面统一组织,通过对比前导符、词组及其他本体因素的相似度来综合得到页面内容的语义相似程度,以此来对挖掘得到的访问序列进行语义相似度的分析。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号