首页> 中文学位 >一种面向盲人的门户网站导航结构提取方法的研究与实现
【6h】

一种面向盲人的门户网站导航结构提取方法的研究与实现

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第1章 绪论

1.1课题背景及意义

1.2本文主要工作

1.3本文结构

1.4本章小结

第2章 理论基础与相关工作

2.1 Web信息抽取

2.1.1 Web信息抽取的发展

2.1.2 Web信息抽取的主要方法

2.1.3 Web信息抽取效果的评估

2.1.4 Web模板抽取的方法与应用

2.2分类器技术

2.2.1朴素贝叶斯分类器

2.2.2支持向量机

2.2.3决策树归纳

2.3其他相关理论与技术

2.3.1分词技术

2.3.2词干提取

2.4本章小结

第3章 候选导航链接提取

3.1问题描述

3.2总体流程

3.3数据结构

3.3.1 DOM树

3.3.2重叠树

3.3.3分层的重叠树

3.4算法设计

3.4.1重叠树的生成

3.4.2分层的重叠树的生成

3.4.3重叠树中模板的提取

3.4.4模板中候选链接的提取

3.5本章小结

第4章 导航页面与导航链接的识别

4.1问题描述

4.2导航页面的识别

4.2.1导航页面概念

4.2.2导航页面分类的必要性

4.2.3导航网页特征

4.3面向盲人的导航链接分类

4.3.1链接分类的处理流程

4.3.2导航链接的特征

4.4页面与链接的分类算法

4.5本章小结

第5章 系统设计与效果评估

5.1系统设计与实现

5.1.1系统架构

5.1.2运行环境

5.2实验与结果评估

5.2.1基于重叠树的模板抽取效果评估

5.2.2导航型页面识别效果评估

5.2.3导航链接识别效果评估

5.2.4候选链接提取效果评估

5.3本章小结

第6章 总结与展望

6.1本文工作总结

6.2未来工作展望

参考文献

攻读硕士学位期间主要的研究成果

致谢

展开▼

摘要

在信息爆炸的时代,门户网站作为互联网信息的主要载体,它们的资讯也日益丰富。当前主流的门户网站频道与栏目众多,层次关系复杂,对于盲人用户而言,理解这些页面的内容是一个巨大的挑战。
   当前主流门户网站中,大多数网页含有起导航作用的链接,即导航链接。把这些导航链接提取出来并重构成代表当前站点内容结构关系的树状导航结构,能辅助盲人用户浏览网站,这是本文工作的出发点。
   现有的门户网站中,一部分页面的导航链接数量较多,例如某频道的首页,该类页面起着导航的作用,可称为导航页面。该类页面有一个很明显的特征,即导航链接的位置与内容长期不变,而其他部分的内容变化则相对频繁。也就是说,这些导航链接存在于该页面不同时期版本的模板内容之中。
   基于以上观察,本文提出一种基于网页模板检测与提取的算法,用于提取网页中的候选导航链接。由于当前页面的各时刻快照模板中往往包含上级层次的导航链接,而它们一般不能作为当前层次的导航链接,本文提出分层提取的策略,以减少上级层次模板里的导航链接对本层导航链接提取的影响。此外,本文通过机器学习分类的方法识别出导航页面以及候选链接中的导航链接,以完成整体的流程。
   算法分析与实验结果表明,分层的提取策略能显著提高导航链接抽取的准确率。结合分类器技术以识别导航链接和导航页面,导航结构提取的效果良好。

著录项

  • 作者

    林立;

  • 作者单位

    浙江大学;

    浙江大学计算机科学与技术学院;

  • 授予单位 浙江大学;浙江大学计算机科学与技术学院;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 卜佳俊,王灿;
  • 年度 2010
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.09;TP311.13;
  • 关键词

    门户网站; 数据抽取; 导航链接; 网页模板检测; 分类器;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号