首页> 中文学位 >基于DOM树节点重要度的WEB主题信息提取研究
【6h】

基于DOM树节点重要度的WEB主题信息提取研究

代理获取

目录

封面

声明

目录

中文摘要

英文摘要

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 目前研究成果的不足

1.4 研究的主要内容

1.5 文章的组织结构

第2章 WEB信息提取技术综述

2.1 WEB信息提取的发展

2.2 WEB信息提取的分类

2.3 HTML概述

2.4 XML语言

2.5 DOM概述

2.6 WEB信息提取评价指标

2.7 本章小结

第3章 基于DOM树节点重要度的扩展DOM模型

3.1 HTML标签

3.2 扩展DOM树模型

3.3 本章小结

第4章 基于扩展DOM树的WEB主题信息提取方法

4.1 页面预处理

4.2 生成扩展DOM树

4.3 扩展DOM树模型去噪

4.4 主题信息提取

4.5 本章小结

第5章实验分析及系统原型

5.1 实验环境

5.2 重要度阈值分析

5.3 提取效果评价

5.4 系统原型展示

5.5 本章小结

第6 章 总结和展望

6.1 工作总结

6.2 未来工作

参考文献

致谢

攻读硕士学位期间公开发表的论文

展开▼

摘要

随着互联网的迅猛发展,WEB所承载的数据与日俱增,其信息冗余、形式多样、处理困难等问题也越来越突出,因此,WEB信息提取应运而生。又由于WEB页面中包含了大量的与主题无关的信息,影响了用户从中快速定位并获取主题内容。所以,对页面主题信息的提取显得尤为重要,其不但可以节省用户大量的时间和精力,而且提取结果也可以用于数据挖掘等各个方面。WEB信息提取主要针对无结构或者半结构化的WEB页面,且主流大多基于HTML结构。在已有的相关研究中,研究者在关注HTML标签的结构的时候要么忽略了HTML标签的语义信息,要么忽略了标签的语义信息对其包含的文本内容的影响。
  本研究主要内容包括:⑴引入了DOM树节点重要度。由于标签的结构和语义信息具有关联关系,综合考虑二者,将标签分为不同的类别,对应到DOM树中节点的分类,主要包括块节点、行节点、视觉节点、链接节点、文本节点、其他节点。考虑到每类节点对主题信息的影响不同,为不同类型的节点设置相应的影响因子,并定义节点重要度来统一表示DOM树节点对主题信息的影响。⑵提出了扩展DOM树模型。为了防止对DOM树的处理过细,扩展DOM树模型对其进行了简化,只保留可以承载主题信息的块节点。在将非块节点合并到块节点的过程中,同时修改节点重要度,考虑到标签的语义信息对其文本内容的影响,不同类型的节点进行合并时,节点重要度计算方法不同。一旦合并完成后,就可以得到带有节点重要度的扩展DOM树模型。⑶给出了基于扩展DOM树模型的WEB页面主题信息提取方法。包括四个步骤:页面清理、构建扩展DOM树、扩展DOM树去噪、主题信息提取。其中,依据节点重要度,通过设置节点重要度阈值,来对扩展DOM树去噪。最后实现了系统原型并通过实验分析了节点重要度阈值的选取,验证了方法的有效性,证明了该方法具有较好的提取效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号