首页> 中文学位 >基于多特征融合的网页对象自动定位技术研究
【6h】

基于多特征融合的网页对象自动定位技术研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 课题研究背景

1.2 课题研究意义

1.3 课题发展历史

1.4 课题研究现状

1.5 本文研究的主要内容

第二章 网页对象定位特征描述语言

2.1 相关概念

2.2 网页对象的定位特征

2.3 多特征融合的定位方法描述语言

第三章 网页对象定位特征的抽取

3.1 网页对象特征抽取基本流程

3.2 定位目标的选择

3.3 特征抽取

3.4 特征验证

3.5 特征保存

3.6 本章小结

第四章 基于多特征融合的网页对象定位

4.1 基于多特征的网页对象定位方法的初始化

4.2 基于多特征的网页对象定位方法的基本流程

4.3 网页预处理

4.4 网页对象定位

4.5 网页对象特征更新

4.6 本章小结

第五章 实验及验证

5.1 软件介绍

5.2 测试方案

5.3 测试方法

5.4 测试过程

5.5 测试结果及其分析

第六章 总结与展望

6.1 全文总结

6.2 展望

参考文献

攻读硕士期间发表的论文及研究成果

致谢

展开▼

摘要

网页对象定位技术是实现网页信息抽取的一项关键技术。该技术能够自动地、准确地找到网页中有价值的信息所对应的网页对象。在此基础上,进行数据抽取就变得非常容易了。所以,该技术在网络数据挖掘、垂直搜索和搜索引擎等领域都是一个非常基础的关键性技术。
  本文提出了一种基于多特征融合的网页对象定位方法。该方法通过有机融合多种网页对象定位方法,实现了网页对象定位的准确率和定位的稳定性优于单独使用其中的任何一种方法。该方法主要分为两个阶段,分别是网页对象特征抽取阶段和网页对象定位阶段。
  在网页对象定位特征抽取阶段,本文首先定义了网页对象特征描述语言,用来表达各种网页对象定位特征。该语言是开放的,可扩展的,以后还可以增加新的定位特征。然后,本文设计并实现了网页DOM树路径特征的提取方法,并在此基础上,先后提出了基于压缩树的网页对象定位方法和基于参考点的网页对象定位方法。这三种方法分别抽取网页对象的三种不同的辅助定位特征。
  在网页对象定位阶段,本文不仅实现了基于上述三种特征的网页对象的定位方法,还实现了基于上述三种特征的融合的定位方法。
  为了验证该方法的有效性,本文接着进行了测试,测试结果表明,本文提出的基于多特征融合的网页对象定位方法具有更高的准确性和稳定性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号