首页> 中文学位 >垂直搜索引擎中的网页对象抽取模型及实现技术研究
【6h】

垂直搜索引擎中的网页对象抽取模型及实现技术研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第1章 绪论

1.1 Web信息抽取研究综述

1.1.1研究背景与意义

1.1.2国内外文献综述

1.2垂直搜索引擎原理及信息抽取的应用

1.3本文所做的主要工作

1.4本文组织安排

1.5 小结

第2章 Web信息抽取技术概述

2.1引言

2.2 Web信息抽取评价标准

2.3基于知识工程的方法

2.4基于自动训练的方法

2.4.1基于统计学习的方法

2.4.2基于模式分析的方法

2.4.3基于归纳学习的方法

2.5基于DOM树的Web信息抽取技术

2.6小结

第3章 Web信息抽取系统

3.1引言

3.2 Web信息抽取系统的分类

3.3主要Web信息抽取系统介绍

3.4垂直搜索引擎中信息抽取系统的构成

3.4.1模板检测

3.4.2模板生成

3.4.3数据抽取

3.5小结

第4章 基于页面布局的模板检测研究

4.1引言

4.2基于页面布局的网页聚类算法

4.2.1树编辑距离

4.2.2网页结构相似性计算

4.2.3基于页面布局的网页聚类算法

4.3实验及分析

4.4小结

第5章 模板生成与数据抽取算法研究

5.1引言

5.2模板生成

5.2.1网页模板表示

5.2.2 DOM树到扩展DOM树的转化

5.2.3基于聚类的模板混合生成算法

5.3数据抽取

5.3.1网页对象定义

5.3.2网页对象标注与抽取

5.4实验及分析

5.5小结

第6章 垂直搜索引擎中网页对象抽取系统实现

6.1引言

6.2商业搜索引擎的特殊性

6.3基于商业考虑的系统优化

6.3.1 URL模式分析

6.3.2搜集路径优化

6.3.3实验及分析

6.4系统设计

6.5系统实现

6.5.1数据格式

6.5.2系统界面

6.6小结

结论

参考文献

致谢

附录

展开▼

摘要

随着因特网技术的快速发展,网上信息呈几何级数增长,由于网络信息载体的异构性和多变性,如何检索和处理这些海量信息成为目前重要的研究课题。Web信息抽取是指从半结构化的网页中抽取指定的信息,将其形成结构化的数据填入数据库中供用户查询使用的过程。Web信息抽取是提高信息检索尤其是垂直领域信息检索性能的重要手段之一,本文研究垂直搜索引擎中的Web信息抽取技术。 本文首先总结了Web信息抽取的主要技术,从Web信息抽取系统的构成入手,分析了模板检测、模板生成和数据抽取三个主要过程涉及到的关键问题及传统解决方式。针对垂直搜索引擎应用背景下传统信息抽取技术的局限性,提出了相应的改进方法。 对于模板检测,本文在传统的DOM树编辑距离算法的基础上,根据节点的对布局的影响程度赋予其不同的权值,提出一种新的网页结构相似性计算算法,实验结果分析表明,采用新的算法对动态模板网页进行聚类的效果比传统算法有明显改进。 对于模板生成和数据抽取,本文提出了基于聚类的模板混合生成算法,该算法结合网页聚类过程中样本网页之间结构相似性比较和模板生成过程中样本网页与模板的结构相似性比较,改进了模板的生成方式。对于数据抽取,本文在定义网页对象概念的基础上研究了对象抽取过程中网页与网页抽取模板的匹配问题,提出了基于结构树调整的模板匹配算法。实验结果表明,新的模板生成和数据抽取算法在保证一定召回率的同时,可以取得令人满意的抽取准确率,同时减少了计算时间和人力成本,从而使得其更符合商业搜索引擎的应用需求。 最后,本文讨论了针对商业搜索引擎的技术优化策略,主要包括基于URL模式分析和网页信息质量分析的网页搜集路径优化和抽取模板匹配优化。此外,本文还研究了商业垂直搜索引擎应用背景下Web信息抽取系统的系统设计和实现,采用基于.Net平台的Silverlight技术成功地将提出的算法和设计应用于一个自主开发的垂直搜索引擎系统-智叟博客搜索引擎(GeeSeek),实际应用表明,该系统可以有效地改善用户搜索体验。 Web信息抽取的发展十分迅速,目前Web信息抽取研究的信息来源基本为已经构造的网页,而互联网上大部分的数据仍以数据库的方式存在于各分散的服务器上,如何对这些信息进行抽取,将是我们下一步需要进行研究的工作。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号