垂直搜索引擎中的网页对象抽取模型及实现技术研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

随着因特网技术的快速发展，网上信息呈几何级数增长，由于网络信息载体的异构性和多变性，如何检索和处理这些海量信息成为目前重要的研究课题。Web信息抽取是指从半结构化的网页中抽取指定的信息，将其形成结构化的数据填入数据库中供用户查询使用的过程。Web信息抽取是提高信息检索尤其是垂直领域信息检索性能的重要手段之一，本文研究垂直搜索引擎中的Web信息抽取技术。本文首先总结了Web信息抽取的主要技术，从Web信息抽取系统的构成入手，分析了模板检测、模板生成和数据抽取三个主要过程涉及到的关键问题及传统解决方式。针对垂直搜索引擎应用背景下传统信息抽取技术的局限性，提出了相应的改进方法。对于模板检测，本文在传统的DOM树编辑距离算法的基础上，根据节点的对布局的影响程度赋予其不同的权值，提出一种新的网页结构相似性计算算法，实验结果分析表明，采用新的算法对动态模板网页进行聚类的效果比传统算法有明显改进。对于模板生成和数据抽取，本文提出了基于聚类的模板混合生成算法，该算法结合网页聚类过程中样本网页之间结构相似性比较和模板生成过程中样本网页与模板的结构相似性比较，改进了模板的生成方式。对于数据抽取，本文在定义网页对象概念的基础上研究了对象抽取过程中网页与网页抽取模板的匹配问题，提出了基于结构树调整的模板匹配算法。实验结果表明，新的模板生成和数据抽取算法在保证一定召回率的同时，可以取得令人满意的抽取准确率，同时减少了计算时间和人力成本，从而使得其更符合商业搜索引擎的应用需求。最后，本文讨论了针对商业搜索引擎的技术优化策略，主要包括基于URL模式分析和网页信息质量分析的网页搜集路径优化和抽取模板匹配优化。此外，本文还研究了商业垂直搜索引擎应用背景下Web信息抽取系统的系统设计和实现，采用基于.Net平台的Silverlight技术成功地将提出的算法和设计应用于一个自主开发的垂直搜索引擎系统-智叟博客搜索引擎(GeeSeek)，实际应用表明，该系统可以有效地改善用户搜索体验。 Web信息抽取的发展十分迅速，目前Web信息抽取研究的信息来源基本为已经构造的网页，而互联网上大部分的数据仍以数据库的方式存在于各分散的服务器上，如何对这些信息进行抽取，将是我们下一步需要进行研究的工作。

著录项

作者
王实;
展开▼
作者单位

湖南大学;

展开▼
授予单位湖南大学;
学科软件工程
授予学位硕士
导师姓名林亚平;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
Web信息抽取; 垂直搜索引擎; 模板检测; 模板生成; DOM树;

相似文献

中文文献
外文文献
专利

1. 基于树模型算法的动态网页信息抽取研究和实现 [J] . 邵辉 ,李芳 . 计算机应用与软件 . 2007,第010期
2. 基于改进的隐马尔可夫模型在网页信息抽取中的研究与应用 [J] . 双哲 ,孙蕾 . 计算机应用与软件 . 2017,第002期
3. 基于主题描述模型的相关性判断在网页信息抽取中的应用 [J] . 谭胜 ,马静 ,吴一占 . 情报学报 . 2011,第002期
4. HLA中基于COM的对象模型实现和重用技术研究 [J] . 陈钢 ,王元元 . 系统仿真学报 . 2003,第7期
5. 持久对象框架中基于多级访问模式的对象预取技术研究与实现 [J] . 安静斌 ,贾焰 ,王志英 . 计算机科学 . 2007,第006期
6. 基于树模型算法的动态网页信息抽取研究 [C] . 邵辉 ,李芳 . 第二届全国信息检索与内容安全学术会议 . 2005
7. 垂直搜索引擎中Web信息抽取技术研究 [A] . 胡国晴 . 2008

垂直搜索引擎中的网页对象抽取模型及实现技术研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅