Deep Web页面结构分析与核心内容提取研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的高速发展和广泛应用，网络提供给用户的资源与日俱增。特别是传统搜索引擎无法搜索到的海量信息资源规模增长显著，称这部分资源为Deep Web。关于Deep Web的研究，是近年来Web数据管理方向的研究热点。
　　在Deep Web数据提取方面，很多工作都是对Deep Web页面数据记录或是数据项的研究，如何深入分析Deep Web整个页面结构的研究以及如何从页面中定位数据记录所在区域还很不充分，但是这两项研究内容对Deep Web语义标注、Deep Web数据提取、Web信息检索和文本处理具有重要意义。因此，本文主要的研究工作聚焦于任意Deep Web页面内容结构的提取和Deep Web查询结果页面核心内容域的提取。主要研究及成果如下：
　　第一：Deep Web页面的标签特征和视觉特征
　　本文通过分析大量的Deep Web页面发现，Deep Web页面具有标签和视觉两方面的特征。从这两个方面入手，提出了一种结合标签信息和视觉信息分析页面的方法，该方法从客观和主观两方面分析了Deep Web页面的特征。采用树型的结构来表述页面的标签信息和视觉信息，分别使用Tag-Tree表示页面的标签信息，使用Visual-AttributeTree表示页面的视觉信息。采用标签特征和视觉特征相结合的方法的准确性优于只依赖于其中一种特征的方法。
　　第二：Deep Web页面内容结构的提取
　　本文采用树型结构来表示页面的内容结构，将这棵树取名为Visual-Block-Tree。树中的根节点代表整个页面，树中的每个块对应着页面中的一个矩形区域，树中的叶子块表示页面中不可再分部分。本文通过噪声过滤和视觉块聚类两个阶段实现页面内容结构的提取。提出了相似性聚类算法TVS算法，实验表明该算法能很好地提取页面的内容结构。
　　第三：Deep Web查询结果页面核心内容域(rich-contentarea)的提取
　　本文使用相似性计算算法-TVS算法计算得到同一Web数据库的查询页面和查询结果页面Visual-Block-Tree中的不同内容块，从这些内容块中提取出rich-contentarea，实验表明了该方法的可行性和有效性。

著录项

作者
唐黎;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机软件与理论
授予学位硕士
导师姓名冯永;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
Deep Web页面; 核心内容提取; 标签特征; 视觉信息;

相似文献

中文文献
外文文献
专利

1. 在线旅游业务中Web页面主体块提取方法研究 [J] . 白鹤 ,赵志强 ,王劲林 . 微计算机信息 . 2010,第015期
2. Web页面表格内容的提取方法研究 [J] . 鲍仕壮 ,徐超 ,谭守标 . 软件导刊 . 2008,第9期
3. Web页面中文文本主题的自动提取研究 [J] . 韩客松 ,王永成 ,滕伟 . 情报学报 . 2001,第002期
4. 艾叶多糖的提取、结构分析与功能的研究进展 [J] . 何柳 ,王云鹏 ,谢卫红 . 食品研究与开发 . 2022,第1期
5. 何首乌多糖的提取分离与结构分析研究进展 [J] . 辜冬琳 ,王莹 ,杨建波 . 中国药事 . 2021,第10期
6. 基于标签密度的Web页面正文内容提取方法 [C] . 胡慧君 ,贾焱 ,刘茂福 . 第七届中文信息处理国际会议 . 2007
7. 木基于链接结构分析的Web页面排序算法 [A] . 张砚明 . 2010

Deep Web页面结构分析与核心内容提取研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅