基于视觉块识别的网页元数据提取方法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网知识数据的爆炸式增长以及内容呈现形式的多样化，特别是智能内容识别、提取和分析等数据处理方面的要求使得网页元数据采集和处理变得异常复杂。传统的信息采集服务需要人工分析页面的DOM树结构，并不能直接抽取到具有特定要求的网页元数据，无法满足人们对特定数据的需求。因此，如何自动识别并准确定位需要采集网页元数据的位置变得尤为重要。
　　本文针对视频网页信息采集提出一种基于视觉块识别的网页元数据提取方法，以解决自动识别定位并提取网页元数据的问题。论文的主要工作如下:
　　(1)对网页信息提取技术及视觉特征进行分析。通过研究基于DOM树、视觉特征、文本特征三种网页信息提取技术，对比总结这三种技术的优缺点，结合本课题需要提取的视频网页信息的特点以及网络爬虫技术，总结用户的视觉规律设计了一种基于视觉特征的网页元数据提取方法。
　　(2)页面视觉块划分。由于当前主流的网页设计均采用DIV+CSS布局代替传统以标签进行布局，造成VIPS算法对当前网页分块效果不理想。本课题基于视觉DOM树结构和DIV+CSS网页设计风格，通过定义视觉块提取规则和对不同DOM节点采用的规则组合，采用改进的VIPS算法将网页信息划分为多个具有明确语义的视觉块，并且对应页面上不同的视觉区域。
　　(3)视觉块分类和基于路径表达式的网页元数据提取。基于支持向量机分类算法和SVM Light，本课题针对视频网页元数据的特征制定特定的特征值提取规则，将视觉块划分为有效视觉块（即网页元数据）和无效视觉块，实现数据的准确识别。最后利用路径表达式从有效视觉块中提取网页元数据。
　　(4)系统实现以及实验验证。本文设计的原型系统分为三个模块，系统框架首先基于视觉块的页面分块，然后进行视觉块分类，最后提取网页元数据，并存储到数据库。基于主流的视频门户网站，分别对视觉块划分、视觉块分类及网页元数据提取进行功能测试，通过所提取数据的提取准确率和提取完整率来检测本文提出的基于视觉块识别的网页元数据提取方法的性能。

著录项

作者

展开▼
作者单位

展开▼
授予单位
学科
授予学位
导师姓名
年度 -1
页码
总页数
原文格式 PDF
正文语种
中图分类
关键词

相似文献

中文文献
外文文献
专利

1. 基于视觉特征去噪和DOM树的网页信息提取方法 [J] . 陈壮 ,葛斌 . 山西师范大学学报（自然科学版） . 2021,第004期
2. 基于视觉特征的网页正文提取方法研究 [J] . 安增文 ,徐杰锋 . 微型机与应用 . 2010,第003期
3. 一种基于MASM的口形轮廓特征提取方法及听视觉语音识别 [J] . 谢磊 ,冯伟 ,赵荣椿 . 西北工业大学学报 . 2004,第005期
4. 唇语识别的视觉特征提取方法综述 [J] . 马金林 ,巩元文 ,马自萍 . 计算机科学与探索 . 2021,第012期
5. 农田视觉导航基准线的识别与提取方法研究 [J] . 乔智利 ,崔彦平 ,邹新光 . 农机化研究 . 2016,第007期
6. 基于卡方统计量的藏文新闻网页关键词提取方法 [C] . Yu Hongzhi ,于洪志 ,Xu Tao . 第14届中国少数民族语言文字信息处理学术研讨会 . 2013
7. 基于视觉语义块的网页正文提取算法研究 [A] . 胡波 . 2013

代理获取

客服邮箱：kefu@zhangqiaokeyan.com

客服微信
服务号

基于视觉块识别的网页元数据提取方法

目录

摘要

著录项

相似文献

相关主题

期刊订阅