首页> 中文学位 >基于视觉块识别的网页元数据提取方法
【6h】

基于视觉块识别的网页元数据提取方法

代理获取

目录

声明

摘要

缩略语清单

第1章 绪论

1.1 课题研究背景与意义

1.2 国内外研究现状

1.2.1 网络爬虫技术

1.2.2 网页信息提取技术

1.2.3 分类模型

1.3 本文主要研究工作

1.4 论文组织结构

第2章 基于视觉特征及DOM树的页面分块

2.1 基于视觉特征的页面分块算法概述

2.2 VIPS算法分块过程

2.2.1 视觉块提取

2.2.2 分隔条检测

2.2.3 内容结构重构

2.3 VIPS算法改进

2.4 算法改进前后页面分块结果对比

2.5 本章小结

第3章 分类模型设计与有效块识别

3.1 分类模型的选择

3.2 核函数选择

3.3 特征选择

3.3.1 视觉表现特征

3.3.2 统计特征

3.3.3 标题现频特征

3.4 特征值规范

3.4.1 根据自身特征进行规范

3.4.2 极值标准化

3.5 训练分类模型

3.5.1 参数选择与寻优

3.5.2 模型训练

3.6 本章小结

第4章 基于路径表达式的网页元数据提取

4.1 XPath表达式

4.2 XPath求值

4.3 路径表达式提取网页元数据

4.3.1 优酷视频路径表达式

4.3.2 爱奇艺视频路径表达式

4.3.3 乐视视频路径表达式

4.4 本章小结

第5章 系统实现与实验分析

5.1 系统实现

5.1.1 实现环境

5.1.2 实验数据

5.1.3 系统设计

5.1.4 系统可视化

5.2 页面分块的实现

5.2.1 优酷视频网页分块

5.2.2 乐视视频网页分块

5.2.3 爱奇艺视频网页分块

5.3 有效块识别

5.3.1 优酷视频网页有效块识别

5.4.2 乐视视频网页有效块识别

5.4.3 爱奇艺视频网页有效块识别

5.4 提取网页元数据

5.5 实验评估

5.6 本章小结

第6章 总结与展望

6.1 论文总结

6.2 工作展望

致谢

参考文献

展开▼

摘要

随着互联网知识数据的爆炸式增长以及内容呈现形式的多样化,特别是智能内容识别、提取和分析等数据处理方面的要求使得网页元数据采集和处理变得异常复杂。传统的信息采集服务需要人工分析页面的DOM树结构,并不能直接抽取到具有特定要求的网页元数据,无法满足人们对特定数据的需求。因此,如何自动识别并准确定位需要采集网页元数据的位置变得尤为重要。
  本文针对视频网页信息采集提出一种基于视觉块识别的网页元数据提取方法,以解决自动识别定位并提取网页元数据的问题。论文的主要工作如下:
  (1)对网页信息提取技术及视觉特征进行分析。通过研究基于DOM树、视觉特征、文本特征三种网页信息提取技术,对比总结这三种技术的优缺点,结合本课题需要提取的视频网页信息的特点以及网络爬虫技术,总结用户的视觉规律设计了一种基于视觉特征的网页元数据提取方法。
  (2)页面视觉块划分。由于当前主流的网页设计均采用DIV+CSS布局代替传统以标签进行布局,造成VIPS算法对当前网页分块效果不理想。本课题基于视觉DOM树结构和DIV+CSS网页设计风格,通过定义视觉块提取规则和对不同DOM节点采用的规则组合,采用改进的VIPS算法将网页信息划分为多个具有明确语义的视觉块,并且对应页面上不同的视觉区域。
  (3)视觉块分类和基于路径表达式的网页元数据提取。基于支持向量机分类算法和SVM Light,本课题针对视频网页元数据的特征制定特定的特征值提取规则,将视觉块划分为有效视觉块(即网页元数据)和无效视觉块,实现数据的准确识别。最后利用路径表达式从有效视觉块中提取网页元数据。
  (4)系统实现以及实验验证。本文设计的原型系统分为三个模块,系统框架首先基于视觉块的页面分块,然后进行视觉块分类,最后提取网页元数据,并存储到数据库。基于主流的视频门户网站,分别对视觉块划分、视觉块分类及网页元数据提取进行功能测试,通过所提取数据的提取准确率和提取完整率来检测本文提出的基于视觉块识别的网页元数据提取方法的性能。

著录项

  • 作者

  • 作者单位
  • 授予单位
  • 学科
  • 授予学位
  • 导师姓名
  • 年度 -1
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种
  • 中图分类
  • 关键词

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号