基于标签的网页信息抽取方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，随着社会的发展，网络已经成为人们生活中不可缺少的一部分。电子商务领域的发展尤为突出，网购成为一种非常普遍的社会现象。但是，当前购物网站大部分都是基于用户请求动态生成的网页，展示在页面上的数据很难被直接利用。基于标签的网页信息抽取方法，能较好地对这些动态页面进行信息抽取。介绍了信息抽取技术的概念，阐述了网页信息抽取面临的主要问题，结合当前的一些主流抽取方法，对比分析了它们的优缺点。针对当前已有方法对数据区域的定位不够准确或者需要人工标记数据区域的问题，提出了一种根节点权值判断法，充分利用页面的特点并结合两种启发式的规则来定位数据区域，自动化程度高，并且解决了多数据区域给定位带来的影响。针对树编辑距离忽略了不同节点对树结构影响程度不同的问题，提出基于标签的网页信息抽取算法，利用标签信息，赋予各个节点权重，通过高层次节点权值来衡量子树之间的相似度，有效利用了列表式网页的特点，避免了大量对子树之间相似度的计算。针对部分属性信息可能缺失的问题，提出了模板比对方法，引入序列比对的概念，用多序列迭代比对的方法生成模板记录，以它为标准与所有的数据记录进行比对，能够补充可能缺失的属性信息。为了验证以上提出的方法，设计并实现了一个基于标签的网页信息抽取系统。实验表明，本文的方法自动化程度高，能有效降低噪声信息带来的影响，具有较高的查全率和查准率。

著录项

作者
鲁雷;
展开▼
作者单位

中国石油大学(华东);

展开▼
授予单位中国石油大学(华东);
学科计算机技术
授予学位硕士
导师姓名李村合,王敬明;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;
关键词
标签; 网页信息抽取;

相似文献

中文文献
外文文献
专利

1. 基于文本标签属性的网页信息抽取方法研究 [J] . 沈娜 . 武汉职业技术学院学报 . 2016,第001期
2. 基于DIV标签树的网页主题信息抽取方法 [J] . 欧阳柳波 ,杨柱 ,易显 . 计算机系统应用 . 2010,第007期
3. 基于卷积神经网络的网页信息资源定向抽取方法研究 [J] . 周沭玲 . 齐齐哈尔大学学报（自然科学版） . 2021,第004期
4. 基于视觉特征的网页信息抽取方法研究 [J] . 王宪发 ,郭岩 ,刘悦 . 中文信息学报 . 2019,第005期
5. 一种基于网页信息抽取的OA期刊资源采集方法研究 [J] . 黄政 ,张学福 . 数字图书馆论坛 . 2017,第005期
6. 基于统计的中文网页正文信息抽取方法研究 [C] . 李芳芳 ,葛斌 . 第三届全国社会计算会议、平行控制会议、平行管理会议 . 2011
7. 基于标签路径特征的网页正文自适应抽取方法研究 [A] . 胡骏 . 2016

基于标签的网页信息抽取方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅