一种基于页面赋权的网页内容提取方法

余杨奎; 王旅; 李婉茹; 程振林; 刘洁

首页> 中文期刊>通化师范学院学报 >一种基于页面赋权的网页内容提取方法

一种基于页面赋权的网页内容提取方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

提出一种基于页面赋权的网页内容提取方法,准确地提取WEB内容存储到数据库中.提取方法分为两部分,一是带权的前置搜索算法,将正则表达式与广度优先搜索策略进行结合,建立针对网页页面URL与链接的规则筛选工具;二是利用基于模板的网页内容提取思想,设计网页内容路径提取模板算法,通过设定预获取样本集,识别出目标网页内容页面,并从这些URL集合中选择出基准页面URL,将该基准页面URL中的内容信息作为提取的目标信息,提取节点路径,并构建路径模板,完成网页内容提取.传统算法构建的爬虫系统提取内容精确度是81.3％,该算法达到86.9％.算法提取过程中借助正则表达式筛选环节过滤掉一部分无关目标的WEB页面内容,精确度高于传统系统.

著录项

来源
《通化师范学院学报》|2021年第10期|20-28|共9页
作者
余杨奎; 王旅; 李婉茹; 程振林; 刘洁;
展开▼
作者单位

广东开放大学湛江分校;

广东开放大学湛江分校广东湛江524003;

广东开放大学湛江分校广东湛江524003;

广东开放大学湛江分校广东湛江524003;

长春中医药大学医药信息学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计;
关键词
WEB页面; 模板技术; 页面赋权; 正则表达式;
入库时间 2022-08-20 08:26:27

相似文献

中文文献
外文文献
专利

1. 一种基于统计的复杂页面正文提取方法 [J] . 秦成磊 ,魏晓 ,杨阳 . 计算机应用与软件 . 2015,第007期
2. 一种基于页面Block的Web信息提取方法 [J] . 蒙韧 ,邵延振 ,袁鼎荣 . 计算机技术与发展 . 2010,第001期
3. 基于文本对象模型的自动化网页内容提取方法 [J] . 李桐宇 ,任锐 ,蔡鸿明 . 上海交通大学学报 . 2018,第10期
4. 一种垂直页面分割与信息提取方法的研究 [J] . 李军 ,陈君 ,王玲芳 . 计算机应用研究 . 2013,第003期
5. 网络与政治赋权:一项基于网络赋权的分类研究 [J] . 何煜雪 . 东南传播 . 2018,第10期
6. 基于赋权链接和相似矩阵的Web页面聚类 [C] . 吴萍 ,兰州理工大学 ,宋瀚涛 . 第十四届中国计算机学会网络与数据通信学术会议 . 2004
7. 基于页面分块的网页内容提取的研究与实现 [A] . 苗苗 . 2010

一种基于页面赋权的网页内容提取方法

摘要

著录项

相似文献

相关主题

期刊订阅