基于页面标签的Web结构化数据抽取

任仲晟; 薛永生

首页> 中文期刊>计算机科学 >基于页面标签的Web结构化数据抽取

基于页面标签的Web结构化数据抽取

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

本文研究了从data intensive类型的Web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法.该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树SimHTree,有效地减少了识别数据记录的时间.在此基础上,提出子串匹配调整算法,对数据记录进行识别,标识数据项.实验表明,该算法是有效的.

著录项

来源
《计算机科学》|2007年第10期|133-136|共4页
作者
任仲晟; 薛永生;
展开▼
作者单位

厦门大学计算机科学系,厦门,361005;

厦门大学计算机科学系,厦门,361005;

展开▼
原文格式 PDF
正文语种 chi
中图分类计算技术、计算机技术;
关键词
Web数据抽取; Web挖掘; 结构化数据; 信息抽取;
入库时间 2023-07-24 19:22:44

相似文献

中文文献
外文文献
专利

1. 基于标签路径的Web结构化数据自动抽取 [J] . 李贵 ,陈成 ,李征宇 . 计算机科学 . 2013,第0z1期
2. 基于预定义模式的Web网页结构化数据抽取 [J] . 王红卫 ,马红 ,张素智 . 郑州轻工业学院学报（自然科学版） . 2008,第006期
3. 基于正则表达式的Web页面信息抽取技术研究 [J] . 罗粮 ,朱儒明 . 现代计算机（专业版） . 2017,第015期
4. ERE:基于半结构化Web页面的实体关系抽取系统 [J] . 余东 ,李诺 ,申德荣 . 计算机与数字工程 . 2014,第009期
5. 基于组合验证的Web页面抽取算法研究 [J] . 耿耘 ,蒋严冰 ,郭岩 . 江西师范大学学报（自然科学版） . 2013,第002期
6. 基于分布式结构的DeepWeb结构化数据抽取系统 [C] . 韩子扬 ,李贵 ,李征宇 . 第九届沈阳科学学术年会 . 2012
7. Web页面结构化数据抽取的研究与实现 [A] . 张琪 . 2012

基于页面标签的Web结构化数据抽取

摘要

著录项

相似文献

相关主题

期刊订阅