首页> 中文会议>2008年中国信息技术与应用学术论坛 >一种基于DOM树的Web信息提取方法

一种基于DOM树的Web信息提取方法

页面导航

摘要
著录项
相似文献
相关主题

摘要

在Web信息提取技术中，有一种方法是基于HTML结构的信息提取。这种方法的关键是识别出HTML页面的组织模式，用某种合适的模型来建模以进行信息提取工作。本文以此为基础利用Document Object Model (DOM)[1]树建立网页的结构模型，给出了一个基于树的算法，使用htrrdparser1工具确定查询返回页面中的有效信息区域并提取出有效数据。开发了一个简单的应用此算法的系统，经试验，此算法针对符合HTML语法规范的页面具有很高的正确率。

著录项

来源
《2008年中国信息技术与应用学术论坛》|2008年|130-131|共2页
会议地点成都
作者
王英奎; 潘无名; 李孝文; 谭钱茂;
展开▼
作者单位

西南信息中心;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类 TP393.09;TP311.13;
关键词
DOM树; htrnlparser; 页面信息提取; Web信息提取; HTML页面;

相似文献

中文文献
外文文献
专利

1. 一种DOM树标签路径和行块密度结合的Web信息抽取方法 [J] . 马晓慧 ,李泓莹 . 智能计算机与应用 . 2017,第004期
2. 一种DOM树标签路径和行块密度结合的Web信息抽取方法 [J] . 马晓慧 ,李泓莹 . 智能计算机与应用 . 2017,第004期
3. 基于视觉特征去噪和DOM树的网页信息提取方法 [J] . 陈壮 ,葛斌 . 山西师范大学学报（自然科学版） . 2021,第004期
4. D-EEM:一种基于DOM树的Deep Web实体抽取机制 [J] . 寇月 ,李冬 ,申德荣 . 计算机研究与发展 . 2010,第005期
5. 一种基于扩展DOM树的Web数据自动抽取方法 [J] . 陈远斌 . 应用科技 . 2009,第008期
6. D-EEM：一种基于DOM树的Deep Web实体抽取机制 [C] . 寇月 ,李冬 ,申德荣 . 2008中国计算机大会 . 2008
7. 基于DOM树节点重要度的WEB主题信息提取研究 [A] . 马金娜 . 2016

一种基于DOM树的Web信息提取方法

摘要

著录项

相似文献

相关主题

期刊订阅