基于HTML结构特征的网页信息提取

胡瑜; 王立志

首页> 中文期刊> 《辽宁石油化工大学学报》 >基于HTML结构特征的网页信息提取

基于HTML结构特征的网页信息提取

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Web上的信息很多存储在HTML 页面上,传统的网页数据抽取方法是使用包装器(Wrapper)来抽取网页中感兴趣的数据.包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作.避开了使用Wrapper,针对新闻类网页的结构特点,从视觉角度对网页页面空间的构成进行了噪声与信息实体的划分与判断.讨论了一种根据新闻类网页层次结构和各层节点统计信息进行新闻主体提取的方法.改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,并对其节点添加了统计信息,利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向降噪抽取新闻类网页得到结构化数据的方法.实验结果表明,用这种方法进行新闻类网页主体信息提取的有效性.

著录项

来源
《辽宁石油化工大学学报》 |2009年第3期|65-69|共5页
作者
胡瑜; 王立志;
展开▼
作者单位

天津大学计算机科学与技术学院,天津,300072;

天津大学管理学院,天津,300072;

展开▼
原文格式 PDF
正文语种 chi
中图分类理论、方法;
关键词
信息提取; DOM; LA-DOM; HTML解析; 噪声标记;

相似文献

中文文献
外文文献
专利

1. 基于Heritrix和HTMLParser的网页商品信息提取的研究 [J] . 刘文浩 ,谢韬 ,吴进 . 计算机光盘软件与应用 . 2012,第008期
2. 基于HTML Parser的网页信息提取技术研究 [J] . 珠杰 ,罗潘 . 西藏大学学报（自然科学版） . 2010,第001期
3. 基于HTML Parser的网页信息提取技术研究 [J] . 珠杰 ,罗潘 . 西藏大学学报 . 2010,第003期
4. 基于HtmlParser的网页信息提取 [J] . 李伟 ,黄颖 . 兵工自动化 . 2007,第007期
5. 一种通用HTML网页主题信息提取方法 [J] . 许文 ,都云程 ,李渝勤 . 现代图书情报技术 . 2007,第001期
6. 基于HtmlParser网页解析技术的信息提取实践 [C] . 刘小野 . 第二届中国石油石化产业“互联网+”应用发展大会 . 2016
7. 基于HTML网页的Web信息提取研究 [A] . 袁宇丽 . 2005

基于HTML结构特征的网页信息提取

摘要

著录项

相似文献

相关主题

期刊订阅