首页> 中文期刊> 《辽宁石油化工大学学报》 >基于HTML结构特征的网页信息提取

基于HTML结构特征的网页信息提取

         

摘要

Web上的信息很多存储在HTML 页面上,传统的网页数据抽取方法是使用包装器(Wrapper)来抽取网页中感兴趣的数据.包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作.避开了使用Wrapper,针对新闻类网页的结构特点,从视觉角度对网页页面空间的构成进行了噪声与信息实体的划分与判断.讨论了一种根据新闻类网页层次结构和各层节点统计信息进行新闻主体提取的方法.改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,并对其节点添加了统计信息,利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向降噪抽取新闻类网页得到结构化数据的方法.实验结果表明,用这种方法进行新闻类网页主体信息提取的有效性.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号