首页> 中文会议>第二届中国石油石化产业“互联网+”应用发展大会 >基于HtmlParser网页解析技术的信息提取实践

基于HtmlParser网页解析技术的信息提取实践

摘要

HtmlParser是一个对现有的HTML进行分析的快速实时的解析器,基于该技术对网页进行解析,可抽取标签间的link、image和title等信息,具有提取速度快,出错率低等优点.本文系统地介绍了HtmlParser技术在《基于百度搜索引擎的舆情信息搜索系统》中的应用,本系统通过解析网页源码,实现了大庆吧、大庆油田吧及天涯论坛等16个网站的信息收集,达到了自动搜取舆情信息、减轻工作量的目的,同时也避免了人工收集信息易出现遗漏的问题.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号