首页> 中国专利> 一种半结构化Web信息抽取技术的方法

一种半结构化Web信息抽取技术的方法

摘要

一种半结构化Web信息抽取技术的方法提出了抽取规则执行算法,该算法首先获取抽取规则指定的Web页面,并且利用HTMLTidy将其转换为格式良好的XML文档,然后利用XMLParser将该xML文档转化为DOM树,根据XPath表达式获取感兴趣数据,并将其映射到目的模式,这一过程的执行是根据己定义的映射规则来完成的;研究了ETL脚本语言的实现技术,完成了ETL的核心执行模块,即抽取器和转换器,这两个模块接收ETL脚本,对脚本进行解析、执行,完成脚本定义的抽取转换任务。论文工作实现了Web信息抽取技术和ETL技术的集成,利用E]rL的抽取转换功能,使得从Web上抽取的信息更加符合用户需求,为充分利爿jWeb上的海量数据提供了一种有价值的工具。

著录项

  • 公开/公告号CN105574016A

    专利类型发明专利

  • 公开/公告日2016-05-11

    原文格式PDF

  • 申请/专利权人 镇江鼎拓科技信息有限公司;

    申请/专利号CN201410540602.6

  • 发明设计人 不公告发明人;

    申请日2014-10-14

  • 分类号G06F17/30(20060101);

  • 代理机构

  • 代理人

  • 地址 212009 江苏省镇江市镇江新区智慧大道689号亚太国际1516室

  • 入库时间 2023-12-18 15:12:16

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-05-04

    发明专利申请公布后的视为撤回 IPC(主分类):G06F17/30 申请公布日:20160511 申请日:20141014

    发明专利申请公布后的视为撤回

  • 2016-05-11

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号