首页> 中文期刊>四川大学学报(工程科学版) >基于伪属性语义匹配的Deep web信息抽取

基于伪属性语义匹配的Deep web信息抽取

     

摘要

已有的Deep Web信息抽取算法主要对结构规范的网页进行模版的提取,目前多数Deep Web网页在结构上是非规范的,网页中记录属性字段可能缺失或重复、原子属性字段可能被html标签分隔.为了正确抽取这些非规范网页,提出了一种新方法:引入了记录的伪属性及其语义匹配概念,通过实现记录间伪属性序列的语义匹配实现信息抽取;提出了伪属性序列的模型及其语义匹配算法和记录Wrapper模型及其生成算法.实验表明,在结构不规范deep web网页的抽取上,能达到91%的查全率和93%的查准率,相对其它算法有一定优势.

著录项

  • 来源
    《四川大学学报(工程科学版)》|2009年第2期|173-178|共6页
  • 作者单位

    四川大学,计算机学院数据库与知识工程研究所,四川,成都,610065;

    成都信息工程学院,软件工程系,四川,成都,610225;

    四川大学,计算机学院数据库与知识工程研究所,四川,成都,610065;

    四川大学,计算机学院数据库与知识工程研究所,四川,成都,610065;

    四川大学,计算机学院数据库与知识工程研究所,四川,成都,610065;

    四川大学,计算机学院数据库与知识工程研究所,四川,成都,610065;

    西南科技大学,计算机学院,四川,绵阳,621010;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    dee pweb; 信息抽取; 伪属性; 语义匹配;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号