首页> 中文期刊>模式识别与人工智能 >结合主动学习的多记录网页属性抽取方法

结合主动学习的多记录网页属性抽取方法

     

摘要

属性抽取可分为对齐和语义标注两个过程,现有对齐方法中部分含有相同标签不同语义的属性会错分到同一个组,而且为了提高语义标注的精度,通常需要大量的人工标注训练集,为此,文中提出结合主动学习的多记录网页属性抽取方法.针对属性错分问题,引入属性的浅层语义,减少相同标签语义不一致的影响.在语义标注阶段,基于网页的文本、视觉和全局特征,采用基于主动学习的SVM分类方法获得带有语义的结构化数据,同时在主动学习的策略选择方面,通过引入样本整体信息,构建基于不确定性度量的策略,选择语义分类预测不准的样本进行标注.实验表明,在论坛、微博等多个数据集上,相比现有方法,文中方法抽取效果更好.

著录项

  • 来源
    《模式识别与人工智能》|2016年第8期|673-681|共9页
  • 作者单位

    福州大学物理与信息工程学院 福州350116;

    福建江夏学院电子信息科学学院 福州350108;

    福州大学数学与计算机科学学院 福州350116;

    福州大学福建省网络计算与智能信息处理重点实验室 福州350116;

    福州大学数学与计算机科学学院 福州350116;

    福州大学福建省网络计算与智能信息处理重点实验室 福州350116;

    福州大学数学与计算机科学学院 福州350116;

    福州大学福建省网络计算与智能信息处理重点实验室 福州350116;

    福州大学数学与计算机科学学院 福州350116;

    福州大学福建省网络计算与智能信息处理重点实验室 福州350116;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    属性抽取; 语义分类; 主动学习;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号