首页> 中文期刊>安徽工程大学学报 >一种基于领域本体的Deep Web实体信息提取的后处理方法

一种基于领域本体的Deep Web实体信息提取的后处理方法

     

摘要

目前大多数的Deep Web信息抽取方法依赖Web页面结构,忽略了页面中包含的语义信息及关系,导致抽取结果不理想.针对此问题,提出一种基于领域本体的Deep Web实体信息后处理方法.首先,根据DOM树节点相似性原理和VSM(Vector Space Model)的余弦值方法确定数据区域和实体区域;然后,依据数据区域和实体区域的概念和实例构建领域本体,在领域本体的指导下对实体进行语义标注,将量化的标注结果添加到实体与本体的相似度计算中;最后,提出基于领域本体的实体信息抽取算法,获得实体中与本体相似度最大的子树.选取天气、图书、购物网站数据进行测试,实验结果表明,与已有方法相比,所提方法的F值提高了3.6%~4.9%.该方法不仅能减少抽取信息时对Web页面结构的依赖,而且能充分利用页面中的语义信息和关系,使得抽取结果更精确.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号