首页> 中文学位 >基于本体的DeepWeb自动标注研究
【6h】

基于本体的DeepWeb自动标注研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 研究背景

1.2 数据标注研究现状

1.3 论文结构

第2章 研究基础

2.1 Deep Web 的概念

2.2 本体相关知识

2.3 数据标注技术

2.4 几种标注方法的评价

2.5 本章小结

第3章 基于页面视觉信息的数据标注

3.1 进行基于页面视觉的数据标注可行性

3.2 Web页面结构分析

3.3 标注的基本原理

3.4 数据标注的算法

3.5 本章小结

第4章 基于查询接口的数据标注

4.1 查询接口的构成

4.2 Web服务构建系统架构

4.3 DeepWeb查询接口类型及特征

4.4 查询接口注释

4.5 本章小结

第5章 标注信息归类

5.1 结果页面标注信息归类

5.2 基于整合接口的标注信息归类

5.3 本章小结

第6章 用本体归纳标注信息

6.1 本体的结构

6.2 本体词组和标注信息的关系

6.3 区分数据信息和说明信息

6.4 一类标注信息和来自本体词组的相似性

6.5 用本体替换数字类型的标注信息

6.6 用本体词组替换说明类型的标注信息

6.7 运行过程及实现算法

6.8 实验

6.9 本章小结

结论

参考文献

攻读硕士学位期间承担的科研任务与主要成果

致谢

作者简介

展开▼

摘要

随着 Deep Web中数据的增多,深度网络所包含数据的检索变得尤其的重要。事实上大部分信息对传统的搜索引擎是不可见的。为了使搜索引擎对于深度网络的查询效率更高,通过数据标注技术把结果页面中的信息进行标注并提交给搜索引擎以便于后面的检索和抽取。本文的标注方法因为使用到了本体的概念所以对标注信息的一致性有了很大的提高。
  首先,通过网页的视觉特征对页面中的说明信息进行抽取。信息抽取过程是根据数据信息和相应的说明信息的空间关系进行的,如果这两个信息在一条直线上并且在这两个信息之间没有其他的信息,本文的方法就认为这两个信息是匹配的。既这个说明信息是用来说明这个数据的。在完成了抽取的过程之后,用这个说明信息来标注对应的数据信息。但是有些时候一些结果页面中包含的数据量是很少的,如果单独通过结果页面中的信息来标注是不行的。就要借助查询接口的信息来标注结果页面中的数据。在这个过程中为了保证数据的一致性本文使用整合接口中的接口模式来标注相应的数据信息。
  其次,再把上面使用的标注信息进行归类。在归类的过程中主要使用的是数据信息在页面中的表现形式和通过这两个信息邻近信息的相似程度来判断这两个信息的相似程度。把标注信息分类以后,把每类标注信息用一个统一的名字加以说明。这样可以很好的减少标注信息的数据不一致性,提高标注的效率和准确程度。
  最后,再把每类标注信息进行识别,可以分为数据类型的和文本类型的。这样的分类过程可以使标注信息和本体词组的相似度计算更加的方便。再用逐词比较的方式来计算本体词组和标注信息的相似度,并用相应的本体词组替换对应的标注信息来标注数据。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号