基于本体的DeepWeb自动标注研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

随着 Deep Web中数据的增多，深度网络所包含数据的检索变得尤其的重要。事实上大部分信息对传统的搜索引擎是不可见的。为了使搜索引擎对于深度网络的查询效率更高，通过数据标注技术把结果页面中的信息进行标注并提交给搜索引擎以便于后面的检索和抽取。本文的标注方法因为使用到了本体的概念所以对标注信息的一致性有了很大的提高。
　　首先，通过网页的视觉特征对页面中的说明信息进行抽取。信息抽取过程是根据数据信息和相应的说明信息的空间关系进行的，如果这两个信息在一条直线上并且在这两个信息之间没有其他的信息，本文的方法就认为这两个信息是匹配的。既这个说明信息是用来说明这个数据的。在完成了抽取的过程之后，用这个说明信息来标注对应的数据信息。但是有些时候一些结果页面中包含的数据量是很少的，如果单独通过结果页面中的信息来标注是不行的。就要借助查询接口的信息来标注结果页面中的数据。在这个过程中为了保证数据的一致性本文使用整合接口中的接口模式来标注相应的数据信息。
　　其次，再把上面使用的标注信息进行归类。在归类的过程中主要使用的是数据信息在页面中的表现形式和通过这两个信息邻近信息的相似程度来判断这两个信息的相似程度。把标注信息分类以后，把每类标注信息用一个统一的名字加以说明。这样可以很好的减少标注信息的数据不一致性，提高标注的效率和准确程度。
　　最后，再把每类标注信息进行识别，可以分为数据类型的和文本类型的。这样的分类过程可以使标注信息和本体词组的相似度计算更加的方便。再用逐词比较的方式来计算本体词组和标注信息的相似度，并用相应的本体词组替换对应的标注信息来标注数据。

著录项

作者
李帅;
展开▼
作者单位

燕山大学;

展开▼
授予单位燕山大学;
学科计算机软件与理论
授予学位硕士
导师姓名张玉连;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;
关键词
深网; 搜索引擎; 自动标注; 信息抽取; 视觉特征;

相似文献

中文文献
外文文献
专利

1. 基于本体和自动标注的网络邮票图像语义检索研究——以南京邮电大学数字邮票库为例 [J] . 张志武 . 情报探索 . 2013,第010期
2. 基于本体的图像自动标注 [J] . 李丽莎 ,夏利民 ,王正武 . 微计算机信息 . 2012,第004期
3. 一种基于领域本体的Deep Web数据自动标注方法 [J] . 杨舟 ,岳亮 ,卓林 . 苏州大学学报（工科版） . 2011,第004期
4. 基于本体的Deep Web查询结果自动标注 [J] . 张素智 ,李丽娜 ,刘中锋 . 郑州轻工业学院学报（自然科学版） . 2009,第006期
5. 基于用户模式DeepWeb检索系统的研究 [J] . 李益民 ,魏立新 ,解成俊 . 计算机工程与设计 . 2009,第003期
6. 基于分布式结构的DeepWeb结构化数据抽取系统 [C] . 韩子扬 ,李贵 ,李征宇 . 第九届沈阳科学学术年会 . 2012
7. 基于本体的DeepWeb数据集成方法研究 [A] . 李道申 . 2012

基于本体的DeepWeb自动标注研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅