特定领域的Deep Web数据抽取与语义标注研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着Internet技术的飞速发展，隐藏在Web后台数据库中的信息资源因为其数据量大、结构完整受到了广泛关注，这些信息资源通常是由用户在Web查询页面提交查询请求后，以HTML页面为中介展示给用户的。学者们通常将这些信息资源称之为Deep Web资源。为了最大程度的利用这些Deep Web资源，需要通过各种技术手段将网页中的无结构或者半结构化信息抽取出来。同时为了使抽取到的信息具有更高的使用价值，应该对这些数据进行语义标注，使其能够被机器所理解。
　　本文对特定领域的Deep Web的数据抽取与语义标注进行了研究，将节点的类型信息引入到数据记录的抽取中来，并基于本体实现了语义标注，最后结合自身参与的项目设计了一个原型系统。本文的研究工作主要包括以下几点：
　　 1)简要概述了信息抽取的发展历史、评价标准和所涉及的相关技术，并对现有的信息抽取方法进行了深入的分析。
　　 2)结合Deep Web结果页面自身的特点，利用页面布局的视觉特征和内容特征，提出了一种利用标签过滤器、视觉特征过滤器、内容规则过滤器的页面净化方法。实验结果表明，该方法可以有效提高后续数据抽取的效率与精度。
　　 3)提出一种基于节点类型的数据记录抽取方法，该方法首先将HTML标签节点分为块、样式、文本、图片四种类型，并对每一种类型赋予一个权值，其次根据不同的节点类型来计算结果页面数据记录中各属性节点的熵值，最后通过此熵值来确定代表数据记录的节点，实现数据记录节点的抽取。与其他方法相比，该方法具有更高的效率。
　　 4)将领域本体作为Web数据库所遵循的全局模式，通过核密度、K-L距离等方法来实现本体与模式间的映射，从而实现数据的语义标注功能。实验结果表明该方法具有一定的优越性。
　　 5)在上述研究的基础上设计了一个面向生物医药领域的信息集成平台。

著录项

作者
杨舟;
展开▼
作者单位

苏州大学;

展开▼
授予单位苏州大学;
学科计算机应用技术
授予学位硕士
导师姓名崔志明;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类国际互联网;
关键词
Deep Web资源; 信息抽取; 语义标注;

相似文献

中文文献
外文文献
专利

1. 基于语义支持的Deep Web数据抽取 [J] . 高明 ,王继成 ,李江峰 . 计算机科学 . 2010,第003期
2. 基于CPN网络的Deep Web数据语义标注 [J] . 马安香 ,高克宁 ,张晓红 . 东北大学学报（自然科学版） . 2009,第006期
3. 领域知识在Deep Web数据抽取中的应用 [J] . 徐文志 ,穆斌 . 软件导刊 . 2008,第10期
4. 一种基于领域本体的Deep Web数据自动标注方法 [J] . 杨舟 ,岳亮 ,卓林 . 苏州大学学报（工科版） . 2011,第004期
5. 基于领域知识和决策树的Deep Web数据标注 [J] . 常勇 ,王亮 ,姚增利 . 广西师范大学学报（自然科学版） . 2009,第001期
6. 基于混合属性的Deep Web数据抽取算法 [C] . SHANG Xia ,尚霞 ,LI Gui . 中国计算机用户协会网络应用分会2017年第二十一届网络新技术与应用年会 . -1
7. Deep Web数据集成系统中数据抽取与语义标注研究 [A] . 高亚 . 2010

特定领域的Deep Web数据抽取与语义标注研究

摘要

著录项

相似文献

相关主题

期刊订阅