首页> 中文学位 >基于本体的自适应Web信息抽取方法研究
【6h】

基于本体的自适应Web信息抽取方法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景

1.2 论文的研究意义

1.3 研究现状与发展

1.3.1 信息抽取与信息获取的比较

1.3.2 信息抽取的主要方法

1.3.3 信息抽取系统的样本预处理

1.3.4 信息抽取系统的评价方法

1.3.5 基于本体的信息抽取

1.3.6 自适应系统

1.4 基于本体的自适应Web信息抽取模型

1.4.1 Web信息抽取模型的自适应性体现

1.4.2 基于本体的自适应Web信息抽取模型

1.5 论文的章节安排

第2章 基于模式匹配的本体构建方法

2.1 本体及相关概念

2.2 本体的构建方法

2.2.1 本体学习方法

2.2.2 本体的评价方法

2.3 基于模式匹配的交互关系本体学习

2.3.1 相关研究工作

2.3.2 关系词典学习

2.3.3 词典的层次关系学习

2.3.4 实体属性填充

2.3.5 实验结果评估

第3章 基于本体的命名实体关系抽取方法

3.1 命名实体关系抽取概述

3.2 核方法

3.2.1 核方法及相关概念

3.2.2 关系抽取中的核方法

3.2.3 开放信息抽取

3.3 基于交互关系本体的蛋白质交互关系抽取方法

3.3.1 相关研究工作

3.3.2 蛋白质交互关系抽取的模型视图

3.3.3 蛋白质交互关系句子分类和关系抽取

3.3.4 实验结果和分析

3.4 本章小结

第4章 面向AJAX的多记录型数据抽取与标注模型

4.1 多记录型网页数据抽取技术概述

4.1.1 相关概念

4.1.2 Deep Web数据

4.1.3 表格化数据标注

4.2 基于农业本体的AJAX数据抽取与标注模型

4.2.1 AJAX技术简介

4.2.2 AJAX数据抽取的相关工作

4.2.3 基于本体的AJAX数据抽取与标注模型视图

4.2.4 AJAX数据抽取与标注算法

4.2.5 实验结果及评估

4.3 本章小结

第5章 基于实体属性分类的单记录型Web实体抽取模型

5.1 相关研究工作

5.2 基于实体属性分类的单记录Web实体抽取方法

5.2.1 页面块分类

5.2.2 候选项分类和实体属性汇聚

5.2.3 实验结果与分析

5.3 本章小结

第6章 基于本体的自适应Web信息抽取平台实现

6.1 基于本体的自适应Web信息抽取平台概述

6.2 基于本体的自适应Web信息抽取平台实现

6 .2.1 领域资源发现系统

6.2.2 基于农业本体的自适应Web信息抽取子系统

6.2.3 命名实体关系抽取原型子系统

6.3 本章小结

第7章 结论与展望

7.1 本文的研究工作总结

7.2 未来的研究工作展望

参考文献

致谢

在读期间发表的学术论文与取得的其他研究成果

展开▼

摘要

互联网的快速发展产生了海量的信息,由于Web页面的多样性和异构性,对这些的信息进行检索和处理受到很大的限制,而Web信息抽取则致力于将这些信息转化成结构化的数据,满足垂直搜索引擎和数据挖掘等相关应用。同时,为了实现语义网的目标,赋予Web意义,需要对Web上的内容进行标注,基于本体的信息抽取可以产生用于语义网的元数据标注信息,将Web信息转化成机器方便处理的数据,即语义网有效的数据。
   在农业领域,互联网上积累了丰富的农业相关信息资源,包括供求信息、价格信息、农业技术、市场动态、农业新闻、农业企业、农业视频等,但缺少一致的语义表达形式,很难充分发挥这些资源的作用。此外,由于农业领域相关用户自身知识结构水平的限制,在获取所需要的信息时更加困难,而农业垂直搜索引擎则可以弥补这方面的不足,实现异构分散数据的集成,通过构建满足用户需求的专业搜索引擎,解决“三农”用户在面对海量农业Web资源时的信息获取瓶颈问题。本文以研究Web环境下基于本体的信息抽取方法为基础,为农业垂直搜索引擎(中国搜农)和农业数据挖掘应用提供有效的数据支持,服务于国家的农业信息化建设为目标,开展了相关的研究。论文的主要工作内容总结如下:
   (1)针对互联网上网页数据的开放性、异构性、演化性等特征,构建了一种基于本体的自适应Web信息抽取模型。模型采用模块化的结构搭建,实现抽取算法与领域本体知识之间的分离,以及模块功能的复用,方便系统功能的动态更新,减少信息抽取系统在跨领域移植时的开销。
   (2)针对传统方法在构建本体时需要大量的人工开销和维护困难等问题,发挥Web资源的作用,提出了一种基于Web的无监督本体构建方法。该方法通过查询Web获取领域本体相关的资源,结合句法分析技术实现本体的学习,可以解决传统方法构建本体时语料库在规模上的限制,自适应Web知识的演化。以提出的方法为基础,构建了蛋白质交互关系本体。
   (3)针对语义网和Linked Data的发展需求,实现网页的元数据标注和挖掘不同数据之间的关系,提出了一种基于本体的命名实体关系抽取方法。通过分析命名实体之间关系表达的语法结构和关系表达词,实现关系的抽取,实验采用生物文献公共语料库对算法进行了检验,抽取蛋白质相互作用关系,并取得了满意的效果。提出的算法对抽取的句子实行单遍遍历,实现适应Web规模的文本关系抽取时的计算效率问题。
   (4)针对AJAX技术的广泛使用,而传统的爬虫无法获取、分析和处理这些内容,我们提出了一种基于领域本体的多记录型AJAX数据抽取模型。该模型可以有效的发现网页中含有的动态AJAX内容,在领域本体的指导下,实现对数据的抽取和语义标注。实验以农产品供求和价格实体数据为例,验证了抽取方法的有效性。
   (5)针对基于包装器或规则的方法在抽取单记录型HTML页面时,无法适应页面结构变化等不足,提出了一种采用统计学习方法实现的基于实体属性分类的单记录型Web页面信息抽取和标注模型。该模型对抽取内容的页面结构特征进行分析,通过构建相应的属性分类器识别页面中含有的实体属性,实现自适应页面结构的变化的实体抽取和标注。
   (6)以基于本体的自适应Web信息抽取模型为基础,结合文中提出的信息抽取方法,实现了本体的自适应Web信息抽取平台。该平台包括两个子系统:一是面向农业领域的基于农业本体的自适应Web信息抽取子系统,应用于农业垂直搜索引擎.“中国搜农”和农业相关的数据挖掘应用;二是命名实体关系抽取原型子系统,为实现农业领域实用的关系抽取系统奠定了基础。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号