基于本体的自适应Web信息抽取方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

互联网的快速发展产生了海量的信息，由于Web页面的多样性和异构性，对这些的信息进行检索和处理受到很大的限制，而Web信息抽取则致力于将这些信息转化成结构化的数据，满足垂直搜索引擎和数据挖掘等相关应用。同时，为了实现语义网的目标，赋予Web意义，需要对Web上的内容进行标注，基于本体的信息抽取可以产生用于语义网的元数据标注信息，将Web信息转化成机器方便处理的数据，即语义网有效的数据。
　　在农业领域，互联网上积累了丰富的农业相关信息资源，包括供求信息、价格信息、农业技术、市场动态、农业新闻、农业企业、农业视频等，但缺少一致的语义表达形式，很难充分发挥这些资源的作用。此外，由于农业领域相关用户自身知识结构水平的限制，在获取所需要的信息时更加困难，而农业垂直搜索引擎则可以弥补这方面的不足，实现异构分散数据的集成，通过构建满足用户需求的专业搜索引擎，解决“三农”用户在面对海量农业Web资源时的信息获取瓶颈问题。本文以研究Web环境下基于本体的信息抽取方法为基础，为农业垂直搜索引擎（中国搜农）和农业数据挖掘应用提供有效的数据支持，服务于国家的农业信息化建设为目标，开展了相关的研究。论文的主要工作内容总结如下：
　　 (1)针对互联网上网页数据的开放性、异构性、演化性等特征，构建了一种基于本体的自适应Web信息抽取模型。模型采用模块化的结构搭建，实现抽取算法与领域本体知识之间的分离，以及模块功能的复用，方便系统功能的动态更新，减少信息抽取系统在跨领域移植时的开销。
　　 (2)针对传统方法在构建本体时需要大量的人工开销和维护困难等问题，发挥Web资源的作用，提出了一种基于Web的无监督本体构建方法。该方法通过查询Web获取领域本体相关的资源，结合句法分析技术实现本体的学习，可以解决传统方法构建本体时语料库在规模上的限制，自适应Web知识的演化。以提出的方法为基础，构建了蛋白质交互关系本体。
　　 (3)针对语义网和Linked Data的发展需求，实现网页的元数据标注和挖掘不同数据之间的关系，提出了一种基于本体的命名实体关系抽取方法。通过分析命名实体之间关系表达的语法结构和关系表达词，实现关系的抽取，实验采用生物文献公共语料库对算法进行了检验，抽取蛋白质相互作用关系，并取得了满意的效果。提出的算法对抽取的句子实行单遍遍历，实现适应Web规模的文本关系抽取时的计算效率问题。
　　 (4)针对AJAX技术的广泛使用，而传统的爬虫无法获取、分析和处理这些内容，我们提出了一种基于领域本体的多记录型AJAX数据抽取模型。该模型可以有效的发现网页中含有的动态AJAX内容，在领域本体的指导下，实现对数据的抽取和语义标注。实验以农产品供求和价格实体数据为例，验证了抽取方法的有效性。
　　 (5)针对基于包装器或规则的方法在抽取单记录型HTML页面时，无法适应页面结构变化等不足，提出了一种采用统计学习方法实现的基于实体属性分类的单记录型Web页面信息抽取和标注模型。该模型对抽取内容的页面结构特征进行分析，通过构建相应的属性分类器识别页面中含有的实体属性，实现自适应页面结构的变化的实体抽取和标注。
　　 (6)以基于本体的自适应Web信息抽取模型为基础，结合文中提出的信息抽取方法，实现了本体的自适应Web信息抽取平台。该平台包括两个子系统：一是面向农业领域的基于农业本体的自适应Web信息抽取子系统，应用于农业垂直搜索引擎．“中国搜农”和农业相关的数据挖掘应用；二是命名实体关系抽取原型子系统，为实现农业领域实用的关系抽取系统奠定了基础。

著录项

作者
李传席;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科模式识别与智能系统
授予学位博士
导师姓名王儒敬,陈鹏;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
本体学习; 自适应网络; 信息抽取; 领域资源发现;

相似文献

中文文献
外文文献
专利

1. 基于模板和领域本体的Deep Web信息抽取研究 [J] . 顾韵华 ,高原 ,高宝 . 计算机工程与设计 . 2014,第001期
2. 基于本体的Web信息抽取系统的研究 [J] . 刘伟 ,贺露 . 软件 . 2013,第012期
3. 改进的基于本体的Web信息抽取 [J] . 陈雪 ,梁永全 ,赵相彬 . 计算机应用与软件 . 2013,第007期
4. 基于领域本体的Web信息抽取模型研究 [J] . 岳国伟 ,吕楠 ,申玉三 . 情报探索 . 2012,第001期
5. 基于本体的Web信息抽取系统 [J] . 王志华 ,魏斌 ,李占波 . 计算机工程与设计 . 2012,第007期
6. 临床疾病领域本体构建方法研究——以手足口病本体为例 [C] . 方安 ,王惠临 ,王军辉 . 中国医学科学院/北京协和医学院医学信息研究所/图书馆2009年学术年会 . 2010
7. 基于本体的手机领域Web信息抽取 [A] . 李宗超 . 2015

基于本体的自适应Web信息抽取方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅