首页> 外文OA文献 >Método para la Construcción Automática de Ontologías Basado en Patrones Lingüísticos
【2h】

Método para la Construcción Automática de Ontologías Basado en Patrones Lingüísticos

机译:基于语言模式的本体自动构建方法

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

La tesis que se presenta tiene como propósito la construcción automática de ontologías a partir de textos, enmarcándose en el área denominada Ontology Learning. Esta disciplina tiene como objetivo automatizar la elaboración de modelos de dominio a partir de fuentes información estructurada o no estructurada, y tuvo su origen con el comienzo del milenio, a raíz del crecimiento exponencial del volumen de información accesible en Internet. Debido a que la mayoría de información se presenta en la web en forma de texto, el aprendizaje automático de ontologías se ha centrado en el análisis de este tipo de fuente, nutriéndose a lo largo de los años de técnicas muy diversas provenientes de áreas como la Recuperación de Información, Extracción de Información, Sumarización y, en general, de áreas relacionadas con el procesamiento del lenguaje natural. La principal contribución de esta tesis consiste en que, a diferencia de la mayoría de las técnicas actuales, el método que se propone no analiza la estructura sintáctica superficial del lenguaje, sino que estudia su nivel semántico profundo. Su objetivo, por tanto, es tratar de deducir el modelo del dominio a partir de la forma con la que se articulan los significados de las oraciones en lenguaje natural. Debido a que el nivel semántico profundo es independiente de la lengua, el método permitirá operar en escenarios multilingües, en los que es necesario combinar información proveniente de textos en diferentes idiomas. Para acceder a este nivel del lenguaje, el método utiliza el modelo de las interlinguas. Estos formalismos, provenientes del área de la traducción automática, permiten representar el significado de las oraciones de forma independiente de la lengua. Se utilizará en concreto UNL (Universal Networking Language), considerado como la única interlingua de propósito general que está normalizada. La aproximación utilizada en esta tesis supone la continuación de trabajos previos realizados tanto por su autor como por el equipo de investigación del que forma parte, en los que se estudió cómo utilizar el modelo de las interlinguas en las áreas de extracción y recuperación de información multilingüe. Básicamente, el procedimiento definido en el método trata de identificar, en la representación UNL de los textos, ciertas regularidades que permiten deducir las piezas de la ontología del dominio. Debido a que UNL es un formalismo basado en redes semánticas, estas regularidades se presentan en forma de grafos, generalizándose en estructuras denominadas patrones lingüísticos. Por otra parte, UNL aún conserva ciertos mecanismos de cohesión del discurso procedentes de los lenguajes naturales, como el fenómeno de la anáfora. Con el fin de aumentar la efectividad en la comprensión de las expresiones, el método provee, como otra contribución relevante, la definición de un algoritmo para la resolución de la anáfora pronominal circunscrita al modelo de la interlingua, limitada al caso de pronombres personales de tercera persona cuando su antecedente es un nombre propio. El método propuesto se sustenta en la definición de un marco formal, que ha debido elaborarse adaptando ciertas definiciones provenientes de la teoría de grafos e incorporando otras nuevas, con el objetivo de ubicar las nociones de expresión UNL, patrón lingüístico y las operaciones de encaje de patrones, que son la base de los procesos del método. Tanto el marco formal como todos los procesos que define el método se han implementado con el fin de realizar la experimentación, aplicándose sobre un artículo de la colección EOLSS “Encyclopedia of Life Support Systems” de la UNESCO. ABSTRACT The purpose of this thesis is the automatic construction of ontologies from texts. This thesis is set within the area of Ontology Learning. This discipline aims to automatize domain models from structured or unstructured information sources, and had its origin with the beginning of the millennium, as a result of the exponential growth in the volume of information accessible on the Internet. Since most information is presented on the web in the form of text, the automatic ontology learning is focused on the analysis of this type of source, nourished over the years by very different techniques from areas such as Information Retrieval, Information Extraction, Summarization and, in general, by areas related to natural language processing. The main contribution of this thesis consists of, in contrast with the majority of current techniques, the fact that the method proposed does not analyze the syntactic surface structure of the language, but explores his deep semantic level. Its objective, therefore, is trying to infer the domain model from the way the meanings of the sentences are articulated in natural language. Since the deep semantic level does not depend on the language, the method will allow to operate in multilingual scenarios, where it is necessary to combine information from texts in different languages. To access to this level of the language, the method uses the interlingua model. These formalisms, coming from the area of machine translation, allow to represent the meaning of the sentences independently of the language. In this particular case, UNL (Universal Networking Language) will be used, which considered to be the only interlingua of general purpose that is standardized. The approach used in this thesis corresponds to the continuation of previous works carried out both by the author of this thesis and by the research group of which he is part, in which it is studied how to use the interlingua model in the areas of multilingual information extraction and retrieval. Basically, the procedure defined in the method tries to identify certain regularities at the UNL representation of texts that allow the deduction of the parts of the ontology of the domain. Since UNL is a formalism based on semantic networks, these regularities are presented in the form of graphs, generalizing in structures called linguistic patterns. On the other hand, UNL still preserves certain mechanisms of discourse cohesion from natural languages, such as the phenomenon of the anaphora. In order to increase the effectiveness in the understanding of expressions, the method provides, as another significant contribution, the definition of an algorithm for the resolution of pronominal anaphora limited to the model of the interlingua, in the case of third person personal pronouns when its antecedent is a proper noun. The proposed method is based on the definition of a formal framework, adapting some definitions from Graph Theory and incorporating new ones, in order to locate the notions of UNL expression and linguistic pattern, as well as the operations of pattern matching, which are the basis of the method processes. Both the formal framework and all the processes that define the method have been implemented in order to carry out the experimentation, applying on an article of the "Encyclopedia of Life Support Systems" of the UNESCO-EOLSS collection.
机译:提出本文的目的是根据文本在本体学习领域中构建本体的自动构造。该学科旨在使结构化或非结构化信息源领域模型的开发自动化,并且由于互联网上可访问的信息量呈指数级增长,其起源于千年初。由于大多数信息都以文本形式显示在网络上,因此本体论的机器学习专注于这种类型的源的分析,多年来使用诸如信息检索,信息提取,汇总以及与自然语言处理相关的领域。本文的主要贡献在于,与大多数现有技术不同,该方法不分析语言的表面句法结构,而是研究其深层的语义层次。因此,其目的是尝试从表达自然语言中句子的含义的方式推导领域模型。由于深层语义级别与语言无关,因此该方法将允许在多语言方案中进行操作,在这种情况下,有必要组合来自不同语言文本的信息。为了访问这种级别的语言,该方法使用了语言间模型。这些形式主义来自机器翻译领域,使我们能够独立于语言来表达句子的含义。特别是,将使用UNL(通用网络语言),它被认为是唯一标准化的通用语言。本文所使用的方法暗示了作者及其研究团队所做的先前工作的延续,其中研究了如何在提取和检索多语言信息领域中使用语言间模型。 。基本上,该方法中定义的过程会尝试在文本的UNL表示中识别某些规则,这些规则可以推断出领域本体的各个部分。因为UNL是基于语义网络的形式主义,所以这些规律性以图的形式呈现,并概括为称为语言模式的结构。另一方面,UNL仍然保留了自然语言的某些语音衔接机制,例如回指现象。为了提高理解表达的有效性,该方法作为另一相关贡献,提供了一种用于限定代词回指的算法的定义,该算法限于语际模型,限于第三方人称代词。当他们的前身是专有名称时的人。所提出的方法基于正式框架的定义,必须通过借鉴图论中的某些定义并结合新的定义来对其进行详细阐述,以期找到UNL表达,语言模式和语言概念。模式,这是方法过程的基础。为了进行实验,已经实施了正式框架和定义该方法的所有过程,并将其应用于联合国教科文组织EOLSS收集的“生命支持系统百科全书”中的一篇文章。摘要本文的目的是根据文本自动构建本体。本论文设置在本体学习领域。该学科的目的是使结构化或非结构化信息源中的领域模型自动化,并且由于互联网上可访问的信息量呈指数增长,其起源于千年初。由于大多数信息都是以文本形式在网络上呈现的,因此自动本体学习的重点是对这种类型的源进行分析,多年来,这些源是通过与信息检索,信息提取,汇总以及通常,按与自然语言处理有关的领域。与大多数现有技术相反,本论文的主要贡献在于以下事实:所提出的方法并未分析语言的句法表面结构,而是探究了其深层的语义层次。因此,其目的是尝试从以自然语言表达句子的含义的方式推断域模型。由于深层语义级别不依赖于语言,因此该方法将允许在多语言场景中运行,有必要组合来自不同语言文本的信息。为了使用这种语言,该方法使用了interlingua模型。这些形式主义来自机器翻译领域,可以独立于语言来表示句子的含义。在这种特殊情况下,将使用UNL(通用网络语言),它被认为是标准化的唯一通用通用语言。本文使用的方法与本文作者以及他所参与的研究小组所做的先前工作的延续相对应,研究了如何在多语言信息领域中使用interlingua模型提取和检索。基本上,该方法中定义的过程会尝试在文本的UNL表示形式中识别某些规律性,以允许推导领域本体的各个部分。由于UNL是基于语义网络的形式主义,因此这些规律性以图的形式呈现,并概括为称为语言模式的结构。另一方面,联合国语言学院仍然保留了自然语言的话语衔接机制,例如回指现象。为了提高表达理解的有效性,该方法提供了另一个重要的贡献,即用于限定代词照应的算法的定义,该算法限于语际模型,对于第三人称代词而言前身是专有名词。所提出的方法是基于形式框架的定义,对图论中的一些定义进行了改编,并引入了新的定义,以定位UNL表达和语言模式的概念以及模式匹配的操作,这是基础方法过程。为了进行实验,已经应用了正式框架和定义该方法的所有过程,并应用了UNESCO-EOLSS收藏的“生命支持系统百科全书”中的一篇文章。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号