首页> 中文学位 >从大规模中文语料中获取和验证概念的研究
【6h】

从大规模中文语料中获取和验证概念的研究

代理获取

目录

文摘

英文文摘

论文说明:图目录、表目录

声明及关于论文使用授权的说明

第一章引言

第二章国内外相关研究现状分析

第三章本文中概念自动获取和验证方法的概述

第四章基于概念自身特征的验证方法

第五章基于开放语料的概念验证方法

第六章概念抽取验证统一框架及实现流程

第七章结束语

八、参考文献

致谢

作者简历

展开▼

摘要

如何用智能化的手段把网页上浩如烟海的文本转化为知识,是目前知识获取领域十分紧迫的问题。而概念以及概念间的关系是知识的基本组成部分,因此如何获取并验证概念成为从文本到知识的过程中不可逾越的重要步骤。 概念获取和验证的本质就是获取代表概念的词语并验证这个词语指代概念的可能性。由于汉语本身的特点,中文概念获取和验证不适合直接采用其他语言的处理方法。而且我们需要获取的概念不局限于一个具体的领域,这使得中文概念获取存在诸多困难。为此本文从多种角度开展了的以下研究: (1)基于构词规则的抽取和验证方法。一般地,构词规则是语言学家对大量语言材料研究之后人工建立的,但由于概念的覆盖范围很广,人工获取构词规则非常困难,规则的适用性也受到严峻的考验。本文提出了一种基于词法分析和统计的构词规则自动获取方法。实验表明,该方法行之有效。 (2)基于构词贡献的验证方法。提出并实现了一种利用概念词之间的贡献关系迭代地验证概念词的方法,其基本思想是概念词内部存在着一些概念词构件,在大语料中它表现了一种比较好的统计特征,我们首先利用统计方法获取这些概念词构件,然后利用已有词典和概念词构件来进行概念验证。另外,概念词中存在大量以原有词为蓝本产生的新词语,这些新词语与已有概念词结构相似。我们利用机器学习方法分析这些概念词之间存在的类推关系,生成新词语产生的类推模式,做为验证概念词的有益补充。 (3)概念词的开放验证方法。提出了一种利用概念词的上下文特征和公共上下文模式进行概念词验证的方法。由于人工获取上下文模式代价比较高,本文实现了一种基于模式学习的上下文模式学习方法,并对模式进行评价,把综合性能比较好的模式用于概念词的抽取和验证中,减少了人工构建模式的代价。同时由于概念词开放验证算法的复杂度较高,本文还提出了一种利用概念的验证依赖关系降低验证规模的算法。 (4)概念抽取和验证的统一框架。本文提出并实现了一个概念抽取和验证的统一框架,该框架融合了规则、统计、语义和上下文信息等多种方法。系统首先使用概念获取模式得到候选概念串;然后利用构词贡献进行验证,若不能验证,再利用分割符把候选概念串分隔成句块;然后在概念抽取模块,利用正则表达式规则从句块中抽取概念,并进行初步评价;最后利用统计验证方法召回抽取模块未能抽取的新词语,并重新评价有歧义的概念词。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号