首页> 中文学位 >基于机器可读词典的词汇知识抽取
【6h】

基于机器可读词典的词汇知识抽取

代理获取

目录

摘要

ABSTRACT

一、前言

1.1 计算语言学研究现状

1.2 国内外词汇知识库研究

1.3 信息抽取研究的发展历史以及现状

1.4 本文所作的工作

二、概念的内涵特征

2.1 概念、词语、实体

2.2 名词实体之间的语义关系

2.3 形容词与名词实体之间的语义关系

2.4 语义关系运算

三、知识抽取模型设计

3.1 知识的抽取模型

3.2 释义分类

3.3 文本预处理

3.4 抽取模板

3.5 知识库标注和用途

四、词汇知识抽取与结果过滤

4.1 词汇知识抽取

4.2 抽取结果的过滤

五、实验结果与总结

5.1 实验结果的分析

5.2 工作总结与展望

参考文献

附录1

致谢

攻读学位期间发表的学术论文

展开▼

摘要

越来越多的实践证明,词汇知识库是自然语言处理系统不可或缺的组成部分,语言知识库的规模和质量在很大程度上决定了自然语言处理系统的成败。这已经成为自然语言处理研究人员和系统开发者的共识。构建概念之间的关系,是建立本体,特别是汉语本体的重要的研究课题,它们是自然语言处理进一步发展所必须倚重的基础知识,不但是建立语言知识库的理论基础,而且有着广泛的应用。目前语义关系库的建立,还是采用手工的方法,工作量很大[5]。如果能够引进计算机的辅助提取,那么建立这样词汇知识体系的效率将大大提高。我们相信,这种词汇间的关系,必然有着其内在的规律,完全有借助程序高效自动抽取的可能。本文利用机器可读词典作为资源,首先通过对释义项进行分类,然后基于释义分析自动生成用于抽取词汇知识的模版,然后采用模版匹配的方法,实现词汇知识的自动抽取,使用的是规则提取加上特征消歧的方法。在机器可读词典中,已经蕴含了许多候选的关系模式,标注词典中一部分具有特定类别的释义进行分析,提取对其中上下位等语义关系有较为明显指示作用的模式,来构建被释义的名词和释义中出现的词汇之间的语义关系。并根据上下文中的形态、句法等特征,建立相应的统计模型用以对结果进行过滤。在实现上述模型,在应用到《应用汉语词典》中后,取得了较好的抽取效果。然后,在前面的研究基础上,通过分析从机器可读词典中手工标注出来的各种上下文信息,研究对概念内涵特征信息进行自动抽取的问题,并做了一些初步的尝试。主要集中在对提取名词的属性特征以及部分形容词(主要是颜色词)的研究,具体方法是先手工标注一部分语料,提取出其“功能”属性的定位特征及其前后的上下文特征,先使用定位特征进行概念内涵特征的候选集的初步抽取,最后使用最大熵方法对候选集进行分类,取得了一定实验性的成果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号