首页> 中文学位 >自然语言句子级结构表示的建模与学习
【6h】

自然语言句子级结构表示的建模与学习

代理获取

目录

第1章 绪论

1.1 课题的意义和背景

1.2 表示学习的研究现状

1.3 论文主要的研究内容

第2章 基于词表示复合特征的N元词组表示及其应

2.1 引言

2.2 基于词表示的复合特征和n元词组表示

2.3 基于n元词组表示的去噪方法

2.4 实验及其结果分析

2.5 本章小结

第3章 通用的结构表示模型FCM

3.1 引言

3.2 基于表示学习的关系抽取现状分析

3.3 基于丰富特征的结构表示合成模型(FCM)

3.4 理解FCM的两个角度

3.5 模型训练

3.6 实验及其结果分析

3.7 本章小结

第4章 FCM的低秩近似

4.1 引言

4.2 符号和定义

4.3 基于张量的结构表示及其打分函数

4.4 基于张量低秩近似的FCM(低秩FCM)

4.5 处理可变元数的子结构集合

4.6 从词汇化特征的角度理解低秩FCM

4.7 模型的训练方法

4.8 实验及其结果分析

4.9 本章小结

第5章 自然语言结构表示的联合训练框架

5.1 引言

5.2 基于标记文本和纯文本的表示模型联合训练

5.3 实验及其结果分析

5.4 本章小结

第6章 基于低秩FCM和联合训练的短语表示模型

6.1 引言

6.2 基于低秩FCM的短语嵌入构建与学习

6.3 任务描述

6.4 实验结果

6.5 讨论:细调节词嵌入的作用

6.6 本章小结

结论

参考文献

附录A 结构化噪声可学习性的证明

附录B 介词附着任务的实验细节

附录C 介词消岐任务的特征模板

附录D 短语相似度任务上的补充实验

攻读博士学位期间发表的论文及其他成果

声明

致谢

个人简历

展开▼

摘要

表示学习方法可以为自然语言处理任务学习低维的平滑特征表示,从而缓解数据稀疏问题对于基于有监督学习的自然语言处理方法的影响。近年来,服务于如短语和句法树等自然语言结构的表示学习方法得到了广泛的关注。然而已有方法往往局限于对于特定类型结构的表示,而且只能使用受限的语言学标注信息从而描述能力有限。受到以上现状的启发,本文考虑通过结合语言学知识和无监督的表示学习方法,从而更好地建立自然语言的结构表示。为了实现这一目标,本文提出了一种新的结构表示模型,并为该模型的训练过程提出了新的方法。同时本文对于结构表示在自然语言处理中的应用进行了新的探索。
  本文研究的核心在于表示自然语言结构各关键信息之间的合取。第一,为了说明合取思想的重要性,本文首先从最简单的n元词组表示的构造方法及应用开始,基于n元词组本身是其各组成词之间的合取这一事实,展示了词表示的合取对于构建n元词组表示的重要性。传统的基于词嵌入的n元词组表示方法通过对词嵌入向量进行拼接来表示n元词组,然而正如本文的的分析所示,这样的方法不能反映n元词组各组成词之间的合取信息。本文则通过对词嵌入进行聚类,并对离散的聚类进行合取对n元词组进行表示。这一方法相比词嵌入拼接得到了更好的实验结果,从而证明了合取信息的重要性。本文进一步在训练样本的去噪问题中展示了上述n元词组表示的有效性。
  第二,本文提出了一个通用的结构表示模型。对于任意的输入结构,只要我们可以将其表示为以词为节点的图,该模型便可为其构造结构表示。本文的这一模型首先将输入结构分解为子结构,每个子结构包含了一些词节点(表示为词嵌入),和一些带有结构信息属性的边(表示为语言学特征)。本文的模型通过对上述两种信息对应的向量求外积来获得它们的合取信息,从而得到每个子结构的表示。我们对所有子结构表示求和,得到原始输入结构的表示。在上述结构表示的基础上,本文的模型通过一个参数张量获得目标任务的输出。这一模型被称为基于丰富特征的结构表示合成模型(Feature-rich Compositional Embedding Model,FCM)。本文主要关注该模型在句子级别结构的表示任务上的应用,并证明该模型在多个关系抽取任务上都获得了业界领先的结果。
  第三,上面的FCM模型当子结构包含词节点较多,或者当张量的某个输入视角维度较高时,会因为模型的参数过多而易于过拟合。本文通过张量低秩近似的方法,对FCM进行了近似,得到一种称为低秩FCM的新模型(Low-RankFCM,LRFCM)。这一近似的结果是每一个视角上的输入都被映射到更低维的向量,减小了模型的参数空间。同时,通过张量的CP模式近似,我们将原本耗时的张量乘法近似为上述低维向量之间的点积。上述改进有效地减小了FCM的参数空间并提升了模型的运行速度,并在多个任务上取得了实验结果的提升。
  第四,本文提出了一种基于有标记数据和无标记数据的联合训练方法,用于对上述模型进行更充分的训练。相比传统的流水线式半监督训练方法,本文提出的方法有利于更充分地训练未被有标记数据覆盖的词的词嵌入。为了利用无标记数据,本文提出了一种基于语言模型思想的方法,使用一个结构的表示预测该结构的上下文词。
  最后,本文以短语嵌入的学习为例,展示了本文所提出的通用表示模型(及其低秩近似)以及联合训练方法的重要作用。上述方法在多个短语相似度任务上都取得了较大的提升。
  本文提出的方法在包括关系抽取、短语相似度、序列标注和跨语言映射等多个任务上都取得了业界领先的结果。同时本文所提出的基于合取的表示建模思想也为未来的表示学习的研究提供了新的方法和视角。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号