自然语言句子级结构表示的建模与学习

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

表示学习方法可以为自然语言处理任务学习低维的平滑特征表示，从而缓解数据稀疏问题对于基于有监督学习的自然语言处理方法的影响。近年来，服务于如短语和句法树等自然语言结构的表示学习方法得到了广泛的关注。然而已有方法往往局限于对于特定类型结构的表示，而且只能使用受限的语言学标注信息从而描述能力有限。受到以上现状的启发，本文考虑通过结合语言学知识和无监督的表示学习方法，从而更好地建立自然语言的结构表示。为了实现这一目标，本文提出了一种新的结构表示模型，并为该模型的训练过程提出了新的方法。同时本文对于结构表示在自然语言处理中的应用进行了新的探索。
　　本文研究的核心在于表示自然语言结构各关键信息之间的合取。第一，为了说明合取思想的重要性，本文首先从最简单的n元词组表示的构造方法及应用开始，基于n元词组本身是其各组成词之间的合取这一事实，展示了词表示的合取对于构建n元词组表示的重要性。传统的基于词嵌入的n元词组表示方法通过对词嵌入向量进行拼接来表示n元词组，然而正如本文的的分析所示，这样的方法不能反映n元词组各组成词之间的合取信息。本文则通过对词嵌入进行聚类，并对离散的聚类进行合取对n元词组进行表示。这一方法相比词嵌入拼接得到了更好的实验结果，从而证明了合取信息的重要性。本文进一步在训练样本的去噪问题中展示了上述n元词组表示的有效性。
　　第二，本文提出了一个通用的结构表示模型。对于任意的输入结构，只要我们可以将其表示为以词为节点的图，该模型便可为其构造结构表示。本文的这一模型首先将输入结构分解为子结构，每个子结构包含了一些词节点（表示为词嵌入），和一些带有结构信息属性的边（表示为语言学特征）。本文的模型通过对上述两种信息对应的向量求外积来获得它们的合取信息，从而得到每个子结构的表示。我们对所有子结构表示求和，得到原始输入结构的表示。在上述结构表示的基础上，本文的模型通过一个参数张量获得目标任务的输出。这一模型被称为基于丰富特征的结构表示合成模型（Feature-rich Compositional Embedding Model，FCM）。本文主要关注该模型在句子级别结构的表示任务上的应用，并证明该模型在多个关系抽取任务上都获得了业界领先的结果。
　　第三，上面的FCM模型当子结构包含词节点较多，或者当张量的某个输入视角维度较高时，会因为模型的参数过多而易于过拟合。本文通过张量低秩近似的方法，对FCM进行了近似，得到一种称为低秩FCM的新模型（Low-RankFCM，LRFCM）。这一近似的结果是每一个视角上的输入都被映射到更低维的向量，减小了模型的参数空间。同时，通过张量的CP模式近似，我们将原本耗时的张量乘法近似为上述低维向量之间的点积。上述改进有效地减小了FCM的参数空间并提升了模型的运行速度，并在多个任务上取得了实验结果的提升。
　　第四，本文提出了一种基于有标记数据和无标记数据的联合训练方法，用于对上述模型进行更充分的训练。相比传统的流水线式半监督训练方法，本文提出的方法有利于更充分地训练未被有标记数据覆盖的词的词嵌入。为了利用无标记数据，本文提出了一种基于语言模型思想的方法，使用一个结构的表示预测该结构的上下文词。
　　最后，本文以短语嵌入的学习为例，展示了本文所提出的通用表示模型（及其低秩近似）以及联合训练方法的重要作用。上述方法在多个短语相似度任务上都取得了较大的提升。
　　本文提出的方法在包括关系抽取、短语相似度、序列标注和跨语言映射等多个任务上都取得了业界领先的结果。同时本文所提出的基于合取的表示建模思想也为未来的表示学习的研究提供了新的方法和视角。

著录项

作者
于墨;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位博士
导师姓名赵铁军;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;
关键词
自然语言; 信息处理; 句子结构; 结构表示合成模型; 表示学习;

相似文献

中文文献
外文文献
专利

1. 自然语言句子抽象语义表示AMR研究综述 [J] . 曲维光 ,周俊生 ,吴晓东 . 数据采集与处理 . 2017,第001期
2. 汉语自然语言生成的句子结构优化 [J] . 张冬茉 ,李锦乾 ,姚天昉 . 计算机工程 . 1998,第007期
3. 自然语言生成中的句子结构优化处理 [J] . 李锦乾 ,张冬茉 . 计算机应用研究 . 1998,第001期
4. 基于带权词格的循环神经网络句子语义表示建模 [J] . 张祥文 ,陆紫耀 ,杨静 . 计算机研究与发展 . 2019,第004期
5. 自然语言句法结构的框架树表示方法 [J] . 于中华 ,唐常杰 . 小型微型计算机系统 . 1999,第008期
6. 一种基于联想的自然语言句子的生成方法 [C] . 王逍 ,张俊华 . 2001年西南三省一市自动化及仪器仪表学术会议 . 2001
7. 融合句法信息的句子嵌入表示学习方法及应用研究 [A] . 陶兰 . 2018

自然语言句子级结构表示的建模与学习

目录

摘要

著录项

相似文献

相关主题

期刊订阅