首页> 中文学位 >基于CVG模型的中文短语结构句法分析研究
【6h】

基于CVG模型的中文短语结构句法分析研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 引言

1.1 研究背景

1.2 研究意义

1.3 研究内容

1.4 论文组织框架

2 句法分析研究现状

2.1 英文句法分析方法研究

2.2 中文句法分析方法研究

2.3 本章小结

3 CVG模型在中文句法分析中的应用

3.1 基于RNN的句法分析

3.2 基于CVG的句法分析

3.3 模型训练

3.4 实验及分析

3.5 本章小结

4 CVG句法分析器的改进

4.1分析器的改进

4.2实验及分析

4.3错误类型分析

4.4 本章小结

5 结论与展望

5.1 结论

5.2 展望

参考文献

个人简历 在学期间发表的学术论文及研究成果

个人简历

在学期间发表的学术论文

研究成果

致谢

展开▼

摘要

句法分析的基本任务是确定句子的句法结构,由于语言的复杂性,句法结构往往有歧义的存在,需要引入大量信息来减少歧义,提高句法分析结果。句法分析一般分为短语结构句法分析和依存句法分析,本文主要研究的是短语结构句法分析。CVG(Compositional Vector Grammars)模型能够很好的捕捉句法分析所需信息,本文将对CVG模型进行深入研究,并对基于CVG模型的句法分析器进行改进,使其能在中文句法分析上有更好的性能表现。CVG模型将 PCFG(Probabilistic Context Free Grammars)和SU-RNN(Syntactically Untied Recursive Neural Networks)相结合,利用PCFG模型预测结构,生成候选树,利用SU-RNN捕获短语和词汇的细粒度语法和组合语义的信息,并利用这些信息对生成的句法树进行重新计算得分,进行重新排序。
  本研究主要内容包括:⑴利用CVG对中文进行句法分析,首先对CVG模型进及其关键技术进行了介绍,并使用Stanford Parser在CTB8.0( Chinese Treebank8.0)上训练出一个PCFG模型作为基准模型,在此基础上,又训练出一个CVG模型,给出其在中文句法分析上的性能表现,及和PCFG模型的性能对比。⑵CVG模型中存在着一些问题,针对这些问题本文给出了改进措施:对于一词多义,通过融入词性信息,将<词,词性>作为一个整体进行训练,来解决多义词问题对于未登陆词问题,将其分成两类,针对每类提出了不同的解决办法,第一类是语料中不存在的词,对于这种未登陆词可以用结构向量进行替代,第二类是语料中存在这个词,不过不存在其对应的词性,则先用结构向量替代,并对词性的父结点所在的子树的得分进行惩罚,如果还没有找到对应向量,则用零向量替代对于因为树的二叉化所引起的新生结点和原结点难以区分所导致的父结点向量表示不确切的问题,提出了对新生结点类型临时增加标记位的解决办法对于CVG模型中结点得分计算存在冗余的问题,提出将得分函数中的参数依赖由原来的孩子结点类型改为本结点类型。⑶对改进措施在CTB8.0上进行实验,通过逐次增加的办法,验证四个改进措施是否有效。实验表明,这四个改进措施是有利于句法分析器性能的提高的,其在开发集上的F1值比CVG模型提高了0.92%。并通过对比分析模型生成结果的错误类型,再次验证改进措施的有效性,且为进一步提高句法分析提供准备工作。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号