首页> 中文学位 >英文冠词纠错方法研究
【6h】

英文冠词纠错方法研究

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪 论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 数据集与问题定义

1.4 本文的研究思路

1.5 本文的内容安排

第2章 基于逻辑斯蒂回归的冠词纠错

2.1 引言

2.2 冠词错误位置识别

2.3 基于逻辑斯蒂回归的冠词纠错

2.4 实验与结果分析

2.5 本章小结

第3章 融合词向量特征的冠词纠错

3.1 引言

3.2 词向量的学习方法

3.3 基于浅层特征和词向量融合的冠词纠错

3.4 实验结果与分析

3.5 本章小结

第4章 基于卷积神经网络的冠词纠错

4.1 引言

4.2 基本卷积神经网络

4.3 基于卷积神经网络的冠词纠错

4.4 实验结果与分析

4.5 本章小结

结论

参考文献

附录 A

攻读硕士学位期间发表的学术论文

声明

致谢

展开▼

摘要

随着自然语言处理、机器学习和大数据的蓬勃发展,英文语法纠错吸引了越来越多的研究者。一个有效的英文语法纠错系统,既可以惠及成千上万的英文写作者,又可以辅助解决自然语言处理中的其他任务。在所有语法错误中,冠词错误最为常见。目前,针对冠词纠错最有效的方法是基于分类的方法,这类方法将冠词纠错任务转换为一个分类问题,其中类别标签为冠词a/an、the和null。基于分类的方法存在如下不足:一方面,用于冠词纠错的特征通常依靠经验获取,容易造成特征之间的冗余以及引入噪音;另一方面,使用One-hot编码进行特征表示,容易造成数据稀疏、维度高等问题。本文一方面,对已有工作的不足提出了改进,另一方面,探索了卷积神经网络在冠词纠错上的应用。具体地,本文内容包括以下三部分:
  1.基于逻辑斯蒂模型进行冠词纠错。在确定冠词可能出错的位置后,凭借经验,收集了五类用于冠词纠错的特征,为了减少在特征中引入的冗余和噪音,使用前向序列搜索算法对不常见的特征进行特征选择,然后通过逻辑斯蒂回归模型,分析和对比不同类别特征对冠词纠错的影响,其中重点分析了作者用词特征。
  2.利用词向量优化冠词纠错中的特征表示,并比较不同词向量在特征表示上的效果。在分析One-hot编码的不足后,本文在特征表示上进行两方面的探索:第一,对特征中的单词,直接用其对应的词向量作为特征;第二、使用聚类对特征进行压缩,对单词特征,采用布朗词聚类和K均值的方法进行聚类;而对于词性特征,采用人工设定的规则进行聚类。
  3.采用深度学习方法中的卷积神经网络对冠词进行纠错。为了挖掘冠词纠错更有效的特征,本文使用卷积神经网络进行冠词纠错,模型采用冠词的上下文作为特征,通过卷积和子采样从上下文单词对应的词向量中学习特征。针对模型准确率较低的不足,本文分析其中可能存在的原因,并给出一种有效的基于语言模型的后处理模块。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号