首页> 中文学位 >基于支持向量机的英语情态动词Will语义排歧研究
【6h】

基于支持向量机的英语情态动词Will语义排歧研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

Abbreviations

List of Tables

List of Figures

Chapter 1 Introduction

1.1 Background of the present study

1.2 Objectives of the present study

1.3 Outline of the thesis

Chapter 2 Literature Review

2.1 Studies on the word sense disambiguation

2.2 Studies on the application of support vector machines

2.3 Studies on the English modality

2.4 Space for the present study

Chapter 3 Theoretical Foundation and Methodology

3.1 Theoretical foundation of the present study

3.2 Research method and data collection

3.3 Summary

Chapter 4 Semantic Categorization of the English Modal Verb Will

4.1 Why is will

4.2 Categorization of meanings of English modal verb will

4.3 Summary

Chapter 5 The Building of the WSD Model of Will by SVM

5.1 The working principle of support vector machines

5.2 Selection of training samples and test samples

5.3 Construction of feature sets

5.4 Vectorization of the linguistic features

5.5 The building of WSD model by SVM

5.6 Summary

Chapter 6 Comparative Analysis of the Models of WSD Models by SVM and by ANN

6.1 The working principle of artificial neural networks

6.2 The building of the WSD model by BP, RBF and PNN

6.3 Comparative analysis of the four WSD models of will

6.4 Analysis and discussion on the misclassified samples

6.5 Summary

Chapter 7 Contributions of Different Linguistic Features to the WSD of Will

7.1 The contributions of the semantic features to the WSD of will

7.2 The contributions of syntactic features to WSD of will

7.3 The contribution of each linguistic feature to the WSD of will

7.4 Validation of the importance of linguistic features to the WSD of will

7.5 Summary

Chapter 8 Conclusions

参考文献

Appendix I

Appendix II

Appendix III

Appendix IV

Appendix V

Appendix VI

Appendix VII

Appendix VIII

致谢

作者简介

展开▼

摘要

语义排歧是指根据目标词出现的上下文语境自动识别其意义。语义排歧是机器翻译、信息检索、语音识别、文本分类以及人机交互等诸多领域中的关键环节,是自然语言处理领域的热点和难点。尽管语义排歧技术取得了很大发展,但目前的语义排歧研究对象还是主要集中在普通动词和名词的语义排岐上。情态表达说话人的态度和意见,主要由情态动词来实现。因此,正确识别情态动词的语义对理解和领会说话人的态度和意见十分重要。情态动词语义有三种不确定性:梯度,歧义和融合。这些不确定性使人们很难把握其准确意义。因此,建立一个有效的、准确性较高的情态动词语义排歧模型变得至关重要。
  本研究基于120万字的语料库,从will的实际使用语境中提取八个语义特征和句法特征,并采用数据挖掘中的一种新方法——支持向量机,建立了情态动词 will的语义排歧模型。实验结果显示,由支持向量机方法建立的情态动词will的语义排歧模型的排歧精度达到了98.33%。这个结果,证实了采用支持向量机对情态动词 will语义排歧的有效性,同时证明了从真实的语料库中提取的8个语言特征的有效性。为了验证支持向量机语义排歧效果的优越性,本文采用神经网络技术中的反向传播神经网络,径向基神经网络和概率神经网络方法,分别建立了情态动词 will的语义排歧模型。对以上四个排歧模型的训练和检验结果对比分析发现,由支持向量机建立的情态动词 will的语义排歧模型的泛化能力在实际应用中比人工神经网络技术的泛化能力要更加稳定和可靠。由概率神经网络建立的语义排歧模型的泛化能力要优于径向基神经网络和反向传播神经网络。径向基神经网络的泛化能力又优于反向传播神经网络。另外,本文对情态动词 will语义排歧中出现错误排岐的原因进行了分析。
  在此基础上,确定了不同语言特征对情态动词 will的语义排歧效果的影响程度。在原来的模型中先后删除语义信息特征和句法信息特征,建立模型,训练和检验,并将检验结果与原模型的检验结果对比。实验结果表明,语义信息特征对情态动词语义排歧效果影响大于句法信息特征的影响。其中,情态动词 will与其后的动词的互信息特征对排歧效果的影响程度最大。通过采用特征提取算法,F-score算法,得出根意义的will与其后的动词的互信息、认知意义的will与其后的动词的互信息、第三人称以及第一人称是影响情态动词 will的语义排歧效果的最重要的四个特征。经实验证明,其算法得出的结果是可靠的。
  情态动词 will语义排歧模型的成功建立,不仅有助于实现语料库的自动语义标注,减轻研究人员的劳动负担,而且有助于提高机器翻译的质量。从语料库中提取的识别情态动词 will语义的八个有效语言特征,为判断和识别情态动词will的语义提供了客观依据。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号