首页> 中文学位 >搭配抽取及中国英语的动词搭配特征
【6h】

搭配抽取及中国英语的动词搭配特征

代理获取

目录

声明

摘要

Abstract

Introduction

Chapter One Literature Review

1.1 Theories of Collocation

1.1.1 Fi rth’s Theory

1.1.2 Neo-Fi rthian Theory

1.1.3 Syntaetic Collocation

1.1.4 Collocation as Construction

1.2 State of the Art in Collocation Extraction

1.2.1 Association Measure

1.2.2 Extraction

1.2.3 Evaluation

1.3 Collocation in China English

1.3.1 The Term “China English”

1.3.2 Collocation Related Studies

1.4 Summary

Chapter Two Defining Features and Definitions

2.1 Defining features

2.2 Definitions

Chapter Three Collocation Extraction

3.1 Architecture of Collcoation Extraction

3.1.1 NLP Pre-processing

3.1.2 Extracti ng Peripheral Collocations

3.1.3 Extracting Semi-peripheral Collocations

3.1.4 Extracting Core Collocations

3.2 Evaluation

3.2.1 Corpus

3.2.2 Test Set

3.2.3 Experiments and Results

3.3 Error Analysis

3.4 Summary

Chapter Four Collocational Features of Verbs in China English

4.1 Subjectivity

4.1.1 Defi nition of Subjectivity

4.1.2 Subjectivity Features of Verbs

4.2 Similarity

4.2.1 Definition of Similarity

4.2.2 Simlarity Features of Verbs

4.3 Summary

Conclusion

Bibliography

Appendix

攻读硕士学位期间发表学术论文情况

Acknowledgments

展开▼

摘要

搭配现象存在于所有自然语言。搭配是语言学中的重要概念,在语料库语言学、自然语言处理、英语教学、词典学等领域均有关于搭配的研究。本文结合语料库语言学理论和自然语言处理技术,研究搭配的自动抽取,并以中国英语新闻语料为例探讨了中国英语的动词搭配特征。
  本文基于Manning和Schütze的搭配概念提出了搭配的5个定义特征,即统计频繁性、组合非修饰性、聚合非替换性、语义非合成性、互译非直译性。并在此基础上提出了一个包含“统计-组合-聚合-语义-互译”的5个层次的概念框架。
  本文依据搭配的概念框架构建“统计-聚合-组合”搭配抽取模型,实现了搭配抽取工具。首先对语料进行自然语言方面的预处理;然后从搭配候选中依次抽取边缘搭配、半边缘搭配、核心搭配。边缘搭配是所有频率大于等于阈值的依存三元组;半边缘搭配是使用本文提出的LMP关联度方法对边缘搭配排序后大于阈值的搭配;核心搭配是使用本文建立的相似词库进行对半边缘过滤后不能被相似词替换的搭配。实验的训练集是从中国政府英文网、新华网等爬取的中国英语新闻语料,大小为126M;测试集为从《牛津搭配词典》选取的813条搭配,评价指标为准确率(P)、召回率(R)和F值(F)。结果表明,本文中的LMP关联度方法优于其他关联度方法;组合限制可以有效过滤掉大部分噪音;聚合限制可以有效提取非常核心的搭配;在评价抽取方法时关键度可以作为测试集采样的考虑因素之一。
  最后,本文利用自动抽取的搭配对中国英语的动词搭配特征进行了研究。通过分析从中国英语新闻语料中自动抽取的动词搭配,探索了中国英语中动词的主观性、相似性及相似动词的搭配特异性。主观性和相似性分析可以应用于词典编撰,特异性分析可以为中国英语相关的教学提供一些参考。
  本文的搭配概念框架可以为设计新的抽取模型提供理论基础,搭配抽取工具可以用于语言资源建设,搭配分析拓展了基于语料库的中国英语研究。

著录项

  • 作者

    李丹;

  • 作者单位

    大连理工大学;

  • 授予单位 大连理工大学;
  • 学科 外国语言学及应用语言学
  • 授予学位 硕士
  • 导师姓名 曹井香;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 语法;
  • 关键词

    中国英语; 动词搭配; 自动抽取; 新闻语料;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号