首页> 中文学位 >基于茅盾文学奖抽样语料库的习用语研究
【6h】

基于茅盾文学奖抽样语料库的习用语研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 选题背景

1.2 研究现状

1.2.1 习用语的词汇学研究

1.2.2 习用语与成语

1.2.3 习用语与熟语

1.2.4 习用语与惯用语

1.3 习用语的界定

1.4 指导理论和研究方法

第二章 茅盾文学奖抽样语料库的构建与标注

2.1 选材原则与抽样方法

2.1.1 选材原则

2.1.2 抽样方法

2.1.3 抽样结果

2.2 自动分词与词性标注

2.2.1 分词软件和词类代码

2.2.2 基本统计数据

第三章 自动标注的“习用语”情况分析

3.1 错标为习用语的词

3.2 错标为习用语的成语

3.3 错标为习用语的惯用语

第四章 习用语的定量定性分析

4.1 双音节习用语

4.2 三音节习用语

4.2.1 作独立语的三音节习用语

4.2.2 作其他句法成分的三音节习用语

4.3 四音节习用语

4.3.1 作独立语的四音节习用语

4.3.2 作其他句法成分的四音节习用语

4.4 五音节及以上习用语

4.5 自动分词优化建议

第五章 结语与课题展望

附录

参考文献

致谢

展开▼

摘要

本文根据汉语信息处理的实践,选取了分词标注中习用语这一特殊词类作为研究对象。目前自动分词标注的习用语,实际包含成分多样,混杂有词、成语等其他语言单位。
  首先,在借鉴语言学和汉语信息处理两方面的研究成果之后,在语料标注的实际情况分析基础之上,从结构、字数、语义三个方面对习用语的性质和特点进行分析,将其与成语、惯用语等概念区分开。
  其次,本文以茅盾文学奖获奖作品语料构建语料库,以此为切入点,对习用语进行实证研究。本次研究选取了第六届——第八届三届茅盾文学奖共14部获奖作品的文本,共计近400万有效字符,制成抽样语料库。运用ICTCLAS软件、以北京大学分词标注规范为标准,对语料库进行自动分词及标注。对自动分词的情况进行分析,筛查标记为“习用语”的分词单位中混杂入的词、成语和惯用语等语言单位,并且立足于汉语信息处理的实践,提出对习用语自动标注的处理建议。
  然后,依托语料库中的真实语言材料,对习用语的语法结构和功能进行描写与分析。从音节数上,侧重研究三音节和四音节的习用语。习用语的语法功能相对完备,可以在句中担当主语、宾语、谓语、定语、状语、补语、独立语等主要句法成分。因此对习用语进行语法功能的二次标注,具有可行性。
  习用语在汉语信息处理中作为独立的分词单位,有其必要性和不可替代性。本文通过对习用语的实证研究,希冀为自动分词软件的优化提供参考。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号