首页> 中文学位 >汉语中介语文本词语级错误的自动查错研究及其实现——AECIT
【6h】

汉语中介语文本词语级错误的自动查错研究及其实现——AECIT

代理获取

目录

声明

第一章中介语文本自动查错研究综述

1.1选题来源

1.2本研究的研究目标和内容

1.3研究意义

1.4文本自动校对

1.5自动校对技术国外研究现状

1.6自动校对技术国内研究现状

1.7目前已有的中文文本校对系统:黑马校对系统

1.8作文自动评分

1.9研究现状总结

1.10本文使用的语料

第二章中介语文本的错误分类和训练语料分析

2.1中文普通文本自动校对中的错误分类

2.2中介语文本中的错误

2.3中介语文本中错误的定义

2.4语料分析

第三章中介语文本字词级查错系统——AECIT

3.1训练模块

3.2目前中文文本自动校对中的查错技术及分析

3.3查错模块

3.4系统评测模块

第四章查错系统的测试和分析

4.1查错结果

4.2查错系统实例及其分析

4.3结合对外汉语教学的需要

4.4未来工作展望

参考文献

致谢

展开▼

摘要

随着现代出版事业的不断扩大,人工校对的工作量日益增大,产生了机器自动校对的需求。自动校对是自然语言处理的一个重要的研究领域,它的目的主要是在出版行业中减轻校对人员的工作量。中文文本自动校对较英文文本自动校对而言有许多先天性的困难,如分词、词性标记等。 中介语文本由于它的特殊性,无论是从错误产生原因还是错误表现形式都呈现出较普通文本未有的复杂。现有的自动校对系统是面向普通的中文文本,它处理的是母语为汉语的人士所写成的中文文本,它们所使用的训练语料和测试语料是同质的。本文研究的对象是母语为非汉语的人士写成的中文中介语文本。二者相比较而言,后者较前者在研究、处理上多了很多困难,如:训练语料和测试语料不同质,错误种类繁多,难以进行分类等。本文使用了新疆大学预科部少数民族中介语语料库,随机抽取了2063个存在错误的句子,以查找句子中的错误点为目标,构造了汉语中介语自动查错系统AECIT,采用窗口移动的方式,一次读取一个三元词串,以二元词的互信息为基本统计手段,结合词性和确定合理搭配阈值进行隔断的方式,从句子中提取发生错误的词语。由于目前中文句法分析和语义分析技术远没有达到可以实用的阶段,所以本文着眼于词语一级的自动查错研究。最终,以合理搭配阈值为3.0为例,AECIT得到了召回率73.7%,精确率50%,误报率50%的结果,并且随着阈值的调整,召回率和精确率会分别上升和下降,以满足不同用户的需要。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号