首页> 中文学位 >基于自然语言处理的文本自动校对系统
【6h】

基于自然语言处理的文本自动校对系统

代理获取

目录

文摘

英文文摘

独创性声明及关于论文使用授权的说明

第一章概论

第二章自动校对的基础准备

第三章字词查错与语法查错

第四章语义查错

第五章文本纠错模块

第六章实验系统及结果分析

结论

致谢

参考文献

作者攻硕期间取得的成果

展开▼

摘要

随着计算机和因特网的推广应用,由数据处理、信息处理发展到知识处理,对语言文字处理要求的深度和广度越来越高,可以认为一个国家的语言文字的信息处理水平和处理量基本上代表了这个国家进入信息社会的程度,其语言文字信息的处理能力直接关系到它在网络社会和网络经济中的国际竞争能力。目前,网络社会和网络经济正以极快的速度在全世界发展,阻碍其发展的首要瓶颈问题就是自然语言的处理问题。一旦基于网络的自然语言处理问题得到突破,网络社会和网络经济将会突飞猛进。因此,许多国家的科研院校和机构对该领域投入了大量的人力物力,我国也将其作为一个高新技术的重点,列入国务院批准的“国家中长期科学技术发展纲领”。 而中文文本自动校对,属于自然语言处理的应用基础研究范畴,以出版业的电子化迅猛发展为契机,也越来越受到足够的重视,并成为一项亟待解决的紧迫课题。 本文是在对目前中文文本校对技术的深入研究和分析的基础上,在中文文本自动校对领域进行了初步的探讨,提出了对文本的字词、语法、语义错误进行校对的综合校对方法。该方法在文本校对理论研究和技术实现上进行了有益的尝试,能够对中文文本的错误进行较为全面的检查。 对于文本字词错误的检查,本文主要利用了字词二元接续关系,根据同现概率检查文本字词错误;对于文本语法错误的检查,本文利用教研室已有的一个大规模语料库,通过对语料库进行统计分析,获得语法查错所需要的语言规律和知识,利用谓语中心词识别和其他句子成分识别的方法,检查文本语法结构上的错误;对于文本语义错误的检查,本文主要利用知网知识得到语义依存树,通过对句子的有效搭配对的相似度计算检查语义错误。这样有针对性地查错,避免了大量计算,降低了算法的复杂度,并提高了召回率。 对于汉语文本纠错部分,本文充分利用中文文本错误的特点,通过构造易混淆词典对易混淆词和一些字词错误产生纠错建议。实验结果证明,该算法是一个行之有效的方法。 最后对全文进行了总结,指出了系统中一些不足之处以及下一步的工作方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号