基于自然语言处理的文本自动校对系统

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着计算机和因特网的推广应用，由数据处理、信息处理发展到知识处理，对语言文字处理要求的深度和广度越来越高，可以认为一个国家的语言文字的信息处理水平和处理量基本上代表了这个国家进入信息社会的程度，其语言文字信息的处理能力直接关系到它在网络社会和网络经济中的国际竞争能力。目前，网络社会和网络经济正以极快的速度在全世界发展，阻碍其发展的首要瓶颈问题就是自然语言的处理问题。一旦基于网络的自然语言处理问题得到突破，网络社会和网络经济将会突飞猛进。因此，许多国家的科研院校和机构对该领域投入了大量的人力物力，我国也将其作为一个高新技术的重点，列入国务院批准的“国家中长期科学技术发展纲领”。而中文文本自动校对，属于自然语言处理的应用基础研究范畴，以出版业的电子化迅猛发展为契机，也越来越受到足够的重视，并成为一项亟待解决的紧迫课题。本文是在对目前中文文本校对技术的深入研究和分析的基础上，在中文文本自动校对领域进行了初步的探讨，提出了对文本的字词、语法、语义错误进行校对的综合校对方法。该方法在文本校对理论研究和技术实现上进行了有益的尝试，能够对中文文本的错误进行较为全面的检查。对于文本字词错误的检查，本文主要利用了字词二元接续关系，根据同现概率检查文本字词错误；对于文本语法错误的检查，本文利用教研室已有的一个大规模语料库，通过对语料库进行统计分析，获得语法查错所需要的语言规律和知识，利用谓语中心词识别和其他句子成分识别的方法，检查文本语法结构上的错误；对于文本语义错误的检查，本文主要利用知网知识得到语义依存树，通过对句子的有效搭配对的相似度计算检查语义错误。这样有针对性地查错，避免了大量计算，降低了算法的复杂度，并提高了召回率。对于汉语文本纠错部分，本文充分利用中文文本错误的特点，通过构造易混淆词典对易混淆词和一些字词错误产生纠错建议。实验结果证明，该算法是一个行之有效的方法。最后对全文进行了总结，指出了系统中一些不足之处以及下一步的工作方向。

著录项

作者
丁豪;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科计算机应用
授予学位硕士
导师姓名杨国纬;
年度 2006
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;文字处理软件;
关键词
自动校对; 二元接续; 谓语中心词; 语义依存; 易混淆词典;

相似文献

中文文献
外文文献
专利

1. 基于CSSCI的文本自动校对系统的构建与实现 [J] . 王斯宇 ,邵波 . 高校图书馆工作 . 2014,第006期
2. 基于自然语言处理的文本泄密自动检测技术 [J] . 王利鑫 ,耿焕同 ,孙凯 . 计算机工程与设计 . 2011,第008期
3. 基于深度学习的电子文本自然语言处理系统 [J] . 赵栋材 ,周雁 . 电子技术与软件工程 . 2018,第003期
4. 藏文文本自动校对方法及系统构建分析 [J] . 赵建平 ,陈建新 ,穆杰 . 信息记录材料 . 2019,第005期
5. 藏文文本自动校对方法及系统设计 [J] . 珠杰 ,李天瑞 ,刘胜久 . 北京大学学报：自然科学版 . 2014,第1期
6. 中文文本自动校对中基于“捆绑+过滤”的字词级查错系统研究与实践 [C] . 张仰森 ,丁冰青 . 1998中文信息处理国际会议 . 1998
7. 基于场景化知识表示的自然语言处理及其在自动文本校对中的应用 [A] . 王燚 . 2005

基于自然语言处理的文本自动校对系统

目录

摘要

著录项

相似文献

相关主题

期刊订阅