基于规则与统计相结合的中文文本自动查错模型与算法

张仰森; 曹元大; 俞士汶

首页> 中文期刊>中文信息学报 >基于规则与统计相结合的中文文本自动查错模型与算法

基于规则与统计相结合的中文文本自动查错模型与算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

中文文本自动校对是自然语言处理领域具有挑战性的研究课题.本文提出了一种规则与统计相结合的中文文本自动查错模型与算法.根据正确文本分词后单字词的出现规律以及"非多字词错误"的概念,提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法.通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43%,误报率为30.57%.

著录项

来源
《中文信息学报》|2006年第4期|1-7,55|共8页
作者
张仰森; 曹元大; 俞士汶;
展开▼
作者单位

北京大学,计算语言学研究所,北京,100871;

北京信息科技大学,计算机及自动化系,北京,100085;

北京理工大学,计算机科学工程系,北京,100081;

北京大学,计算语言学研究所,北京,100871;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理;
关键词
计算机应用; 中文信息处理; 中文文本自动查错; 规则与统计相结合; 非多字词错误; 真多字词错误;

相似文献

中文文献
外文文献
专利

1. 基于《知网》义原搭配的中文文本语义级自动查错研究 [J] . 郭充 ,张仰森 . 计算机工程与设计 . 2010,第017期
2. 中文文本自动校对的语义级查错研究 [J] . 骆卫华 ,罗振声 ,龚小谨 . 计算机工程与应用 . 2003,第012期
3. 基于词性预测的中文文本自动查错研究 [J] . 王虹 ,张仰森 . 贵州师范大学学报（自然科学版） . 2001,第002期
4. 基于词二元接续的中文文本自动查错研究 [J] . 王虹 ,张仰森 . 贵州大学学报（自然科学版） . 2001,第001期
5. 基于知识库的多层级中文文本查错推理模型 [J] . 吴林 ,张仰森 . 计算机工程 . 2012,第020期
6. 中文文本自动校对中基于“捆绑+过滤”的字词级查错系统研究与实践 [C] . 张仰森 ,丁冰青 . 1998中文信息处理国际会议 . 1998
7. 中文文本自动查错研究 [A] . 冯金凤 . 2011

基于规则与统计相结合的中文文本自动查错模型与算法

摘要

著录项

相似文献

相关主题

期刊订阅