基于大规模网络语料的藏文音节拼写错误统计与分析

刘汇丹; 洪锦玲; 诺明花; 吴健

首页> 中文期刊>中文信息学报 >基于大规模网络语料的藏文音节拼写错误统计与分析

基于大规模网络语料的藏文音节拼写错误统计与分析

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

A large scale Tibetan text corpus is built,which includes 4.27 million sentences in 190 thousand documents,totaling 93 million syllables.Some predefined rules are applied to check whether there are spelling errors,detecting altogether 9 700 misspelt syllable types out of the 20 743 types of Tibetan syllables occurred in the corpus (covering 46.762 8％).But at the token level,the corpus has a very high quality,with only 27 427 misspelt syllables,roughly 0.030 8％ of the total 93 million syllable tokens.Further analysis shows that there are mainly four causes leading to those spell errors:extra vowel sign(s);absence of syllable delimiter or sentence delimiter;characters which can be written in different forms;similar characters.%针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析.数据显示,在语料中出现的共计20 743个藏文音节中,合有拼写错误的音节共有9 700个,占藏文音节总数的46.762 8％,错误音节在语料中共出现27 427次,仅占0.030 8％,说明这份语料的文本质量是相当高的.文中还详细统计了各种不同表现形式的错误音节所占比重,并分析了导致拼写错误的四个主要原因:一是输入了多余的元音符号;二是音节点或句尾空格缺失;三是同一字丁/字符存在多种表达形式;四是错误地使用了相似字符.

著录项

来源
《中文信息学报》|2017年第2期|61-70|共10页
作者
刘汇丹; 洪锦玲; 诺明花; 吴健;
展开▼
作者单位

中国科学院软件研究所,北京100190;

中国科学院软件研究所,北京100190;

中国科学院软件研究所,北京100190;

中国科学院软件研究所,北京100190;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
藏文拼写检查; 拼写检查; 语料; 统计; 藏文信息处理; 中文信息处理;
入库时间 2022-08-18 06:08:16

相似文献

中文文献
外文文献
专利

1. 基于大型藏文语料库的藏文字符、部件、音节、词汇频度与通用度统计及其应用研究 [J] . 卢亚军 ,马少平 ,张敏 . 西北民族大学学报（自然科学版） . 2003,第002期
2. 基于统计的藏文音节字校对系统开发研究 [J] . 普布旦增 ,关白 . 西藏大学学报（自然科学版） . 2015,第001期
3. 基于统计的藏文音节联想输入 [J] . 多杰卓玛 . 湛江师范学院学报 . 2008,第003期
4. 关于单音节形容词重叠现象的分析——基于汉语语料库的研究 [J] . 顾秀林1 ,周统权1 . 现代语言学 . 2019,第003期
5. 基于汉语国际教育教材语料的三音节名词型动态词分析 [J] . 郭冬冬 ,宋继华 ,彭炜明 . 中文信息学报 . 2018,第006期
6. 基于统计的藏文音节字校对系统 [C] . 关白 . 第14届中国少数民族语言文字信息处理学术研讨会 . 2013
7. 基于语料库的中国高中英语学习者拼写错误研究 [A] . 钱婷婷 . 2016

基于大规模网络语料的藏文音节拼写错误统计与分析

摘要

著录项

相似文献

相关主题

期刊订阅