网络维吾尔文判别及其文本长度下界的探讨

倪耀群; 曹鹏; 许洪波; 唐慧丰; 程学旗

首页> 中文期刊>中文信息学报 >网络维吾尔文判别及其文本长度下界的探讨

网络维吾尔文判别及其文本长度下界的探讨

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

将维吾尔文从阿拉伯文、哈萨克文、柯尔克孜文等以阿拉伯字母为基础书写的类似文字中识别出来,是维文信息处理的基础.作者对维吾尔字符的编码优化后使用N元语法模型实现了维吾尔文的快速语种判别,准确率超过98％.经过错误分析,发现错误判别的文本主要集中在论坛和微博客中,这些文本有效字符数太少,语言特征不充分.最后作者计算了四种语言真实网络文本中的所有公共子串,并对文种判别所需要的最短字符串长度进行了分析.%Distinguishing Uyghur language from similar Arabic script languages such as Arabic, Kazakh, Kirgiz, etc. is an indispensable issue in Uyghur information processing. The paper builts a n-gram based Uyghur language discrimination model over an optimized Uyghur character encoding schema for an accuracy over 98%. The analysis reveals the misestimated texts are centered around the forum posts and microblogs because of their extremely short length (often only a few words). Thus, the paper examines all common sub-strings among tokens appeared in web texts of the four languages and probes into the minimum string length required to determine its language.

著录项

来源
《中文信息学报》|2012年第6期|109-115|共7页
作者
倪耀群; 曹鹏; 许洪波; 唐慧丰; 程学旗;
展开▼
作者单位

中国科学院计算技术研究所,北京100190;

中国科学院研究生院,北京100049;

解放军外国语学院,河南洛阳471003;

中国科学院计算技术研究所,北京100190;

中国科学院研究生院,北京100049;

中国科学院计算技术研究所,北京100190;

解放军外国语学院,河南洛阳471003;

中国科学院计算技术研究所,北京100190;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
老维文; 语种识别; 最大公共子串;

相似文献

中文文献
外文文献
专利

1. 基于多种情感特征的网络文本倾向性判别方法研究 [J] . 樊康新 . 电脑知识与技术 . 2015,第022期
2. "超文本文学"网络出版的文本特质及其成因探讨 [J] . 周阿红 ,阎真 . 出版科学 . 2018,第005期
3. 网络电子合同文本与传统合同文本的比较探讨 [J] . 姜葵 ,陈全明 . 贵阳学院学报：自然科学版 . 2003,第004期
4. 基于网络文本的阅读行为方式探讨 [J] . 张明霞 . 硅谷 . 2019,第008期
5. 基于网络文本的阅读行为方式探讨 [J] . 张明霞1 . 新媒体研究 . 2019,第008期
6. 所有的圈有不同长度的一些图的边数的下界 [C] . 赖春晖 . 中国运筹学会第六届学术交流会 . 2001
7. 基于孪生网络的相似文本判别 [A] . 武锦 . 2020

网络维吾尔文判别及其文本长度下界的探讨

摘要

著录项

相似文献

相关主题

期刊订阅