基于n-gram频率的语种识别改进方法

郝洺; 徐博; 殷绪成; 王方圆

首页> 中文期刊> 《自动化学报》 >基于n-gram频率的语种识别改进方法

基于n-gram频率的语种识别改进方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

识别短文本的语言种类是社交媒体中自然语言处理的重要前提,也是一个挑战性热点课题.由于存在集外词和不同语种相同词汇干扰的问题,传统基于n-gram的短文本语种识别方法(如Textcat、LIGA、logLIGA等)识别效果在不同的数据集上相差甚远,鲁棒性较差.本文提出了一种基于n-gram频率语种识别改进方法,根据训练数据不同特性,自动确定语言中特征词和共有词的权重,增强语种识别模型在不同数据集上的鲁棒性.实验结果证明了该方法的有效性.

著录项

来源
《自动化学报》 |2018年第3期|453-460|共8页
作者
郝洺; 徐博; 殷绪成; 王方圆;
展开▼
作者单位

北京科技大学计算机与通信工程学院北京100083;

中国科学院自动化研究所数字内容技术与服务研究中心北京100190;

北京科技大学计算机与通信工程学院北京100083;

中国科学院自动化研究所数字内容技术与服务研究中心北京100190;

展开▼
原文格式 PDF
正文语种 chi
中图分类
关键词
语种识别; 短文本; n-gram频率; 鲁棒性;

相似文献

中文文献
外文文献
专利

1. 基于N-Gram模型的蒙古语文本语种识别算法的研究 [J] . 马志强 ,张泽广 ,闫瑞 . 中文信息学报 . 2016,第001期
2. 基于N-Gram的计算机病毒特征码自动提取的改进方法 [J] . 杨燕 ,蒋国平 . 计算机科学 . 2017,第0z2期
3. 采用DBN的TV改进方法在语种识别中的应用 [J] . 洪新海 ,宋彦 ,蒋兵 . 信号处理 . 2015,第009期
4. 基于覆盖频率的模糊测试改进方法 [J] . 傅玉 ,石东辉 ,张阳 . 计算机系统应用 . 2019,第001期
5. 基于DDS与PLL混合的频率合成改进方法研究 [J] . 王锋 ,刘鹏远 ,李兵 . 微电子学与计算机 . 2017,第5期
6. 采用DBN的TV改进方法在语种识别中的应用 [C] . HONG Xin-hai ,洪新海 ,SONG Yan . 第十七届全国信号处理学术年会 . 2015
7. 基于多任务神经网络的语种识别研究 [A] . 秦晨光 . 2020

基于n-gram频率的语种识别改进方法

摘要

著录项

相似文献

相关主题

期刊订阅