【24h】

Disentangling from Babylonian Confusion - Unsupervised Language Identification

机译:摆脱巴比伦的困惑-无监督语言识别

获取原文
获取原文并翻译 | 示例

摘要

This work presents an unsupervised solution to language identification. The method sorts multilingual text corpora on the basis of sentences into the different languages that are contained and makes no assumptions on the number or size of the monolingual fractions. Evaluation on 7-lingual corpora and bilingual corpora show that the quality of classification is comparable to supervised approaches and works almost error-free from 100 sentences per language on.
机译:这项工作提出了一种无监督的语言识别解决方案。该方法基于句子将多语言文本语料库分类为所包含的不同语言,并且不对单语言分数的数量或大小做任何假设。对7语言语料库和双语语料库的评估表明,分类的质量可与监督方法相提并论,并且从每种语言的100个句子开始几乎没有错误。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号