【24h】

Using Place Name Data to Train Language Identification Models

机译:使用地名数据训练语言识别模型

获取原文
获取原文并翻译 | 示例

摘要

The language of origin of a name affects its pronunciation, so language identification is an important technology for speech synthesis and recognition. Previous work on this task has typically used training sets that are proprietary or limited in coverage. In this work, we investigate the use of a publically-available geographic database for training language ID models. We automatically cluster place names by language, and show that models trained from place name data are effective for language ID on person names. In addition, we compare several source-channel and direct models for language ID, and achieve a 24% reduction in error rate over a source-channel letter tri-gram model on a 26-way language ID task.
机译:名称的起源语言会影响其发音,因此语言识别是语音合成和识别的重要技术。以前有关此任务的工作通常使用专有或覆盖范围有限的培训集。在这项工作中,我们调查了使用公开可用的地理数据库来训练语言ID模型的情况。我们会自动按语言对地名进行聚类,并显示根据地名数据训练的模型对于人名上的语言ID有效。此外,我们对语言ID的几种源通道和直接模型进行了比较,与在26向语言ID任务上的源通道字母三元模型相比,错误率降低了24%。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号