首页> 中文会议>第九届全国人机语言通讯学术会议 >实际场景语料和FSN语料的平衡方法

实际场景语料和FSN语料的平衡方法

摘要

本文研究了人机日常对话领域语料的生成方法, 这些语料将被用来训练连续语言识别器的语言模型。语料的来源主要有两部分: 一部分是已有的通过整理实际应用场景下录音得到的语料,我们称之为实际场景语料;第二部分是用有限状态网络(Finite State Network, FSN)句法规则方法生成的语料,我们称之为 FSN 语料。本文重点研究了这两种语料的平衡方法,即以何种方法、何种比例混合这两种语料,得到最终训练语料,提出了以实际场景语料和FSN语料中共有的关键词的概率比较为基础,用一定倍数的部分实际场景语料扩展 FSN 语料,得到最终语言模型训练语料的方法。用该方法得到的语料训练的语言模型使连续语音识别器的识别性能有了较大提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号