首页> 外文期刊>電子情報通信学会技術研究報告 >距離マトリクス画像のハフ変換を用いた単語音声区間検出
【24h】

距離マトリクス画像のハフ変換を用いた単語音声区間検出

机译:基于距离矩阵图像的霍夫变换的单词语音片段检测

获取原文
获取原文并翻译 | 示例
获取外文期刊封面目录资料

摘要

本報告では,入力音声と標準パターンを両軸とし,交点座標における距離値をピクセルの明るさで表現した距離マトリクス画像をハフ変換することで得られる直線から,単語音声区間を推定する手法を提案する.認識対象となる単語音声の前後に認識対象外の音声が付加されている場合,従来は連続DPや連続音素認識などを応用してワードスポッティングを行う方法が提案されてきたが,入力音声長が長くなると計算量が爆発的に増大することが問題となっていた.本研究では,発話音声中に認識対象単語が含まれていると,距離マトリクス画像中に,距離の近い領域が直線状に現れることを利用し,これを画像のハフ変換により直線として検出するとともに,検出された直線から音声の始端と終端を得る方法を提案する.本方式を用いて,100都市名の区間検出実験を行った結果,対象音声区間の始端の検出誤差が最大で120ms,終端の誤差は最大で70msであることを確認し,認識精度を落とすことなく,計算時間を低減できる本手法の有効性を検証した.%In this report, using an input voice and a standard patterns as both axes, the analysis method that uses the distance matrix image where the distance value in the intersection coordinates expresses the brightness of the pixel is proposed. In case that a standard pattern is included in the input atterence, line area is obeseved in the distance matrix image. The line area is detected by the Hough transform of the distance matrix image. This idea was confirmed by the experiment of JEIDA 100 cities. The largest error of the beginning point was 120ms at most and the ending point was 70ms.
机译:在本报告中,我们提出了一种方法,该方法通过对距离矩阵图像进行Hough变换获得的直线来估计单词语音段,该距离矩阵图像的交点坐标处的距离值由像素亮度表示,输入语音和标准图案为两个轴。做。在要识别的单词语音之前和之后添加无法识别的语音的情况下,已经提出了通过应用连续DP或连续音素识别来执行单词点播的方法,但是输入语音长度为问题在于,计算量越长,其计算量就会爆炸性地增加。在该研究中,当所识别的语音中包括识别目标词时,在距离矩阵图像中的直线上出现近距离区域,并且通过图像的霍夫变换将其检测为直线。我们提出了一种从检测到的直线中获取语音开始和结束的方法。使用该方法进行100个城市名称的区域检测实验的结果是,确认目标语音区域的开头的检测误差最大为120毫秒,终止语音的误差最大为70毫秒,从而降低了识别精度。没有这个,我们验证了这种方法的有效性,可以减少计算时间。 %在本报告中,建议使用输入语音和标准图案作为两个轴,提出一种使用距离矩阵图像的分析方法,其中交点坐标中的距离值表示像素的亮度。包含在输入语音中的距离矩阵图像中的线面积被忽略,通过距离矩阵图像的Hough变换检测线面积,这一思想被JEIDA 100个城市的实验所证实,起点的最大误差最长为120毫秒,终点为70毫秒。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号