...
首页> 外文期刊>電子情報通信学会技術研究報告 >音色の変復調を通して考える音声コミュニケーション
【24h】

音色の変復調を通して考える音声コミュニケーション

机译:通过音色调制/解调考虑语音通信

获取原文
获取原文并翻译 | 示例
           

摘要

Perceptual invariance against a large amount of acoustic variability in speech has been a long-discussed question in speech science and engineering and it is still an open question. Recently, we proposed a candidate answer for it based on mathematically-guaranteed relational invariance. Here, completely transform-invariant features, /-divergences, are extracted from speech dynamics of an input utterance and they are used to represent that utterance. In this paper, this representation is interpreted from a viewpoint of telecommunications and evolutionary anthropology. Speech production is often regarded as a process of modulating the baseline timbre of a speaker's voices by manipulating the vocal organs, i.e. spectrum modulation. Then, extraction of the linguistic content from an utterance can be viewed as a process of spectrum demodulation. This modulation-demodulation model of speech communication has a good link to known morphological and cognitive differences between humans and apes. The model also claims that a linguistic content is transmitted mainly by supra-segmental (prosodic) features.%音声における「音響的多様性と知覚的不変性」は,古くから音声科学・工学の分野における研究対象となってきたが,未だに解決に至っていない問題の一つである。近年筆者は,数学的に不変性が保証された「関係的不変性」を用いてこの問題に対する一つの解を導いている。即ち,如何なる連続・可逆な空間写像に対しても不変となるf-divergenceを用いて,音声の動き成分を抽出し,これのみを用いて発声を表象する方式を提案した.本稿では,この表象方式に対して電気通信及び進化人類学の観点から一つの解釈を加える。音声生成はしばしば,話者がもつ(その話者特有の)音色(スペクトル)を,構音器官を動かすことで変調させるプロセスとして解釈される(音色変調)。この場合,音声認識,即ち,音声からその言語的内容(メッセージ)を抽出するプロセスは,音色復調として考えることになる。音声コミュニケーションを音色の変・復調プロセスとして考えた場合,ヒトとサルの構音器官に関する運動能力の差異,苦情報に対する認知能力の差異と非常に整合性のある議論が展開できるようになる。更に本稿では,言語的内容の伝搬を担う音声の音響的特徴は,その多くが超分節的特徴(顔律的特徴)であることの主張も行う。
机译:在语音科学和工程学中,针对语音中大量声学可变性的感知不变性一直是人们长期讨论的问题,并且仍然是一个悬而未决的问题。最近,我们基于数学上保证的关系不变性为其提出了一个候选答案。在此,从输入话语的语音动力学中提取出完全不变的变换特征/散度,并将它们用于表示该话语。在本文中,从电信和进化人类学的角度解释了这种表示形式。语音产生通常被认为是通过操纵人的器官来调节说话者声音的基线音色的过程,即频谱调制。然后,从话语中提取语言内容可以看作是频谱解调的过程。这种语音通信的调制-解调模型与人与猿之间已知的形态和认知差异有很好的联系。该模型还声称,语言内容主要通过超分段(韵律)特征进行传输。%音声における“音响的多様性と知覚的不変性”は,古くから音声科学・工学の分野における研究対象となってき年,未だに解决に至っていない问题の一つである。近年笔者は,数学的に不変性が保证された“关系的不変性”を用いてこの问题に対する一つの解を导いている。即ち,如何なる连続・可逆な空间写像に対しても不変となるf-divergenceを用いて,音声の动き成分を抽出し,これのみを用いて発声を表象する方式を进行した。本稿では,この表象方式に音声生成はしばしば,话者がもつ(その话者特有の)音色(スペクトル)を,构音器官を动かすことで変调させるプロセスとして解釈场合(音色変调)。この场合,音声认识,即ち,音声からその言语的内容(メッセージ)を抽出するプロセスは,音色复调として考えることになる。场合,ヒトとサルの构音器官に关する运动能力の差异,苦情报に対する认知能力の差异と非常に合并性のある议论が展开できるようになる。更に本稿では,言语的内容の伝搬を担う音声の音响的特徴は,その多くが超分节的特徴(颜律的特徴)であることの主张も行う。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号