Perceptual invariance against a large amount of acoustic variability in speech has been a long-discussed question in speech science and engineering and it is still an open question. Recently, we proposed a candidate answer for it based on mathematically-guaranteed relational invariance. Here, completely transform-invariant features, /-divergences, are extracted from speech dynamics of an input utterance and they are used to represent that utterance. In this paper, this representation is interpreted from a viewpoint of telecommunications and evolutionary anthropology. Speech production is often regarded as a process of modulating the baseline timbre of a speaker's voices by manipulating the vocal organs, i.e. spectrum modulation. Then, extraction of the linguistic content from an utterance can be viewed as a process of spectrum demodulation. This modulation-demodulation model of speech communication has a good link to known morphological and cognitive differences between humans and apes. The model also claims that a linguistic content is transmitted mainly by supra-segmental (prosodic) features.%音声における「音響的多様性と知覚的不変性」は,古くから音声科学・工学の分野における研究対象となってきたが,未だに解決に至っていない問題の一つである。近年筆者は,数学的に不変性が保証された「関係的不変性」を用いてこの問題に対する一つの解を導いている。即ち,如何なる連続・可逆な空間写像に対しても不変となるf-divergenceを用いて,音声の動き成分を抽出し,これのみを用いて発声を表象する方式を提案した.本稿では,この表象方式に対して電気通信及び進化人類学の観点から一つの解釈を加える。音声生成はしばしば,話者がもつ(その話者特有の)音色(スペクトル)を,構音器官を動かすことで変調させるプロセスとして解釈される(音色変調)。この場合,音声認識,即ち,音声からその言語的内容(メッセージ)を抽出するプロセスは,音色復調として考えることになる。音声コミュニケーションを音色の変・復調プロセスとして考えた場合,ヒトとサルの構音器官に関する運動能力の差異,苦情報に対する認知能力の差異と非常に整合性のある議論が展開できるようになる。更に本稿では,言語的内容の伝搬を担う音声の音響的特徴は,その多くが超分節的特徴(顔律的特徴)であることの主張も行う。
展开▼