Due to advancements on speech and language processing, a number of spoken dialogue systems have been constructed. However, since most of them adopt existing text-to-speech synthesizers to generate output speech, it is rather difficult to reflect all the linguistic information obtained during the reply sentence generation. In order to solve this situation, a framework is necessary for correctly reflecting higher-level linguistic information, such as syntactic structure and discourse information, on the prosody of output speech: concept-to-speech conversion, where reply sentences are generated from information (to be transmitted) and converted into speech in a unified process. We have constructed a spoken dialogue system on road guidance, and, in the system, realized concept-to-speech synthesis. The linguistic information of the generated sentence is handled in tag LISP form to keep the syntactic structures throughout the process. By this way, the linguistic information can be properly reflected on the prosody of output speech. Furthermore, by making it possible to insert not only words but also phrase templates in tags, various sentences were generated with minor increase of templates. Results of listening experiment and evaluation of sentence generation efficiency showed the validity of the method developed as above.%音声認識·合成をはじめとする音声·言語処理の進展にともない,多くの音声対話システムが構築されている.しかしながら,それらの多くは,音声合成部に既存のテキスト音声合成器(ソフトウェア)を用いているため,応答文生成の過程で得られる言語情報を良好に音声出力に反映させることが困難である.音声対話システムの応答音声は,場面に即した内容の文を適切に音声化したものであることが要求される.そのためには,統語構造や談話情報等の高次の言語情報を正しく韻律に反映させることのできる枠組みが必要であり,したがって,伝達する情報から文を生成し,音声を合成する,概念音声合成の実現が求められる.我々は,応答音声を概念音声合成によって行う道案内音声対話システムを構築し,その中で,文生成に関わる言語情報を,構文木構造を保持したまま取り扱う手法を開発した.応答生成のための言語情報の取扱い手法として,情報スロットをタグで表現したLISP形式のテンプレートを用意することで,統語構造や談話情報等の高次の言語情報を適切に韻律に反映させる手法を実現した.また,タグに単語だけでなく連文節の定型フレーズも挿入できるようにし,より柔軟で汎用的な応答文生成を実現した.実験·検証により,堤案手法の有効性が確かめられた.
展开▼