閉ループ学習に基づく高音質音声合成


更新:2026/01/06
前の画像
次の画像
概要

閉ループ学習という音声合成の新たなパラダイムを提唱し、それに基づく音声合成方式を世界で初めて開発した。

従来技術との比較

従来の音声合成では、入力から出力までの各種中間信号処理において個別にパラメータを試行錯誤的に最適化していた。閉ループ学習では、音声合成の複雑な信号処理を行列演算の形で表現し、合成音声と教師信号の誤差を定式化、これを最小化するように音声合成の行列要素を学習する。

特徴・独自性

合成音声の品質が格段に向上するだけでなく、それまで数ギガバイト規模のメモリが必要だった合成処理をわずか数百キロバイト程度のメモリで実現することに成功した。

実用化イメージ

東芝製品に限らず、カーナビや電子辞書、ビデオゲーム機等の民生機器やエスカレータやエレベータ等の社会インフラ機器等に広く採用され、産業の発展に大きく貢献し、2013年春の紫綬褒章受章につながった。

キーワード

研究者

高等大学院機構

赤嶺 政巳 教授 
工学博士(東北大学)/工学修士(東北大学)

MASAMI AKAMINE, Professor