音声認識     Speech Recognition
音声認識の研究は、機械に音声言語を理解する「耳」を与えることです。すで に限定された能力ながら商品も出回り始めました。今後はOSの基本機能に組み 込まれるなど、次世代のユーザインタフェースの根幹になるでしょう。しかし、 まだ、人間の柔軟な言語理解力、雑音耐性、話者適応力などに迫るのは、まだ 先のことです。音声認識研究で世界的によく知られた研究スタッフにより、 高度な研究を行なっていきます。


[ 音声認識とは ]
下の図のように、音声分析、音響モデル、言語モデル、 探索過程の4つの部分を持つ技術です。 入力音声は音声分析により認識に有効な本質的な特徴が抽出されます。 あらかじめ大量の学習データから各音素の特徴を 隠れマルコフモデル(HMM)により表現して音響モデルとして使用します。 また、語彙、文法あるいは言語統計などにより、発声内容を 規定するモデルが言語モデルです。 言語モデルで規定された探索空間の中で、入力音声をもっともよく 説明できるような音響モデルの列を捜し出すのが、 探索過程の役割です。 以上の構成要素により、 与えられた文法の中で、もっとも入力された音声特徴時系列 に合致する音素列を選び出し、認識結果として出力し、 応用システムでヒューマンインタフェースとして使われます。

音響モデル
隠れマルコフモデル(HMM)で
音素をモデル化し、入力音声の
部分部分がどの音素に近いか
評価します。
音声入力 音声分析
音声中から認識に有効な
特徴量を取り出します。
探索過程
入力音声にもっともよく
合致する音響モデルの列を
言語モデルの拘束下で捜し出します。
応用システム
認識結果をヒューマン
インタフェースとして
利用します。
言語モデル
発声される内容の可能性を
文法や言語統計などにより
規定します。
[ 研究概要 ]

WWW-admin: sslab-www@jaist.ac.jp