東京大学大学院情報理工学系研究科システム情報学第一（嵯峨山・小野）研究室
研究内容解説 (最終更新: 2009.02.18)

残響時間比に注目した音響モデル学習法による残響下音声認識

西亀健太 †，渡部晋治 †† ，

西本卓也 †，

小野順貴 †，

嵯峨山茂樹 †

†東京大学情報理工学系研究科
††NTTコミュニケーション科学基礎研究所

残響時間比に注目した音響モデル学習法

【背景】 実環境における音声認識においては，残響が大きな問題となります．残響とは，音源が発音を停止した後も音が響いて聴こえる現象のことをいいます．残響は部屋の壁や天井で音が多重に反射することにより生じます．例えば，お風呂やプールなどで声が響く現象などは残響によるものです．現在の音声認識システムでは残響の重畳していない音声（図2）の認識ではかなり高い性能が得られていますが，残響の重畳した音声（図3，4）の認識性能はまだまだ不十分です．残響による性能劣化は，著しく音声のスペクトルを歪ませるような残響（図4）だけでなく，人間がほとんど意識することのないような残響（図3）でも無視できないものです．


図2. 残響の重畳していない音声 (上：スペクトログラム，下：波形)	図3. 残響時間0.25秒の残響が重畳した音声 (上：スペクトログラム，下：波形)	図4. 残響時間1.66秒の残響が重畳した音声 (上：スペクトログラム，下：波形)

【残響音声による音響モデル学習】 現在の音声認識は大量に用意した学習用の音声（の特徴量）から音響モデルと呼ばれる確率モデルを学習し，入力された音声特徴量とのマッチングを行うことで行われます．残響下音声認識においては，学習用の音声にあらかじめ残響を付与するアプローチが有効であることが知られています（e.g.　[1][2]）．しかし，一般に認識を行う環境の残響特性は未知であり，学習用の音声に付与する残響特性とは異なります．そこで，本研究ではどういった残響特性の違いであればよりよい認識性能が得られるかについて検討を行いました．

【着眼点】 残響は定常雑音の重畳ではなく，過去に発声された音声が現在の音声に重なる現象です．そのため，残響がどれだけ続くかという特性について特に注目すべきと考えられます．そこで，残響特性の中でも特に残響時間の違いによって音声認識性能がどのように変化をするかということを調べました．残響時間とは，音源信号停止後，エネルギーが60dB減衰する時間のことをいいます．予想としては残響時間が学習時と認識時で一致しているときに最も認識性能が高くなると考えられます．

【実験】 残響時間が0.05秒～0.90秒の15段階で異なる音声を人工的に生成し音響モデルの学習に用いました．それらの複数の音響モデルでさまざまな環境における残響音声の認識を行いました．認識対象の残響音声は，表1の環境で測定された残響インパルス応答を音声に重畳することにより作成しました．

　表1. 左：CENSREC-4[3]に含まれる残響インパルス応答8種類．　右：SMILE2004データベース[4]に含まれる残響インパルス応答11種類．　

名称	環境（残響時間）
CAR	車内（0.05秒）
ELV	エレベータホール（0.75秒）
JSB	浴室（0.60秒）
JSR	和室（0.40秒）
LOU	ラウンジ（0.50秒）
LVG	居間（0.65秒）
MTG	会議室（0.65秒）
OFC	オフィス（0.25秒）

名称	環境（残響時間）
t20201	講義室（1.13秒）
t20317	クラシック音楽専用ホール（2.62秒）
t20401	会議室（0.66秒）
t20402	講義室（0.95秒）
t20403	大講義室（1.16秒）
t20404	ホール（1.66秒）
t20405	教会（0.80秒）
t20416	ホール（1.62秒）
t20417	ホール（1.69秒）
t20418	ホール（1.74秒）

学習環境の残響時間（学習残響残響）と認識環境の残響時間（認識残響時間）の比（残響時間比）によって認識性能がどのように変化するかをプロットしたのが図5です．図5を詳しく調べると残響時間比が約0.15～0.93のところで認識性能が高くなることがわかりました．すなわち学習残響時間と認識残響時間が一致する条件ではなく，予想に反して学習残響時間の方が短い条件で認識性能が高くなることがわかりました．最も認識性能が高くなる残響時間比において，残響時間が一致する条件に比べて12.5ptsの単語正解精度（Word Accuracy，WA(%)）の改善が達成されました．

図5. 各環境ごとに，学習残響時間を変化させた場合の認識性能の変化．横軸は認識残響時間と学習残響時間の比を対数軸で示した．左：CENSREC-4，右：SMILE2004.

【考察】 入力音声は音声特徴量空間内おける軌跡であり，音響モデルは音声特徴量空間内において分布が広がっているものであると考えられます．これを，模式的に3次元空間でに表現したのが図6です．このように考えたとき，音声認識とは音声の軌跡が正しいカテゴリの分布に属するように通過する過程であると言い換えられます．残響音声の場合，残響により音声同士が重なる影響により特徴量同士が近いため，音声の軌跡が収縮すると考えられる．それによって残響のない音声で学習された音響モデルによる認識が困難になると考えられます．これに対し，残響時間が一致する学習データで音響モデルを学習すると，残響音声の軌跡はそれぞれのカテゴリの分布の平均近くを通過しますが，分布同士の距離が近すぎるためにモデル自体が持っているはずの識別能力が低下すると考えられます．それに対し学習残響時間が短い条件では，分布間の距離が一致条件に比べて大きいため識別能力の低下が小さいため，先に述べたような結果が得られたのだと考えられます．


図6. 音声特徴量空間内の音声の軌跡と各カテゴリ音響モデルの関係の模式図．図示のため音声特徴量空間3次元空間とした．左：クリーン音響モデル，右上：残響時間が一致する音響モデル，右下：学習残鏡時間の方が短い音響モデル．

【残響下音声認識への適用】 ここまでで得られた知見を残響下音声認識に適用することができます．もし，認識環境において残響時間が既知であればそれより短い残響音声により音響モデル学習を行うことができます．残響時間が未知である場合も一般的な実環境の残響時間は例えば表1にあるような範囲に分布していると考えられますので，それより短い残響音声を用意し残響また，この知見はマルチコンディション学習法，音響モデル選択法，音響モデル適応法などと併用が可能です．マルチコンディション学習法に応用した例については下記の関連文献をご参照ください．音響モデル選択法や音響モデル学習法との併用は今後の課題です．

参考文献

[1]　L. Couvreur, C. Couvreur, and C. Ris. "A corpus-based approach for robust ASR in reverberant environments," In Proc. ICSLP, Vol. 1, pp. 397-400, May. 2000.
[2]　馬場朗, 李晃伸, 猿渡洋, 鹿野清宏. "残響適応音響モデルを用いた音声認識," 日本音響学会2002 年秋季研究発表会講演論文集, 1-9-14, pp. 27-28, 2002.
[3]　M. Nakayama, T. Nishiura, Y. Denda, N. Kitaoka, K. Yamamoto, T. Yamada, S. Tsuge, C. Miyajima, M. Fujimoto, T. Takiguchi, S. Tamura, T. Ogawa, S. Matsuda, S. Kuroiwa, K. Takeda, and S. Nakamura. "CENSREC-4: Development of evaluation framework for distant-talking speech recognition under reverberant environments," In Proc. Interspeech, pp. 968-971, Sep. 2008.
[4]　K. Kawai, K. Fujimoto, T. Iwase, H. Yasuoka, T. Sakuma, and Y. Hidaka. "Development of a sound source database for environmental/architectural acoustics: Introduction of SMILE 2004 (Sound Material in Living Environment 2004)," In Proc. ICA, pp. 1561-1564, 2004.

[ 研究室ホームページへ戻る ]