音声データには, ATRのBTECテストセット01を用いた. この評価用デー タは旅行の際に用いられる会話を朗読したもので, 全部で510文あり, 16kHzサン プリングで収録されたものである.
雑音はマイクロホンアレー正面から到来すると仮定し, マイクロホンの受音信号として, 適切な時間差を伴う音声に同一の雑音を加えた. 雑音は音声の周波数帯域に合わせて, 125Hzから6kHzのランダム帯域雑音を用いた. SNRは音声データの無音声区間を除いた区間の平均振幅から信号のエネルギーを求 め, 目的のSNRとなるように雑音の振幅を変化させた. その後, DSにより雑音抑圧した音声を認識した.
結果として, マイクロホンの数が多いほど認識率(単語正解精度)が向上した. さらにマイクロホン間隔に応じて音声のマイクロホンアレーに対する角度と関係して DS処理後のSNRが変化し, 入力信号のSNRが高いほど認識率も向上することが分かった. 各マイクロホン間隔(5cm, 10cm, 15cm)での, 音源と雑音源の角度の変化によるSNRの変化を図1に示す. マイクロホンを2個, SNRを20dBとして, 音声を度から度まで5度毎に 変化させたものを表している.