上記の追跡アルゴリズムの性能を確認するため,
検出方法としてよ
く知られるCepstrum法との比較を行った.また,すべてのフレームについて``検
出処理''のみ行った場合[4,5]との比較も併せて行った.
ATR音声データベースAセットより,会話音声信号データ(サンプリング周波数
kHz)とハンドラベルによる
パターンのreferenceデータを用いた.
2話者による同時発話音声信号を,SSR(signal-to-signal ratio)
dBで2つの音
声信号を人工的に加算して作成した.
各信号データに対し,フレーム長
msの正規分布窓をかけて周期
msで周波数解析
(FFT)を行い,スペクトル系列を得た.
``検出処理''の話者数推定ステップにおいて,初期調波構造モデル数は6とし,
を初期配置する周波数範囲は
Hzから
Hzとした.
検出された
が
パターンのreferenceデータの値から
%以上外れた場合はgross error(それ以外は正解)と見なし,各話者ごとに正
解した延べフレーム数をもとに正解率を算出した.
男性話者2人で作成したデータ6個,女性話者2人で作成したデータ7個,
女性話者1人と男性話者1人で作成したデータ8個それぞれに対する各手法の平均
正解率を図1に示す.
提案手法の正解率はCepstrum法に比べて大きく上回り,基本性能の確認ができた.
また,``検出処理''のみを行った場合に比べ,性能向上が確認できた.
``検出処理''では情報量規準に基づいて話者数推定を行っているため,相対的に強
度の小さい方の話者音声が無視されてしまう傾向があるが,``追跡処理''では調
波モデルの削減はしないため,相対的に強度の小さい音声のの追跡もでき
たことが正解率向上の理由の1つとして考えられる.
ただし,直前フレームの検出結果が誤っていた場合には,それ以降のフレームに
も影響する危険性があり,``検出処理''の精度向上が今後の重要な課題である.