next up previous
次へ: まとめ 上へ: Kameoka2004ASJ03 戻る: アルゴリズム構成


評価実験

上記の$F_0$追跡アルゴリズムの性能を確認するため,$F_0$検出方法としてよ く知られるCepstrum法との比較を行った.また,すべてのフレームについて``検 出処理''のみ行った場合[4,5]との比較も併せて行った. ATR音声データベースAセットより,会話音声信号データ(サンプリング周波数 $12$kHz)とハンドラベルによる$F_0$パターンのreferenceデータを用いた. 2話者による同時発話音声信号を,SSR(signal-to-signal ratio)$0$dBで2つの音 声信号を人工的に加算して作成した. 各信号データに対し,フレーム長$64$msの正規分布窓をかけて周期$25$msで周波数解析 (FFT)を行い,スペクトル系列を得た. ``検出処理''の話者数推定ステップにおいて,初期調波構造モデル数は6とし,$\!\mu_k\!$ を初期配置する周波数範囲は$90$Hzから$360$Hzとした. 検出された$\!F_0\!$$\!F_0\!$パターンのreferenceデータの値から $5$%以上外れた場合はgross error(それ以外は正解)と見なし,各話者ごとに正 解した延べフレーム数をもとに正解率を算出した.

男性話者2人で作成したデータ6個,女性話者2人で作成したデータ7個, 女性話者1人と男性話者1人で作成したデータ8個それぞれに対する各手法の平均 正解率を図1に示す. 提案手法の正解率はCepstrum法に比べて大きく上回り,基本性能の確認ができた. また,``検出処理''のみを行った場合に比べ,性能向上が確認できた. ``検出処理''では情報量規準に基づいて話者数推定を行っているため,相対的に強 度の小さい方の話者音声が無視されてしまう傾向があるが,``追跡処理''では調 波モデルの削減はしないため,相対的に強度の小さい音声の$F_0$の追跡もでき たことが正解率向上の理由の1つとして考えられる. ただし,直前フレームの検出結果が誤っていた場合には,それ以降のフレームに も影響する危険性があり,``検出処理''の精度向上が今後の重要な課題である.

図 1: 各手法による$F_0$検出の平均正解率
\includegraphics[width=\linewidth,height=33mm]{/lab/common/publications/kameoka/Fig/ACCURACYboxgraph2004JanPaper.eps}




平成16年3月25日