複数の音が混在する多重音の単一チャネル信号から基本周波数(以後と呼ぶ)
を検出する技術は,様々な貢献が期待される.
例えば,
会議や討論の場を想定した同時複数音声認識,電話のベルやテレビなどの妨害音
に頑健な音声認識や,複数話者からの韻律情報抽出などが挙げられる.
しかし,短時間周波数解析によるスペクトルの広がり,調波成分の重複,ミッ
シングファンダメンタル現象などの複合的な要因により,容易に解決できる問題ではない.
音声信号処理の分野において近年この研究は徐々に盛んになり,いくつか
の有効な手法が報告されている.
Chazanらは時間伸縮波形モデルの最適近似と櫛形フィルタにより同時発話音声か
ら音声を分離する手法を提案した[1].
Wuらは,フィルタバンク処理と
の勾配を状態とした隠れマルコフモデル
を用いた
追跡手法を提案した
[2].
上の例も含め,これまで様々な定式化により検出手法が提案されてきたが,
話者数の推定や``倍ピッチ/半ピッチエラー''の問題を厳密に定式化した手法
はいまだ報告されていない.
本報告では,同時発話音声による多重音スペクトルの解析を統計的推定手法に帰着させ,情報量規準
に基づいて話者数,真の
を適切に推定する``検出処理''と,直前フレームの
検出結果に基づいて
を追跡していく``追跡処理''により構成される新しい
アルゴリズムを提案する.