次へ: 拘束つき混合正規分布モデルの定式化 上へ: Kameoka2004ASJ03 戻る: Kameoka2004ASJ03

はじめに

複数の音が混在する多重音の単一チャネル信号から基本周波数(以後と呼ぶ) を検出する技術は，様々な貢献が期待される．例えば，会議や討論の場を想定した同時複数音声認識，電話のベルやテレビなどの妨害音に頑健な音声認識や，複数話者からの韻律情報抽出などが挙げられる．しかし，短時間周波数解析によるスペクトルの広がり，調波成分の重複，ミッシングファンダメンタル現象などの複合的な要因により，容易に解決できる問題ではない．

音声信号処理の分野において近年この研究は徐々に盛んになり，いくつかの有効な手法が報告されている． Chazanらは時間伸縮波形モデルの最適近似と櫛形フィルタにより同時発話音声から音声を分離する手法を提案した $\!$ [1]． Wuらは，フィルタバンク処理との勾配を状態とした隠れマルコフモデルを用いた追跡手法を提案した $\!$ [2]．

上の例も含め，これまで様々な定式化により検出手法が提案されてきたが，話者数の推定や``倍ピッチ/半ピッチエラー''の問題を厳密に定式化した手法はいまだ報告されていない．本報告では，同時発話音声による多重音スペクトルの解析を統計的推定手法に帰着させ，情報量規準に基づいて話者数，真のを適切に推定する``検出処理''と，直前フレームの検出結果に基づいてを追跡していく``追跡処理''により構成される新しいアルゴリズムを提案する．

平成16年3月25日