next up previous
次へ: Specmurt法 上へ: 多重音の認識・分離・MIDI変換 戻る: 多重音の認識・分離・MIDI変換

多重音解析の研究

音声の分野では 多数のピッチ推定手法が提案された[22]が、それらの多くは音楽の和声 のような多重音への適用は原理的に困難である。音楽の音高推定の研究は、1975 年にMoorer[23]が開始して以来、国内では片寄ら[24]を先 駆けとして1990年代になって盛んになった。 また、実環境音声認識に向けて同時発話音声の多重ピッチ推定の研究も同じ頃に 関心が集まるようになった。

これまで、音楽の自動採譜を動機としたものとして、多重音を形成する要素に関 して仮説を立て、その仮説の組み合せから尤もらしい解を探索する音名同定手法 が考えられた。この種の手法では主に、スペクトルのテンプレートマッチング法 [25,26]や櫛形フィルタを用いる手法[27]やベイジアンネッ トワークから最尤仮説を求める手法[28]などがある。このような組み 合せ解の探索問題は共通して探索空間が膨大となる点などが課題とされている。

一方、音声を対象とした研究では、多重音信号を関数で表現し、そのパラメータ を直接求めることで基本周波数を高精度に求め、信号を分離する手法が提案され ている[29,30]。また、音楽の音高推定を目的とした同様なアプロー チも提案されている[31]。このアプローチでは、必然的に煩雑な解析 を要するため、一般に高々2音程度の多重音を対象とすることが多い。

また、近年パワースペクトルをパラメトリックモデルで直接近似するアプローチ [32]が提案されている。この手法では、位相情報の分だけ求めるべきパ ラメータの次元は小さく済むため最適化問題の解析は簡略化され、より多くの同 時発音数を対象として扱うことが可能である。この他にも、拡張カルマンフィル タの応用により目的音声のピッチを追跡する手法[33]やフィルタバン ク処理と様々な処理を組み合わせた多段階な手法[34,35,36]が 提案されている。



平成16年9月23日