next up previous
次へ: MIDI信号への変換 上へ: 多重音の認識・分離・MIDI変換 戻る: Specmurt法

Harmonic Clustering

一方、我々は音声認識で多用される学習アルゴリズムをヒントにして、 ウェーブレット変換などで求めたパワースペクトル分布$v(x)$($x$は対数周波数) は多数のwaveletの標本分布であると解釈し、広がって分布する周波数成分をク ラスタ化する視点から、高精度な多重ピッチ推定手法[39,40] を提案した。

各重心が調波関係にある複数のクラスタからなる結びクラスタを複数個用意し、 この結びクラスタの重心を求める。これは、高調波成分をすべて基本周波数成分 に集約させ、あたかも純音のスペクトルと見なして基本周波数を推定することと 同等になる。Specmurt 法などで求めた初期値から出発して、繰り返し演算によ り、このような調波関係拘束条件下でのクラスタリングアルゴリズムにより高精 度な多重ピッチを推定する手法をHarmonic Clusteringと呼ぶ。

スペクトル密度$v(x)$と 第$k$クラスタの$n$倍音$\{n,k\}$に帰属する確率 $p_n^k(x)$との積は、クラスタ$\{n,k\}$ に割り当てられた標本値$x$の標本数 と考えることができる。従って、 $k$番目の結びクラスタのうちの基本周波数推 定値に相当するクラスタ重心を$\mu_k$とすると、帰属する標本数にクラスタ重 心までの距離関数 $\varphi(x,\mu_k+\log n)$(通常は正規分布形状を使用)を乗 じて積分したクラスタリングの目的関数は

$\displaystyle \displaystyle
\int \sum_{k=1}^{K}\sum_{n=1}^{N_k}\varphi(x,\mu_k+\log n)p_n^k(x)v(x)dx$     (9)



となる。 この最適化問題は、特定の条件において、EM (Expectation Maximization)アル ゴリズムに帰着することができ、効果的に求めることができる。

結びクラスタの数は同時発音数に相当するが、適切な結びクラスタ数(パラメー タ数に直結)をAICなどの情報量規準を用いて推定することができる [40]。また、ピッチ推定研究において永年の課題であった倍ピッチ/ 半ピッチ誤りを回避して適切な基本周波数を見つける問題も同様に情報量規準の 問題に帰着させることができる[40]。



平成16年9月23日