next up previous
次へ: 同時発話音声の追跡アルゴリズム 上へ: Kameoka2004ASJ03 戻る: はじめに

拘束つき混合正規分布モデルの定式化

短時間周波数解析における窓関数や,解析区間内での周波数の連続的な変 化などの影響により,左右に広がりをもつスペクトルが観測される. 短時間分析ではスペクトルの周波数分解能は低いため,ローカルピークが必ずし も正確な周波数と一致しない.そこで,ピークを検出するという考え方から離 れ,スペクトルの広がりの形状を正規分布で最適近似し,その平均を推定するこ とで周波数検出を行うことを考える.

窓関数として正規分布窓を用いれば,窓関数の影響のみによるスペクトルの広がりの形状 は理論的に正規分布の形状となるので,基本周波数成分に対応する正規分布の平 均だけが自由度をもつ拘束つきの混合正規分布により単一音の調波構造をモデル化できる.これを調波モデルと呼ぶ. 調波モデル$k$の各平均は, $\mbox{\boldmath$\mu$}_k\!\!=\!\{\mu_k,2\mu_k,\cdots,$ $n\mu_k,\cdots,$ $N_k\mu_k\}$ と書ける.ただし,$n$$n$次高調波成分に対応する正規分布のラベルを, $N_k$は正規分布の数を表す.

$K$個の音の多重音スペクトルを,調波モデルを$K$個混合するこ とによりモデル化し,モデルパラメータを, $\{\theta\}\!=\!\displaystyle\{ n\mu_k,\!w_n^k,\!\sigma_n^k~\vert~n,\!k\!\in\!\mathbf{N}\}$ とする.$w_n^k$$\!\sigma_n^k$$n$次成分の重み,分散を表 す.スペクトル分布を正規化して確率変数(周波数)$\omega$の確率分布$f(\omega)$と 見なせば,$\theta$の事後確率を最大化する $\theta$は 以下で表される.

$\displaystyle \theta=\displaystyle \mathop{\rm argmax}_{\theta} \left\{\log p(\...
...\infty}^{\infty}\!\!\!\!f(\omega)\log p(\omega\vert\theta)\rm {d}\omega\right\}$     (1)



$p(\theta)$$\theta$の事前確率を表す. 式(1)を解析的に解くことは困難であるが, EM(Expectation Maximization)アルゴリズムにより以下の$Q$関数 を最大化する$\bar{\theta}$$\theta$の更新値として逐次的に計算することで $\theta$の局所最適解を得ることができる.

\begin{eqnarray*}
Q(\theta,\bar{\theta})=\log p(\bar{\theta})+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
\end{eqnarray*}



$\displaystyle ~~~~\displaystyle\!\sum_{k=1}^{K}\!\sum_{n=1}^{N_k}\!\int_{-\inft...
...ert\omega,\theta)
f(\omega)\log p(\omega,\!n,\!k\vert\bar{\theta})\rm {d}\omega$     (2)




平成16年3月25日