next up previous
次へ: アルゴリズム構成 上へ: 同時発話音声の追跡アルゴリズム 戻る: 検出処理


追跡処理

1つのフレーズ区間では,ある時点の$F_0$と直前の$F_0$の間には強 い依存関係があるはずである. そこで,直前フレームでの$F_0$の検出結果を$\mu_k$の事前分布に反映させ,最 大事後確率(Maximum A Posteriori, MAP)推定により$\mu_k$をフレーム毎に更新(追跡)する. $\mu_k$の(直前フレームでの$\mu_k$の推定値に基づく)予測値を$\hat{\mu}_k$と し,$\mu_k$の事前分布を$\hat{\mu}_k$を平均,$\nu$を分散とした正規分布とすれば, 式(2)より,EMアルゴリズムのMステップにおける$\mu_k$の更 新値は

$\displaystyle \bar{\mu}_k\!\!=\!\!\displaystyle\frac{\displaystyle\hat{\mu}_k+\...
..._n^k}^2}\int_{-\infty}^{\infty}p(n,k\vert\omega,\theta)
f(\omega)\rm {d}\omega}$     (7)



となる. また,重み$w_n^k$と分散$\sigma_n^k$の更新はそれぞれ式(6), (5)を用いる. この追跡処理が連続で3フレーム以上続く場合,予測値$\hat{\mu}_k$は,過去の直 前の2フレームにおける$\mu_k$の推定値 $\mu_k', \mu_k''$を結ぶ直線の延長上 の値とし, $\hat{\mu}_k=2\mu_k'-\mu_k''$と定める.それ以外の場合は,直前フレームの推定値 を予測値とする.



平成16年3月25日