next up previous
次へ: 追跡処理 上へ: 同時発話音声の追跡アルゴリズム 戻る: 同時発話音声の追跡アルゴリズム


検出処理

発話開始時,フレーズ境界や新たな話者の音声介入時などにおいては, 話者数とそれぞれの$F_0$を検出する必要がある.この``検出処理''は, 話者数推定ステップと$F_0$検出ステップから成る.


話者数推定ステップ

まず, $\mu_k$が目的解へ局所収束する可能性を高くするため, 予想される発音数より多めの調波モデルを満遍なく初期配置する. ただし,調波モデルは話者数と同数あれば十分であり,この場合最尤の多重音 モデルは観測スペクトルに対して過適応を起こしている.ここで,情報量規準の 一つとしてよく知られる% latex2html id marker 742
\setcounter{footnote}{2}\fnsymbol{footnote}赤池情報量規準(Akaike Information Criterion: AIC)[3]を導入し,適切な自由パラメータ 数を推定する. すなわち,不必要な調波モデル(後述)から削減していき,AICが最小となるときの数を 推定話者数と考える.具体的な手順を以下に示す.

  1. 限定した周波数帯域内に基本平均を$K$個配置する.
  2. EMアルゴリズムにより$\theta$の最尤推定値を求める(事前分布を一様 分布とする).ここでは正規分布の重みは$k$のみに依存する調波モデルごとの 重みパラメータ$w_k$とする. 式(2)を最大化する$\mu_k$$w^k$$\sigma_n^k$の更新値は偏微分を$0$と置くことで以下として求まる.

    $\displaystyle \bar{\mu}_k\!\!\!\!$ $\textstyle =\!$ $\displaystyle \displaystyle\frac{\displaystyle\sum_{n=1}^{N_k}\!\frac{n}{{\sigm...
...a_n^k}^2}\int_{-\infty}^{\infty}p(n,k\vert\omega,\theta)f(\omega)\rm {d}\omega}$ (3)
    $\displaystyle \bar{w}^k\!\!\!\!$ $\textstyle =\!$ $\displaystyle {\sum_{n=1}^{N_k}\int_{-\infty}^{\infty}p(n,k\vert\omega,\theta)~\rm {d}\omega}$ (4)
    $\displaystyle \bar{\sigma}_n^k\!\!\!\!$ $\textstyle =\!$ $\displaystyle \sqrt{\frac{\int_{-\infty}^{\infty}p(n,k\vert\omega,\theta)f(\ome...
...omega}
{\int_{-\infty}^{\infty}p(n,k\vert\omega,\theta)f(\omega)\rm {d}\omega}}$ (5)



  3. AICを算出する. AICが最小値をとるときの調波モデルの数$\!\hat{K}\!$ を推定話者数とする.
  4. $w_k$が最小の(尤度への関与が最も低く,不必要と見なせる) 調波モデルを削除する.分散$\sigma_n^k$を大きめの値に % latex2html id marker 767
\setcounter{footnote}{3}\fnsymbol{footnote}置き換え, 2.に戻る.
$F_0$検出ステップ

前ステップにおいて求まる$\mu_k$の局所最適解は,真の$F_0$だけで はなくその整数倍あるいは整数分の1倍のいずれかに対応する可能性がある. ここでは各調波成分の強度を手がかりとして真の$F_0$を検出する. $\mu_k$を整数倍/整数分の1倍に置き換えながら,その都度正規分布ごとの重み$w_n^k$の 最尤推定値から調波成分の強度比を推定する. もし,置き換えた$\mu_k$が真の$F_0$の整数分の1倍である場合,実際に存在する調波成分 に対応する重み以外は全体のモデルが与える平均対数尤度にほとんど関与しない はずであり,モデルは過適応を起こしていると言える.この観点からAICに基づ き,適切な$\mu_k$の位置を推定する.前ステップにおいて残った調波モデルす べてについて以下を行う.

  1. 調波モデルの$1$次成分の平均を $t\mu_k$に置き換える.ただし,$t$を初期値$1$の自然数とする. 限定した周波数帯域内まででとり得る正規分布の数を$N_k^t$とする.
  2. EMアルゴリズムにより $w_n^k, \sigma_n^k$の最尤推定値を求める. Mステップにおける更新値は式(6),(5)となる.

    $\displaystyle \bar{w}_n^k=\displaystyle\int_{-\infty}^{\infty}p(n,k\vert\omega,\theta)~\rm {d}\omega$     (6)



  3. 自由パラメータ数を$N_k^t$としてAICを算出する. $t$$1$増やし,1.に戻る. AICが最小となる$t\mu_k$が推定$F_0$となる.



平成16年3月25日