検出処理

発話開始時，フレーズ境界や新たな話者の音声介入時などにおいては，話者数とそれぞれの

を検出する必要がある．この``検出処理''は，話者数推定ステップと

検出ステップから成る．

話者数推定ステップ

まず， $\mu_k$ が目的解へ局所収束する可能性を高くするため，予想される発音数より多めの調波モデルを満遍なく初期配置する．ただし，調波モデルは話者数と同数あれば十分であり，この場合最尤の多重音モデルは観測スペクトルに対して過適応を起こしている．ここで，情報量規準の一つとしてよく知られる赤池情報量規準(Akaike Information Criterion: AIC)[3]を導入し，適切な自由パラメータ数を推定する．すなわち，不必要な調波モデル(後述)から削減していき，AICが最小となるときの数を推定話者数と考える．具体的な手順を以下に示す．

限定した周波数帯域内に基本平均を

個配置する．

EMアルゴリズムにより $\theta$ の最尤推定値を求める(事前分布を一様分布とする)．ここでは正規分布の重みは

のみに依存する調波モデルごとの重みパラメータ

とする．式(2)を最大化する $\mu_k$ ，

， $\sigma_n^k$ の更新値は偏微分を

と置くことで以下として求まる．

$\displaystyle \bar{\mu}_k\!\!\!\!$	$\textstyle =\!$	$\displaystyle \displaystyle\frac{\displaystyle\sum_{n=1}^{N_k}\!\frac{n}{{\sigm... ...a_n^k}^2}\int_{-\infty}^{\infty}p(n,k\vert\omega,\theta)f(\omega)\rm {d}\omega}$	(3)
$\displaystyle \bar{w}^k\!\!\!\!$	$\textstyle =\!$	$\displaystyle {\sum_{n=1}^{N_k}\int_{-\infty}^{\infty}p(n,k\vert\omega,\theta)~\rm {d}\omega}$	(4)
$\displaystyle \bar{\sigma}_n^k\!\!\!\!$	$\textstyle =\!$	$\displaystyle \sqrt{\frac{\int_{-\infty}^{\infty}p(n,k\vert\omega,\theta)f(\ome... ...omega} {\int_{-\infty}^{\infty}p(n,k\vert\omega,\theta)f(\omega)\rm {d}\omega}}$	(5)

AICを算出する． AICが最小値をとるときの調波モデルの数 $\!\hat{K}\!$ を推定話者数とする．

が最小の(尤度への関与が最も低く，不必要と見なせる) 調波モデルを削除する．分散 $\sigma_n^k$ を大きめの値に置き換え， 2.に戻る．

検出ステップ

前ステップにおいて求まる $\mu_k$ の局所最適解は，真の

だけではなくその整数倍あるいは整数分の1倍のいずれかに対応する可能性がある．ここでは各調波成分の強度を手がかりとして真の

を検出する． $\mu_k$ を整数倍/整数分の1倍に置き換えながら，その都度正規分布ごとの重み

の最尤推定値から調波成分の強度比を推定する．もし，置き換えた $\mu_k$ が真の

の整数分の1倍である場合，実際に存在する調波成分に対応する重み以外は全体のモデルが与える平均対数尤度にほとんど関与しないはずであり，モデルは過適応を起こしていると言える．この観点からAICに基づき，適切な $\mu_k$ の位置を推定する．前ステップにおいて残った調波モデルすべてについて以下を行う．

調波モデルの