発話開始時,フレーズ境界や新たな話者の音声介入時などにおいては,
話者数とそれぞれのを検出する必要がある.この``検出処理''は,
話者数推定ステップと検出ステップから成る.
話者数推定ステップ
まず, が目的解へ局所収束する可能性を高くするため, 予想される発音数より多めの調波モデルを満遍なく初期配置する. ただし,調波モデルは話者数と同数あれば十分であり,この場合最尤の多重音 モデルは観測スペクトルに対して過適応を起こしている.ここで,情報量規準の 一つとしてよく知られる赤池情報量規準(Akaike Information Criterion: AIC)[3]を導入し,適切な自由パラメータ 数を推定する. すなわち,不必要な調波モデル(後述)から削減していき,AICが最小となるときの数を 推定話者数と考える.具体的な手順を以下に示す.
前ステップにおいて求まるの局所最適解は,真のだけで はなくその整数倍あるいは整数分の1倍のいずれかに対応する可能性がある. ここでは各調波成分の強度を手がかりとして真のを検出する. を整数倍/整数分の1倍に置き換えながら,その都度正規分布ごとの重みの 最尤推定値から調波成分の強度比を推定する. もし,置き換えたが真のの整数分の1倍である場合,実際に存在する調波成分 に対応する重み以外は全体のモデルが与える平均対数尤度にほとんど関与しない はずであり,モデルは過適応を起こしていると言える.この観点からAICに基づ き,適切なの位置を推定する.前ステップにおいて残った調波モデルす べてについて以下を行う.