next up previous
次へ: 音符列モデル 上へ: HMMによる音符列推定 戻る: HMMによる音符列推定

連続音声認識問題との同型性

本研究では、揺らぎのある音長列から音符列を推定する問題を、ボトムアップ 的にずれを持つ音長をいかに音符に割り振るかを考える手法でなく、トップダ ウン的にどのような音符を意図して演奏した結果、入力演奏が観測されるかを 仮説検証する、または解釈するという音声認識で成功している考え方を用いる。

そこで、整数関係にある正規の音符長が演奏によって揺らぎを持つ音長に変換 される過程(音長系列生成過程)を確率モデル化し、その逆問題として音符列を 推定する問題を考える(図2)。具体的には、2レベルの確率モデル を作成し、それを基にHMM(Hidden Markov Model)を用いて音長系列生成モデル を作成する。HMMでは尤度最大の原理によって音長系列が生成する遷移系列の 中で最も尤度が高い系列をViterbi探索によって求める。これによって、トッ プダウンアプローチで入力演奏を音楽的に解釈し、音長やテンポの揺らぎに頑 健な推定を可能にする。

HMMは音声認識[9,10]において広く用いられているモデルで、 本問題と連続音声認識は表1のように同種の問題と考えることができ、 HMMを用いて尤度最大の状態遷移系列を探索(Viterbi経路探索)することにより 音符列を求める問題として定式化できる。

図 1: 閾値処理による音符への誤変換の例
$\textstyle \parbox{0.48\textwidth}{
\resizebox{0.48\textwidth}{!}{\includegraphics{Figure/ryou1.eps}}}$
図 2: 逆問題としての音符列推定
$\textstyle \parbox{0.48\textwidth}{
\resizebox{0.48\textwidth}{!}{\includegraphics{Figure/yuragi3.eps}}}$



表 1: 音声認識とリズム認識の対応
  連続音声認識 音楽リズム認識
入力単位 文音声 楽曲
語彙 単語 リズムパターン
隠れ状態 音響イベント 音符
観測値 スペクトル列 物理的音符長列



平成16年9月15日