連続音声認識問題との同型性

次へ: 音符列モデル 上へ: HMMによる音符列推定 戻る: HMMによる音符列推定

連続音声認識問題との同型性

本研究では、揺らぎのある音長列から音符列を推定する問題を、ボトムアップ的にずれを持つ音長をいかに音符に割り振るかを考える手法でなく、トップダウン的にどのような音符を意図して演奏した結果、入力演奏が観測されるかを仮説検証する、または解釈するという音声認識で成功している考え方を用いる。

そこで、整数関係にある正規の音符長が演奏によって揺らぎを持つ音長に変換される過程(音長系列生成過程)を確率モデル化し、その逆問題として音符列を推定する問題を考える(図2)。具体的には、2レベルの確率モデルを作成し、それを基にHMM(Hidden Markov Model)を用いて音長系列生成モデルを作成する。HMMでは尤度最大の原理によって音長系列が生成する遷移系列の中で最も尤度が高い系列をViterbi探索によって求める。これによって、トップダウンアプローチで入力演奏を音楽的に解釈し、音長やテンポの揺らぎに頑健な推定を可能にする。

HMMは音声認識[9,10]において広く用いられているモデルで、本問題と連続音声認識は表1のように同種の問題と考えることができ、 HMMを用いて尤度最大の状態遷移系列を探索(Viterbi経路探索)することにより音符列を求める問題として定式化できる。

**図 1:** 閾値処理による音符への誤変換の例
$\textstyle \parbox{0.48\textwidth}{ \resizebox{0.48\textwidth}{!}{\includegraphics{Figure/ryou1.eps}}}$

**図 2:** 逆問題としての音符列推定
$\textstyle \parbox{0.48\textwidth}{ \resizebox{0.48\textwidth}{!}{\includegraphics{Figure/yuragi3.eps}}}$

**表 1:** 音声認識とリズム認識の対応
	連続音声認識	音楽リズム認識
入力単位	文音声	楽曲
語彙	単語	リズムパターン
隠れ状態	音響イベント	音符
観測値	スペクトル列	物理的音符長列

平成16年9月15日