音符列モデル

次へ: 音長の伸縮変動モデル 上へ: HMMによる音符列推定 戻る: 連続音声認識問題との同型性

音符列モデル

音長に揺らぎがある演奏でも、聴き手には意図した音符列(さらに、時には伸縮の意図も)が伝わるのはなぜか。これは聴き手は出現しうる音符列に関する常識を持っているからであろう。たとえば図1右のような楽譜は理論上は可能ではあるが常識に合わない。そこで、聴き手や音楽家の常識をモデル化するために、本手法では音楽的な制約として音符の推移をモデル化する。

これは音声認識における言語モデルあるいは文法に相当する部分である。ここでは簡単のため以下の2種類の音符列モデルを扱う。

2音符連鎖(bigram)確率モデル: 図3に示すように、任意の音符に任意の音符がそれぞれ確率 $a_{i,j}$ で後続するモデルである。制約力は弱いが、どんなリズムパターンにも対処できる。
リズムパターンモデル: 図4に示すように、「リズム語彙」を定義し、リズムパターンの連鎖により曲が成立しているとするモデルである。このモデルは状態滞留確率を0とする点で、音声認識のHMMと若干異なる。

これらのモデルパラメータは、楽曲データから学習することができる。これは、人間の音楽経験による常識の形成に譬えられる。このようないわば「リズム文法」は、複雑に精度良く作成するほど、リズムパターン認識精度は向上する。また、これらはモデル楽曲のジャンルやスタイルに依存する。たとえば、ジャズのスィングリズムは、西洋古典派音楽として捉えると、演奏者が下手であると理解される。

**図 3:** 音符連接のリズムモデル例
$\textstyle \parbox{0.28\textwidth}{ \resizebox{0.28\textwidth}{!}{\includegraphics{Figure/elgo.eps}}}$

**図 4:** 2拍単位パターンのリズムモデル例
$\textstyle \parbox{0.32\textwidth}{ \resizebox{0.32\textwidth}{!}{\includegraphics{Figure/Rhythm4.eps}}}$

実際に、童謡・民謡・歌曲[11,12,13]を対象に4/4拍子の曲88曲より音符連接確率及びリズムパターンの統計を取った。パターンの分類として1小節単位パターンと2拍単位パターンの2種類を作成し、リズムパターンの種類は 1小節単位パターン267種類、2拍単位パターン137種類が得られた。また3/4拍子についても同様に25曲から統計をとり、1小節単位パターン68種類が得られた。表2に例を示す。

**表 2:** 音符列パターンの出現頻度例(4/4拍子)
頻度順	1小節単位	2拍単位
1位	$\resizebox{!}{0.02\textheight}{\includegraphics{Figure/1_1bar.eps}}$	$\resizebox{!}{0.02\textheight}{\includegraphics{Figure/1_2beat.eps}}$
$\vdots$
10位	$\resizebox{!}{0.02\textheight}{\includegraphics{Figure/10_1bar.eps}}$	$\resizebox{!}{0.02\textheight}{\includegraphics{Figure/10_2beat.eps}}$
$\vdots$

平成16年9月15日