東京大学大学院情報理工学系研究科システム情報学第一(嵯峨山・小野)研究室
研究内容解説 (最終更新: 2007.03.21)

音楽演奏の確率モデルに基づく自動採譜

武田 晴登 西本卓也 嵯峨山茂樹

音楽演奏の確率的生成モデル

【動機】 人間の表情豊かな演奏を計算機に理解させる---それは音楽制作のための実用上の要請であるだけでなく、多くの音楽研究者達の大きな目標のひとつです。しかしこの人間の豊かな表情・個性は機械にとっては単純な演奏を複雑にしてしまう変動であり、例えば音楽演奏MIDI情報を自動認識し楽譜化するという一見単純な問題も、その解決は非常に困難です。

【着眼】 音楽演奏中の個々の音をいくら解析しても、その音がどんな音符であるかを正確に知ることはできません。しかしひとつながりの演奏を聴くと、私たちは各音がどんな音符で楽譜上のどの位置にあるかが自然とわかります。このことは音声信号の各フレームからはその瞬間の音素を推定することができないにもかかわらず、全体の音声を聞けば各瞬間の音素もまたはっきり理解されるという、音声認識問題の興味深い側面と一致しています。

【音声認識との類似性】 音声認識の技術は、この問題を隠れマルコフモデル(HMM)というトップダウンな枠組みで解析することにより扱うことに成功しました。この枠組みは音声信号を、1.単語が並ぶことで発話内容が確率的に生成され、そこから音素の並びが生成される、2.各音素からフレームごとの音響信号の系列が確率的に生成される、という生成モデルの出力ととらえ、逆問題を解くことで発話を推定します。これは「入力音響信号が意味のある単語の系列である」という前提の元でその単語列を推定することに相当し、人間が「言葉だと思って(先入観を持って)」話を聞くことの模倣といえます。
私たちは音楽の演奏を聴くときも、このように「音楽だという前提で」聴いています。典型的な音楽には拍子があり、それがめまぐるしく変化したりはしません。したがって人は多くの場合、典型的なリズムに当てはめようとしながら演奏を聴きます。私たちは音楽演奏を音声認識のモデル化にならい、1.いろいろなリズムパターンの小節が確率的に並び、そこから音符列が生成される、2.各音符から実際の演奏音が確率的に生成される、というモデルを立てて逆問題として楽譜を推定することにより、演奏のより人間の直感に近い解釈を可能にしました。

【手法】 音声認識における「単語」を、いろいろなリズムパターンの小節=「リズム語彙」に、「音素」を「音符」に、「音響特徴」を「発音時刻間隔」に対応させ、音声認識で用いられるHMMによりモデル化を行います。自動採譜は音声認識と同じViterbi探索により高速に行うことができます。また演奏の大局的なテンポ変動のモデルも加えることで、ダイナミックな演奏にも追従可能です。

【特徴】 リズム語彙を用いたHMMにより、典型的な音楽とは何かといった事前知識を用いた音楽の認識が可能となり、頑健性が期待できます。またテンポ曲線の導入により演奏中の曲調の変化にも柔軟に追従できる期待があります。

図1. 意図したテンポ変動(a)と、誤ったリズム解釈による誤ったテンポ変動の認識(c,d) 図2. リズム譜のリズム単語によるモデル化 図3. 拍位置のマルコフ遷移リズム譜のモデル化

キーワード: リズム認識, 隠れマルコフモデル, テンポ解析, 連続音声認識

関連文献