現代の連続音声認識の技術は確率的な逆問題の解法と捉えることができ、その主 な構成要素は、音声分析、音響モデル、言語モデル、最適経路探索の4要素であ り、その原理は音声認識に留まらず汎用的な解法である。音楽情報処理の各種の 問題も確率的な逆問題として捉えれば、上記の全部あるいは一部の構成要素を利 用して解ける可能性がある。
音声認識と音楽情報処理のいくつかの問題との同型性の概念を表 1に示す。
height 0.4mm 扱う問題 |
入力(観測値) | 出力 | 隠れ状態(モデル単位) | 文法(語彙) |
height 0.4mm 連続音声認識 |
特徴ベクトル時系列 | 音素列 | 音素(音響イベント) | 単語、単語列 |
リズム認識 | 音符長系列 | 音符 | 音価 | リズム語彙 |
和声づけ | 旋律 | 和声 | 和声 | 和声常套句 |
対位法 | 旋律 | 対旋律 | 還元旋律 | 対位法規則 |
多重ピッチ抽出 | Specmurt 分析 | 複数音高 | ピッチ有無 | ピッチ遷移 |
height 0.4mm |