【動機】様々な音が混在する中で目的音の情報を計算機にうまく分離推定させることは、 ロボット聴覚、音声認識や自動採譜などの様々な魅力的なアプリケーションを実 現する上で工学的に重要な要素技術である一方で、数理的には大変難しい問題で ある。しかし、我々人間は、そのような環境の中でも容易に特定の音だけを選択 的に聴取することができることから、聴覚は能動的に外界を把握するための優れ た機能をもつと考えられている。CASAにおけ る多くの従来手法の間で共通するのは、各時刻で独立に調波成分を見つけ出すた めの処理(周波数方向の群化)と、抽出された調波成分特徴量の時系列を時間方向 にスムージングする処理(時間方向の群化)を多段処理的に行っている点である。 しかしながら、周波数方向と時間方向の群化を順次行うことが群化プロセスの最 適な実践方法であるとは必ずしも言えない。なぜなら、周波数方向の群化の精度 は隣接する時刻間での成分の連続性を考慮することではるかに向上されうるし、 時間方向の群化の精度もまた周波数方向の群化が高精度であればあるほど高くな るはずであることから、まさに両者は、以上の意味で鶏と卵の関係にあるからで ある。
【着眼】我々は以上の問題意識のもと、より良い群化プロセスの実践のためには、 個々の音源の時間周波数全域に渡ったスペクトル構造を一挙に推定できる方法論 が不可欠であると考え、この観点から問題の定式化を目指した。本稿では、調波 時間構造化クラスタリングと呼ぶCASAのための新しいアプローチを音声に適用し、 新しいピッチ推定手法を提案する。
【手法】音声スペクトルを共通のスプライン曲線のピッチ軌跡を持ったスペクトルのク ラスタ列としてモデル化する。そのクラスタはEMアルゴリズムの新しい定式化に よる教師なしの2D時間周波数クラスタリングの下で得られる。共通のピッチ軌跡 は同時に推定される。有声部分を連結した文章の全体にいたる滑らかなピッチ軌 跡が得られる。非調波的の背景雑音が音声の調波部分のク ラスタリングを邪魔しないように雑音モデルを導入する。
【特徴】提案手法は時間方向と周波数方向の分析を同時に行い、従来 手法よりもさらにロバストなであることを期待できる。雑音モデルの導入により、 雑音中のピッチ推定も可能になる。単ピッチ推定だけでなく、混合音声信号のピッチ推 定にも利用できる。
図 1. 観 測スペクトログラムとモデル化されたスペクトログラムの比 較 (``通訳電話国際会議事務局です''、女性話者)(クリックで拡大図が見 れる) | 図 2. 雑音中のス ペクトログラムのクリーン分の推定(クリックで拡大図が見 れる) | 図 3. 混合音声信号のスペクトログラムと推定されたピッチ軌跡関数(クリックで拡大図が見 れる) |
キーワード: 音響情景分析、EMアルゴリズム、調波時間構造化クラスタリン グ、多重音ピッチ推定、雑音中音声、Splineピッチ軌跡
[LeRoux2006ASJ03] にて初めてこの手法と予備的な実験結果を発表しました。 実験結果と定式化の概念を加えたものとして [LeRoux2007ICASSP04] と、 実験結果と定式化の詳細を加えた [LeRoux2007IEEETrans05] を発表しました。
表 1. 単ピッチ推定精度の種々の従来手法との比較 | 表 2. 白色雑音やピンクノイズとの混合 音声信号の単ピッチ推定のWWB法とYIN法との 比較 | 表 3 と 4. 干渉信号のカテゴリと多種の 干渉との混合有声音声信号のピッチ推定のWWB法とYIN法との 比較 | 表 5. 混合音声信号のピッチ推定精度のWWB法との比較 |
関連内容として、 [LeRoux2007ICASSP04] の解説記事や各論文のPDFファイルもご覧ください。