音声音響信号処理

月曜日4限 (14:50-16:20)
セミナー室C
亀岡弘和守谷健弘

講義概要

本講義では,信号処理・符号化理論・情報理論・統計的手法が音声・音響研究でどのように用いられ,どう役に立つのかを,実際の研究例を交えながら概説する。具体的には以下のトピックを扱う。
  • 信号処理,符号化,標準化の実用システム例の紹介
  • 情報通信の基本(誤り検出,訂正符号,変調,IP)
  • 符号化技術の基本(量子化,予測,変換,圧縮)
  • 音声分析・合成・認識・強調,音楽信号処理
  • 統計的信号処理の基礎(スペクトル,Gauss過程,最尤推定)
  • Gauss性確率変数の基本性質
  • 時間周波数分析(短時間Fourier変換,ウェーブレット変換)
  • WienerフィルタとKalmanフィルタ
  • 音声生成過程のモデル(ソースフィルタ理論と藤崎モデル)
  • 自己回帰モデルと線形予測分析
  • 独立成分分析によるブラインド音源分離
  • 非負値行列因子分解によるスペクトログラムの分解表現
  • スペクトル間擬距離
  • 最適化アルゴリズム(EMアルゴリズム,補助関数法)

2013年度講義スケジュール・資料

10/7 第1回: 音声音響符号化の基本技術・標準化 その1 (守谷健弘客員教授)
10/15 第2回: 音声音響符号化の基本技術・標準化 その2 (守谷健弘客員教授)
10/21 第3回: 音声音響符号化の基本技術・標準化 その3 (守谷健弘客員教授)
10/28 (休講)
11/5 第4回: 線形予測分析と自己回帰モデル
11/11 第5回: 時間周波数解析
11/18 (休講)
11/25 第6回: 非負値行列因子分解
12/2 第7回: 統計的手法による音声強調
12/9 第8回: 独立成分分析によるブラインド信号分離
12/16 第9回: ノンパラメトリックベイズモデルに基づく音響信号解析 (吉井和佳氏・産業技術総合研究所)
1/15 第10回: 生成モデルアプローチによる音声音響信号処理
1/20 第11回 統計的手法による音声変換 (戸田智基准教授・奈良先端科学技術大学院大学)

レポート課題

本講義に関連する論文を1つ選び、発表資料形式(パワーポイント等)にまとめて提出してください。 論文は下記の「レポート課題対象論文」の中から選んでも良いですし、自分で自由に探してきても良いです。 提出期限・提出先は下記のとおりとします。

「どの程度本質を理解しているか」「要点が分かりやすく記述されているか」「なぜその論文を重要と考えたか」を評価の規準にして採点します。

上記レポートとともに講義に対する感想文もパワーポイント資料の中に含めて下さい。

  • 提出期限: 2014年2月20日
  • 提出先: kame.hirokazu[at]gmail.com
    ※メールを見落とす可能性があるので、必ず件名を「音声音響信号処理レポート・専攻・学籍番号・氏名」として下さい。

レポート課題対象論文

  1. P. Kabal and R. P. Ramachandran, "The Comutation of Line Spectral Frequencies Using Chebyshev Polynomials," IEEE Transactions on Acoustics, Speech, Signal Processing, vol. 34, no. 6, pp. 1419-1426, Dec. 1986. (PDF)
  2. A. El-Jaroudi and J. Makhoul, "Discrete all-pole modeling," IEEE Transactions on Signal Processing, Vol. 39, No. 2, pp. 411-423, 1991. (PDF)
  3. D.W. Griffin and J.S. Lim, "Signal estimation from modified short-time Fourier transform," IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. ASSP-32, No. 2, pp. 236-243, 1984. (PDF)
  4. T. Irino and R.D. Patterson, "A time-domain, level-dependent auditory filter: The gammachirp," The Journal of the Acoustic Society of America, Vol. 101, pp. 412-419, 1997. (PDF)
  5. A. T. Cemgil, "Bayesian inference for nonnegative matrix factorization models," Technical Report CUED/F-INFENG/TR.609, University of Cambridge, 2008. (PDF)
  6. C. Fevotte, N. Bertinand J.-L. Durrieu, "Nonnegative matrixfactorization with the Itakura-Saito divergence. With applicationto music analysis," Neural Computation, Vol. 21, No. 3,pp. 793-830, 2009. (PDF)
  7. Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error log-spectral amplitude estimator," IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 33, No. 2, pp. 443-445, 1985. (PDF)
  8. S. Amari, A. Cichocki and H.H. Yang, "A new learning algorithm for blind signal separation," In Advances in Neural Information Processing Systems (NIPS), Vol. 8, pp. 757-763 (1996). (PDF)
  9. Y. W. Teh, "Dirichlet process," Encyclopedia of Machine Learning, Springer (2010). (PDF)

亀岡弘和 (kameoka[at]hil.t.u-tokyo.ac.jp)
〒113-8656 東京都文京区本郷7-3-1
東京大学 大学院情報理工学系研究科 システム情報学専攻 連携客員講座 守谷・亀岡研究室
TEL: 03-5841-6901