音声音響信号処理

月曜日3限 (13:00-14:30)
セミナー室C
亀岡弘和守谷健弘

講義概要

本講義では,信号処理・符号化理論・情報理論・統計的手法が音声・音響研究でどのように用いられ,どう役に立つのかを,実際の研究例を交えながら概説する。具体的には以下のトピックを扱う。
  • 信号処理,符号化,標準化の実用システム例の紹介
  • 情報通信の基本(誤り検出,訂正符号,変調,IP)
  • 符号化技術の基本(量子化,予測,変換,圧縮)
  • 音声分析・合成・認識・強調,音楽信号処理
  • 統計的信号処理の基礎(スペクトル,Gauss過程,最尤推定)
  • Gauss性確率変数の基本性質
  • 時間周波数分析(短時間Fourier変換,ウェーブレット変換)
  • WienerフィルタとKalmanフィルタ
  • 音声生成過程のモデル(ソースフィルタ理論と藤崎モデル)
  • 自己回帰モデルと線形予測分析
  • 独立成分分析によるブラインド音源分離
  • 非負値行列因子分解によるスペクトログラムの分解表現
  • スペクトル間擬距離
  • 最適化アルゴリズム(EMアルゴリズム,補助関数法)

講義スケジュール・資料

10/3 第1回: 音声音響符号化の基本技術・標準化 その1 (守谷健弘客員教授)
10/17 第2回: 音声音響符号化の基本技術・標準化 その2 (守谷健弘客員教授)
10/24 第3回: 線形予測分析と自己回帰モデル
10/31 第4回: 対称性を利用した雑音抑圧 (伊藤信貴氏)
11/7 (休講)
11/14 第5回: 時間周波数解析
11/21 第6回: 非負値行列因子分解
11/28 第7回: 統計的手法による音声強調
12/5 第8回: 独立成分分析によるブラインド音源分離
12/12 第9回:
12/19 (休講)
1/16 第10回: WienerフィルタとKalmanフィルタ
1/23 第11回: 統計的手法による音声変換 (戸田智基准教授)
1/30 第12回: 講義のまとめ

レポート課題対象論文

  1. A. El-Jaroudi and J. Makhoul, "Discrete all-pole modeling," IEEE Transactions on Signal Processing, Vol. 39, No. 2, pp. 411-423, 1991. (PDF)
  2. R. Zelinski, "A microphone array with adaptive post-filtering for noise reduction in reverberant rooms," in Proc. 1988 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP'88), pp. 2578-2581, 1988. (PDF)
  3. D.W. Griffin and J.S. Lim, "Signal estimation from modified short-time Fourier transform," IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. ASSP-32, No. 2, pp. 236-243, 1984. (PDF)
  4. T. Irino and R.D. Patterson, "A time-domain, level-dependent auditory filter: The gammachirp," The Journal of the Acoustic Society of America, Vol. 101, pp. 412-419, 1997. (PDF)
  5. A. T. Cemgil, "Bayesian inference for nonnegative matrix factorization models," Technical Report CUED/F-INFENG/TR.609, University of Cambridge, 2008. (PDF)
  6. C. Fevotte, N. Bertinand J.-L. Durrieu, "Nonnegative matrixfactorization with the Itakura-Saito divergence. With applicationto music analysis," Neural Computation, Vol. 21, No. 3,pp. 793-830, 2009. (PDF)
  7. Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator," IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 32, No. 6, pp. 1109-1121, 1984. (PDF)
  8. Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error log-spectral amplitude estimator," IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 33, No. 2, pp. 443-445, 1985. (PDF)
  9. S. Amari, A. Cichocki and H.H. Yang, "A new learning algorithm for blind signal separation," In Advances in Neural Information Processing Systems (NIPS), Vol. 8, pp. 757-763 (1996). (PDF)

亀岡弘和 (kameoka[at]hil.t.u-tokyo.ac.jp)
〒113-8656 東京都文京区本郷7-3-1
東京大学 大学院情報理工学系研究科 システム情報学専攻 嵯峨山・守谷・亀岡・小野研究室
TEL: 03-5841-6901