音声音響信号処理

月曜日4限 (14:50-16:20)
セミナー室C
亀岡弘和・守谷健弘

講義概要

本講義では，信号処理・符号化理論・情報理論・統計的手法が音声・音響研究でどのように用いられ，どう役に立つのかを，実際の研究例を交えながら概説する。具体的には以下のトピックを扱う。

信号処理，符号化，標準化の実用システム例の紹介
情報通信の基本（誤り検出，訂正符号，変調，IP）
符号化技術の基本（量子化，予測，変換，圧縮）
音声分析・合成・認識・強調，音楽信号処理
統計的信号処理の基礎（スペクトル，Gauss過程，最尤推定）
Gauss性確率変数の基本性質
時間周波数分析（短時間Fourier変換，ウェーブレット変換）
WienerフィルタとKalmanフィルタ
音声生成過程のモデル（ソースフィルタ理論と藤崎モデル）
自己回帰モデルと線形予測分析
独立成分分析によるブラインド音源分離
非負値行列因子分解によるスペクトログラムの分解表現
スペクトル間擬距離
最適化アルゴリズム（EMアルゴリズム，補助関数法）

2013年度講義スケジュール・資料

10/7	第1回: 音声音響符号化の基本技術・標準化その1 (守谷健弘客員教授)
10/15	第2回: 音声音響符号化の基本技術・標準化その2 (守谷健弘客員教授)
10/21	第3回: 音声音響符号化の基本技術・標準化その3 (守谷健弘客員教授)
10/28	(休講)
11/5	第4回: 線形予測分析と自己回帰モデル
11/11	第5回: 時間周波数解析
11/18	(休講)
11/25	第6回: 非負値行列因子分解
12/2	第7回: 統計的手法による音声強調
12/9	第8回: 独立成分分析によるブラインド信号分離
12/16	第9回: ノンパラメトリックベイズモデルに基づく音響信号解析（吉井和佳氏・産業技術総合研究所）
1/15	第10回: 生成モデルアプローチによる音声音響信号処理
1/20	第11回統計的手法による音声変換（戸田智基准教授・奈良先端科学技術大学院大学）

レポート課題

本講義に関連する論文を１つ選び、発表資料形式（パワーポイント等）にまとめて提出してください。論文は下記の「レポート課題対象論文」の中から選んでも良いですし、自分で自由に探してきても良いです。提出期限・提出先は下記のとおりとします。

「どの程度本質を理解しているか」「要点が分かりやすく記述されているか」「なぜその論文を重要と考えたか」を評価の規準にして採点します。

上記レポートとともに講義に対する感想文もパワーポイント資料の中に含めて下さい。

提出期限： 2014年2月20日
提出先： kame.hirokazu[at]gmail.com
※メールを見落とす可能性があるので、必ず件名を「音声音響信号処理レポート・専攻・学籍番号・氏名」として下さい。

レポート課題対象論文

P. Kabal and R. P. Ramachandran, "The Comutation of Line Spectral Frequencies Using Chebyshev Polynomials," IEEE Transactions on Acoustics, Speech, Signal Processing, vol. 34, no. 6, pp. 1419-1426, Dec. 1986. (PDF)
A. El-Jaroudi and J. Makhoul, "Discrete all-pole modeling," IEEE Transactions on Signal Processing, Vol. 39, No. 2, pp. 411-423, 1991. (PDF)
D.W. Griffin and J.S. Lim, "Signal estimation from modified short-time Fourier transform," IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. ASSP-32, No. 2, pp. 236-243, 1984. (PDF)
T. Irino and R.D. Patterson, "A time-domain, level-dependent auditory filter: The gammachirp," The Journal of the Acoustic Society of America, Vol. 101, pp. 412-419, 1997. (PDF)
A. T. Cemgil, "Bayesian inference for nonnegative matrix factorization models," Technical Report CUED/F-INFENG/TR.609, University of Cambridge, 2008. (PDF)
C. Fevotte, N. Bertinand J.-L. Durrieu, "Nonnegative matrixfactorization with the Itakura-Saito divergence. With applicationto music analysis," Neural Computation, Vol. 21, No. 3,pp. 793-830, 2009. (PDF)
Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error log-spectral amplitude estimator," IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 33, No. 2, pp. 443-445, 1985. (PDF)
S. Amari, A. Cichocki and H.H. Yang, "A new learning algorithm for blind signal separation," In Advances in Neural Information Processing Systems (NIPS), Vol. 8, pp. 757-763 (1996). (PDF)
Y. W. Teh, "Dirichlet process," Encyclopedia of Machine Learning, Springer (2010). (PDF)

亀岡弘和 (kameoka[at]hil.t.u-tokyo.ac.jp)
〒113-8656 東京都文京区本郷7-3-1
東京大学大学院情報理工学系研究科システム情報学専攻連携客員講座守谷・亀岡研究室
TEL: 03-5841-6901