時空間音響情景分析の研究
人間は両耳から入る音から、周囲の状況や気配を察知したり、どういう音がいつどこで鳴っているかを聴き分けることができます。本研究では、このような音環境理解(音響情景分析)能力を計算に備えさせることを目的とし、音の物理的性質をベースにした音響信号の時空間モデリングと、人間の聴覚機能をヒントにした音の認識プロセスの確率モデリングに基づく新たな音響情景分析手法の確立を目指しています。この手法が確立されれば、ライフログ音響ダイアライゼーション、動画・音声コンテンツのインデキシング・サーチ、聴覚障害者のための音響環境提示、高齢者の生活安全モニタリングなど、次世代の情報社会を支える広範なシステムへの応用が可能です。
音声・韻律の分析合成と変換、非言語情報処理の研究
1960年代に開発された線形予測符号化(LPC)技術は近代式の音声分析合成系を誕生させ、携帯電話という巨大ビジネスと音声情報処理という新たな研究パラダイムをもたらしました。LPCは、言語情報に関係する音韻的特徴の分析合成系を実現するものであったのに対し、本研究では、言い回し、調子、感情、意図といった非言語情報に関係する韻律的特徴の分析合成系を実現し、今までにない新しいタイプの音声情報処理の枠組を確立することを目指しています。具体的には、音声の基本周波数軌跡の生成過程を物理モデル(通称、「藤崎モデル」)及び生理学的知見に基づき確率モデル化し、声に含まれる表情や個人性の成分の抽出、表情豊かな音声・歌唱合成、音声表情変換などの新しいアプローチを検討しています。また、音韻的特徴を表現するフォルマント周波数の大域的ダイナミクスに着目した新しいテキスト音声合成系の研究にも取り組んでいます。
補助関数法に基づく最適化アルゴリズムの研究
音響信号処理のための新しい確率モデルの創出と、学習アルゴリズムの構築を両輪として音声音響信号処理の各種問題に挑んでいます。特に、音声音響信号処理に関わる様々な非線形最適化問題に対し、補助関数法と呼ぶ最適化手法の原理に基づく効率的な学習アルゴリズムを多く提案しています。以下に一例を紹介します。
近年、深層ニューラルネットワーク(Deep Neural Network; DNN)に基づく識別的アプローチが画像認識をはじめとした様々な識別タスクにおいて無類の強さを誇っていますが、一般に識別性能は、識別器(モデル)が表現できる識別面の柔軟さと学習アルゴリズムの性能によって大きく左右されます。DNNは極めて柔軟な識別面を表現できるモデルである一方で、その分、学習のための最適化問題が非常に複雑となります。DNNの一種である Deep Belief Network (DBN)は、Restricted Boltzmann Machine(RBM)を多層に積み上げたもので構成され、DBNの学習は各層のRBMを順次学習することによって行うことができます。RBMの学習アルゴリズムとしてはContrastive Divergence (CD)法と呼ぶ方法が有効で、広く用いられています。これに対し、本研究室では、補助関数法によるRBMの新しい学習アルゴリズムを提案しており、CD法よりも早く収束することを実験的に示しています。
次世代IP通信むけ音声楽音符号化の研究
次世代のIPベースの通信では符号誤りを考慮する必要がなくなることを利用し、理論限界に近い圧縮符号化をめざしています。入力信号(音声,歌声、音楽)の特徴に依存する適応的分析や可変長符号化などを利用することで、広帯域、高品質、低ビット、低遅延の符号化を追及しています。
音声・音楽・音響信号の信号処理と情報処理の研究
音声、音楽などを対象とし、統計的信号処理、確率モデル、機械学習、最適化手法を駆使して、信号やパターンを人間と同等以上に知能的に処理するための計算論的方法論の実現を目指しています。具体的な研究テーマ例は以下のとお
りです。
(1)音声情報処理:音声・歌声合成,韻律解析,音声変換,言語識別,話者認識,音声区間検出,
(2)音楽情報処理:多重音ピッチ解析,楽器音分離,自動採譜,音楽信号の合成加工,類似楽曲探索,
(3)音響信号処理:音声強調,ブラインド信号分離,雑音・残響除去,音響イベント認識.