Prof. Dr. Shigeki Sagayama, University of Tokyo

専門分野	内容
音声言語情報処理	音声認識、音声合成、言語モデルなど、音声言語情報の処理を研究します。嵯峨山の永年の研究分野です。音声認識の研究分野としては、音響モデル、言語モデル、解探索手法、話者や環境への適応手法など多岐に渡ります。特に雑音環境での音声認識手法の確立に力を入れています。また、音声合成のための信号波形生成の手法も研究しています。
信号処理	音声や音楽の信号を解析し再合成する手法を研究しています。多重音(和音)の信号の解析、MIDIへの変換、楽器認識、朗読音声から歌唱への変換、混ざりあった音声信号の分離、アレイマイクロフォン信号処理、多チャネル信号情報圧縮などの研究を進めています。
音楽情報処理	確率モデルに基づく新しい数理的なアプローチによるリズム認識や自動採譜、自然言語解析の手法を用いた自動和声づけ、拍子認識、拍節認識、テンポ推定、調性認識、自動対位法などの研究を進めています。学生数も多くなりました。究極の目標は自動作曲と、感情のこもった自動演奏です。
文字認識	連続音声認識で開拓された研究手法を全面的に活用し、新しい手書き漢字文字認識アルゴリズムを開拓し、非目視手書き(見ないで書かれる)文字の認識や、走り書き文字の認識、数式の認識、署名認証などを研究します。視覚障害の文字コミュニケーションへの応用も研究しています。
ヒューマンインタフェース	人間と機械の新しい関係をつくり出す技術の開発を目指しています。特に、音声認識、音声合成、顔画像合成による人間と機械の対話のシステムを構築中です。十数大学が協同してソフトウェアを作成しており、ソースプログラムやデモシステムを無償公開しています。将来のロボットの音声対話や知能部分として使われる可能性もあります。究極の目標は個性的な「人工人格」です。
マルチメディア情報処理	ビデオデータにおいて音声信号を処理して言語音声が存在する部分だけ取り出して検索したり、圧縮するなど、マルチメディアに関わる信号処理や情報処理を行います。

嵯峨山トップページへ