システム情報第一研究室の研究内容例 

2010.7.14 更新

嵯峨山/小野研究室HP | 研究室研究紹介(2007版) ppt | 研究室研究紹介(2004版) pdf | 過去のテーマ一覧

分野内容 説明
音楽 信号処理 多声音楽信号のピッチ周波数を高精度で推定、構成音を分離、MIDIに変換する などの研究を行っています。すなわち、多数の音が混じり合った音を分解し、 情報として操作できるする基本技術です。 用途は大変広く、MIDI変換後に音色変換、音楽編集、局所的な加工、カラオケ作成、 音楽検索、MIDIを通じて楽譜への変換、メロディーライン抽出、歌唱評価などが 考えられます [解説]。 主な研究成果は以下の通りです。
  • 低音旋律の潜在意味解析による自動ジャンル認識 [上田 2009]
  • 多重HPSSによる歌声強調に基づくメロディライン推定 [橘 2009]
  • 打楽器パターン情報を用いた音楽音響信号からの自動ジャンル認識 [角尾 2009 武内 2010-]
  • ダイナミックベイジアンネットワークによる音楽情報処理 [Raczynski 2008]
  • 多重HPSS(調波打楽器音分離)によるモノラル音楽信号中の歌声の強調と抑圧 [橘 2008]
  • 音楽音響信号からの打楽器パターンの抽出とパターンクラスタリングによる楽曲構造解析[角尾2008]
  • 逐次Harmonic-Temporal-structured Clustering(HTC)による長時間信号の多重音ピッチ推定 [江頭2008]
  • 音響入力からの和音認識 [内山2007]
  • 学習アルゴリズムによる精密な楽譜追跡とパート除去 [松本2007]
  • 旋律楽器音と打楽器音の分離・強調 [宮本2007]
  • 非負行列分解に基づく多重音楽信号の音高解析 [Raczynski2007]
  • Harmonic-Temporal-Timbral Clustering (HTTC, 調波・時間・音色 クラスタリング法) による多重音のピッチ推定、MIDI変換 [宮本2007]
  • Specmurt法(対数周波数逆畳み込み)と整数論との関係 [小野2006]
  • Harmonic-Temporal Clustering (HTC, 調波・時間クラスタリング法) に よる多重音のピッチ推定、MIDI変換 [亀岡2005] <音響学会板倉賞、IEEE Tokyo Chapter Student Award>
  • Harmonic Clustering による多重音のピッチ推定 【解説】 [亀岡2003] <電気通信財団賞、情報処理学会山下記念賞>
  • 音響入力の調認識 [齊藤2005]
  • 音響入力のメロディ抽出 [山崎2005]
  • Harmonic Clustering による非調和音のピッチ推定 [亀岡・織田2004]
  • Specmurt法(対数周波数逆畳み込み)による音楽の視覚化とMIDI変換 【解説】 [高橋2003、亀岡、齊藤2004]
  • DPマッチングによる非調和音のピッチ推定 [亀岡2002]
情報処理 音楽情報処理はまだ比較的新しい分野で、興味深い課題が沢山あります。 自動採譜を目的に、自動リズム認識、拍節認識、拍子認識、自動採譜などの、 音楽の時間情報の認識に関する課題を確率モデルにより定式化して解決しています。 また、自動作曲や編曲に関して、 旋律からの自動和声づけ、調性認識、転調検出、自動対位法などを研究しています。
  • 隠れマルコフモデルを用いたコードネームからの4声体和声自動生成 [深山2011-]
  • 非和声音規則の語彙に基づく確率的旋律モデルの研究と自動作曲への応用 [深山2009-]
  • 日本語仮名漢字文からの自動作曲と歌唱音声合成システム Orpheus 【解説】
    [中妻2007, 米林2007, 深山2008-] 【資料 1, 2, 3, 4
    <情報処理学会 インタラクション2008 インタラクティブ発表賞、同音楽情報科学研究会 『夏のシンポジウム2008』 ベストプレゼンテーション賞、情報処理学会山下記念研究賞>
  • リズム木構造仮説に基づく自動楽曲リズム解析 [中野拓2008]
  • 自動対位法 [吉川2000、中潟2003、米田2005、田中2009-2010]
  • 楽譜からの自動和声解析 [諸岡2007]
  • 隠れマルコフモデル(HMM)に基づく自動リズム認識、拍節認識、拍子認識、自動採譜 【初出】 [齋藤1999、大槻2000、武田2001-6、宮本2006]
  • 音楽演奏の確率モデルに基づく自動採譜 【解説】 [宮本2006-]
  • 確率文脈自由文法に基づくリズム認識 [山本遼2006]
  • 確率モデルに基づく楽譜追跡、自動伴奏 [武田2005-2006]
  • 楽曲の自動和声解析、非和声音解析 [諸岡2007]
  • 隠れマルコフモデル(HMM)に基づくピアノ運指の自動決定 【解説】 [米林2006]
  • MIDIデータの調認識 [米田2005]
  • 旋律からの自動和声づけ、調性認識、転調検出、和声統計 [川上1999, 菅原2003] 【初出】
音響 信号処理 雑音環境中の音声から雑音を除去する技術やその音声認識への応用などを 研究しています。マイクロフォンアレイ(複数マイクロフォン)入力に対して 雑音除去を行う新しい概念CSCC法は、今までにない発想として注目されています。
  • パワースペクトログラムの伸縮と無矛盾位相付加に基づく音楽音響信号の実時間テンポ/ピッチ変換 [水野 2009]
  • シフト不変Semi-NMFを用いた適応テンプレートマッチング [Le Roux2008]
  • ミッシングデータNMFを用いた計算論的音響補間 [Le Roux2008]
  • STFTスペクトログラムの特性解析及び位相復元ヘの応用 [Le Roux2008]
  • 結晶型マイクロフォンアレイを用いた拡散性雑音の抑圧 [伊藤2007-] 【解説】 [清水2006, 伊藤2007-]
  • 等方的雑音場を直交化するマイクロフォンアレイ配置の群論による解明 [清水2007]
  • 等方的雑音場を直交化するアレイによるパワースペクトル推定 [清水2006, 伊藤2007-]
  • 雑音・残響環境下の劣決定2chブラインド音源分離 [和泉2006] <音響学会粟屋賞>
  • スパースネスに着目した劣決定2chブラインド音源分離 [和泉2005]
  • チャネル間相関を利用した多チャネル信号の可逆圧縮符号化 [鎌本2005, 堀2007] (MPEG4, 情報処理学会論文賞) : NTTと共同研究
  • マイクロフォンアレイ信号処理:複素スペクトル円心法(CSCC法) [岡嶋2004]
  • Golomb定規を用いたマイクロフォンアレイ配置 [鎌本2004]
  • 複数話者の信号分離 [亀岡2004]
音声 分析・合成 音声スペクトルの分析、モデル化、合成に関して様々な手法を発案しています。 また、テキストから音声を合成する研究の発展として、歌声の合成も行っています。
  • 正弦波重畳モデルによる1チャネル信号からの複数音声の分離復元 [亀岡2006]
  • 音声調波時間構造化による雑音中の単一あるいは複数話者のF0推定 【解説】 [Le Roux2006]
  • 複合ウェーブレットモデルによる音声分析合成 [槐2005]
  • テキストと楽譜情報からの歌声合成 [酒向2004]
  • 歌声合成のピッチ制御 [服部2005]
認識 長い音声認識の研究の経験と、多数の成果を基に、 さらに進んだ音声認識のアルゴリズムを研究しています。 最近の関心は、雑音環境および残響環境の中での音声認識のアルゴリズム、 音声の分析合成、多重音声の分離などです。
  • 残響時間比に注目した音響モデル学習による残響下音声認識 【解説】[西亀2008]
  • 音声検出 (VAD) [Utama2007]
  • State Filter による残響中の音声認識 [Raut2005]
  • ラグランジュ多項式モデル近似を用いた雑音中の音声認識 [Raut2004] (ICSLP2004 best paper finalist)
  • 残響に適応する音声認識 [山本仁2003]
  • 突発的な雑音に頑健な音声認識 [山本仁2002]
  • 自由発話音声認識のためのフィラーのクラスタリングと言語モデル [板垣2002]
東大以前:
  • 重回帰HMM [藤永2000-]
  • 音素モデル構造の自動決定、非同期遷移型HMM [松田1999-]
  • ヤコビ行列を用いた音声認識のための雑音・回線・環境・話者の同時適応 [赤江2000、加藤2001、坂井2002]
  • 音声認識のための残響適応 [吉本 1999]
  • 音声認識のための話者適応、テンソル解析 [六井2002]
  • 音声認識のための話者適応、VFS [松田]
  • 音声信号の検出 [渋谷]
  • ピッチ抽出アルゴリズム [中井]
  • ヤコビアンを用いた高速雑音適応 [山口、高橋惇一1996]
  • MAP/VFS話者適応法 [高橋淳一1994]
  • 離散混合HMM [高橋敏1994-]
  • 話者の木構造クラスタリング [小坂] (電子情報通信学会論文賞)
  • ベクトル場平滑法(VFS)による話者適応 [大倉1992-]
  • 逐次状態分割法(SSS)による隠れマルコフ網(HMnet)の自動生成 [鷹見1991-]
  • 木構造の異音クラスタリング [嵯峨山1987-]
  • デルタケプストラム [嵯峨山1979]
対話 擬人化対話エージェントは、ユーザと音声で対話し、顔画像が動く、進んだ人間機械インタフェースです。擬人化音声対話エージェントのプロジェクト(代表:嵯峨山)では10大学などが協力してシステムをを作成しそのソフトウェアを無償配布しています。 対話制御はその中の中心的な訳割をなすもので、擬人化されたシステムの心の動きなどを制御します。
  • モーションセンサを用いた対話インタフェース [會田2006]
  • 視覚障害者のための高速読み上げ [西本2006]
  • 擬人化エージェントの視線制御 [中沢2003]
  • 擬人化音声言語対話エージェント (音声対話するサイバー人間) [多数]
  • 対話する人物の頭部運動のモデル化 [松下2002]
  • 確率的な振舞いをする感情のモデル化 [川本 1999]
  • 表情生成
  • Galatea ツールキット:オープンソース、無償使用可能な 音声対話擬人化エージェントのソフトウェア
文字 漢字 確率モデルに基づく音声認識の原理を手書き文字認識に応用して、 高性能のオンライン手書き文字認識を実現しています。 最近は漢字の構造を簡潔に記述することで、学習データ無しでも、 あるいは筆順違いでも漢字を認識できるアルゴリズムを、 確率文脈自由文法によって実現しています。
  • 確率文脈自由文法に基づくオンライン手書き漢字認識 [大田2006-]
  • オンライン手書き文字データ収集 (現在、約150万字) [秋良、徳野、須藤]
  • 言語情報を用いた連続手書き文字認識 [須藤2002]
  • 筆圧を利用した手書き文字認識 [須藤2002]
  • 視覚障害者の手書き文字認識 [徳野2002]
  • 環境依存ストロークモデルによる文字認識性能向上 [徳野2002]
  • 手書き文字の筆順辞書の自動作成 [小川2001]
  • 手書き文字ストローク列マクロモデルの自動生成 [猪子2001]
  • 環境依存型ストロークモデルに基づく手書き文字認識 [井波2001]
  • 文字の構造に基づいた手書き文字認識 [秋良2001]
  • 音声認識手法を用いた手書き文字認識 [川口2000]
  • 筆者への高速適応 [川口2000]
数式 HMM(隠れマルコフモデル)に基づくオンライン手書き文字認識の原理に、 数式の文法構造を組み入れることにより、 オンライン手書き数式認識の新しい方式を開発しました。
HI 文字認識をベースにしたHI(ヒューマンインタフェース)の研究開発を行って います。 位置ずれなどに強い特徴量を用いた隠れマルコフモデルに依り、 視覚障害者の手書き文字も認識でき、 これによって視覚障害者の文字コミュニケーション(メール送受など)を 実現しました。これは、健常者に取っても 新しい形のモバイルコンピューティングとして活用できます。
  • 手書き文字認識を用いた視覚障害者のモバイル環境 [中井]
  • 視覚障害者のためのヒューマンインタフェース [小場]
画像 顔画像 音声認識の原理を画像の認識に応用しています。また、一部欠けがある画像の 自動修復(inpainting)のアルゴリズムを研究しています。
  • erosion に基づくテクスチャを含む画像の inpainting [郭2007-]
  • HMMによる画像のセグメンテーション

Page created by S. Sagayama