[DL輪読会]Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation

488 Views

April 26, 19

#deep learning #Speech Separation #Model #Audio-Visual #Speaker-Independent #Tsukuba University

スライド概要

2019/04/26
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.8K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.3K

各ページのテキスト

Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation 筑波大学岡村柾紀

どういうものか・騒音や複数話者の声の中から特定話者の音声を抽出するモデル・学習に数千時間の動画データセット(AVSpeech)を用いた・学習データに抽出したい音声がなくても良い（これ以前は必要だった）・学習データが画像＋音声(以前は音声のみ)

学習データ・騒音がない=綺麗な音声・3~10秒の動画・4700時間・15万人・話者が１人・29万のYoutube video(e.g.Ted tasks)

構造

構造(Input Visual)

Input Video ・前処理として、Google APIを用いて顔検出を行う・１スピーカーにつき75枚の画像を得る visual CNN

構造(Input Audio )

Input Audio ・短時間フーリエ変換(STFT)を行うことで画像として扱う・小さい音が大きい音に消されないように「べき乗則圧縮」を行う (べき乗の性質は、小さいものほど多く、大きいものほど少なくなる？) Audio CNN

構造(Audio・Visual fusion)

10.

Audio・Visual fusion ・Audio と visual の特徴マップを結合する・Bidirectional LSTM を通す・３層の全結合層を通す

11.

構造(Output)

12.

Output ・特定話者を抽出するためのmaskを出力・maskには「complex ratio mask」を使用する・inputした短時間フーリエ変換直後のスペクトログラムとマスクを掛け合わす・逆短時間フーリエ変換(ISTFT)で音信号に戻す

13.

ネットワークモデル(1) ・最後の層以外にReLUを適用 and sigomid ・全ての畳み込み層後にBatchNormaraization ・Dropoutは使わない・batch size=6 ・Adam optimizer ・leannig_rate =0.0003

14.

ネットワークモデル(2) ・75層のvisual input ・all audioを16kHz にresampling ・stereo audioはmono に変えれる・ハミング窓の長さは25ms ・input audio size=257x298x2 スカラー・べき乗圧縮した綺麗な音声データのスペクトログラムとoutputにより得られたスペクトログラムの２乗誤差でlossを計算

15.

工夫点・大きな(loud)音を取り除くためにべき乗則圧縮を使う。ノイズ音にも・音と画像のsampling rate の食い違いを防ぐためにupsampling を行う sampling rateを（100Hz）に合うようにする。・複数の人が写っている場合：それぞれのnetworkで同じ重みを共有 BLSTMを通す前に複数のlearned visual streamをconcat ・complex ratio mask(cRM)を使う

16.

評価・SDRで評価する (BBS Eval toolboxを用いて) 信号対ひずみ比(Signal-to-Distortion Ratio)。 SDR=10log10{(目的信号の全区間でのパワー)/(目的信号-生成信号の全区間でのパワー)} により，生成した信号が目的とする信号に対してどの程度歪んでいるかを評価する。 (http://d.hatena.ne.jp/andy1024/20120529/1338420918により)

17.

色々な実験

18.

まとめ・リアルタイムでは機能しないと書いていて、何故なのかが僕にはわかっていない。・画像と音を組み合わせてのCNNは面白いなと思った。・特定話者の音声抽出の応用として調べてみたところ =>「Mediated Ear」(http://mediated-ear.com/)というものがあり詳しく知りたい。・間違いがあれば、ご指摘していただければ嬉しいです。

http://mediated-ear.com/