193 Views
February 14, 20
スライド概要
020/02/14
Deep Learning JP:
http://deeplearning.jp/seminar-2/2
DL輪読会資料
SEGAN Speech Enhancement Generative Adversarial Network okamura masaki
目次 1.書誌事項 2.タスクの目的 3.GAN 4.提案手法(SEGAN) 5.実験結果 6.まとめ
書誌事項 year:2017 Santiago Pascual, Antonio Bonafonte, Joan Serra - Universitat Politecnica de Catalunya,Telefonica Research(spain) project page :(http://veu.talp.cat/segan/) コードも公開:(https://github.com/santi-pdp/segan)
タスクの目的 雑音下の音声をクリーンにする。 音声 雑音・騒音
GAN データセット (real data) 本物 Discriminator 偽物 ノイズ (乱数などから生成) Generator
GAN ① Generator:G(x) を最小化へ Discriminator:D(x),1-D(G(z))を最大化へ ②
CGAN (conditional GAN) y:追加の条件を与えるベクトル 新たな特徴を加えることが可能
LSGAN (least-suquares GAN) (a,b,c)=(-1,1,0),(0,1,1)が例として挙げられている。 学習が安定化
提案手法(SEGAN)① ①Generator Encoder-Decoder 構造 ②Discriminator enhancement signal noisy signal noisy speech Discriminator enhancement speech real fake
提案手法② -Generator 青:encoder 特徴を表す “c”を生み出すため 緑:decoder (z,c)をもとに、clean speechを生成するため 損失関数 input noise signal clean signal:
提案手法(SEGAN)③ - Discriminator enhancement signal noisy signal Discriminator real fake 損失関数 D(x) input noisy signal
提案手法(SEGAN)④ - 工夫 Discriminator - 最小2乗誤差を用いて導出 (LSGANを参考) Generator - λ=100,L1 norm (距離を表す指標)を利用
提案手法(SEGAN)④ - コードより Discriminator loss # TRAIN D to recognize clean audio as clean Generator loss # TRAIN G so that D recognizes G(z) as real # TRAIN D to recognize generated audio as noisy leftthomasさんのgit hub(https://github.com/leftthomas/SEGAN)からの引用
実験結果 1.Objective evaluation 2.Subjective evaluation PESQを除いて、性能が上がった 1~5の点数をつけてもらった結果 (1が最低、5が最高)
まとめ 1.音声処理とGANの組み合わせはまだまだ増えていきそうな ので注目していきたい。 2.自分のプロジェクトにも機械学習を取り入れていきたい。 3.貴重な発表機会を与えていただきありがとうございました。
参照 ・論文(https://arxiv.org/pdf/1703.09452.pdf) ・プロジェクトページ(http://veu.talp.cat/segan/) ・ Lsgan(https://arxiv.org/pdf/1611.04076.pdf),(https://qiita.com/inoudayo/items/a98da29b735c610fd7de) ・cGAN(https://arxiv.org/pdf/1411.1784.pdf) ・PESQに関して(https://www.ntt.co.jp/qos/technology/sound/04_2.html)