-- Views
January 28, 19
スライド概要
2019/1/25
Deep Learning JP:
http://deeplearning.jp/hacks/
DL輪読会資料
DEEP LEARNING JP “Reconstructing perceived faces from brain activations with deep adversarial neural decoding” <LT> [DL Papers] Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1
アジェンダ • • • • • 論文緒言 問題設定 解法 実験結果 まとめ 2
論文緒言 • “Reconstructing perceived faces from brain activations with deep adversarial neural decoding” (NIPS2017) Y. Gucluturk, U.Guclu, K. Seeliger, S. Bosch, R. V. Lier, M. V. Gerven Radboud University, Donders Institute for Brain, Cognition and Behaviour Nijmegen, the Netherlands • 要旨 – 人物顔写真を被験者に見せて収集した被験者の視覚大脳皮質fMRI( (functional magnetic resonance imaging:脳の血流動態反応) データから,人物顔を再構成する. – Deep Adversarial Neural Decoding(DAND)法:GANと確率推定の組み合わせ. • 紹介するにあたっての動機 – 視覚神経系の外界刺激と脳反応の関連を解く方法を調べ、聴覚神経系に応用したい. – 脳神経系の神経細胞の外界刺激に対する機能学習方法は,視覚大脳神経系と聴覚大脳 神経系で同じとの説あり. 3
問題設定 • 𝑥 ∈ 𝑅 ℎ∗𝑤∗𝑐 : 𝑆𝑡𝑖𝑚𝑢𝑙𝑢𝑠 視覚刺激 、𝑧 ∈ 𝑅𝑝 : 𝐹𝑒𝑎𝑡𝑢𝑟𝑒 特徴 、 𝑦 ∈ 𝑅𝑞 : 𝑅𝑒𝑠𝑝𝑜𝑛𝑠𝑒 脳の𝑓𝑀𝑅𝐼反応 、いずれも確率変数 • Φ: 𝑅ℎ∗𝑤∗𝑐 → 𝑅𝑝 : 非線形変換:𝐿𝑎𝑡𝑒𝑛𝑡 𝐹𝑒𝑎𝑡𝑢𝑟𝑒 𝑀𝑜𝑑𝑒𝑙(潜在特徴モデル) 𝑧 = Φ 𝑥 、𝑥 = Φ−1 (𝑧) • 脳の反応𝑦が観測データの時、視覚刺激𝑥を再構成したい → 𝑥とする ො 𝑥ො = Φ−1 (arg 𝑚𝑎𝑥𝑧 𝑃𝑟 𝑧 𝑦 ) P𝑟 (𝑧):事前確率分布 Φ P𝑟 (𝑦|𝑧):尤度 ここで、𝑃𝑟 (z|y): posterior(事後確率) 𝑥 𝑧 ちなみに、𝑧Ƹ = 𝑎𝑟𝑔𝑚𝑎𝑥𝑧 𝑃𝑟 (𝑧|𝑦) Encoder 𝑦 • Baysean定理を使って、式変形すると Φ−1 P𝑟 (𝑦|𝑧): 𝑧Ƹ 𝑥 ො −𝟏 P𝑟 (𝑧|𝑦):事後確率 ෝ = 𝜱 (𝒂𝒓𝒈 𝒎𝒂𝒙𝒛 𝑷𝒓 𝒚 𝒛 𝑷𝒓 (𝒛)) 𝒙 Decoder 分布 ここで、𝑃𝑟 (𝑦|𝑧): likelihood(尤度) 視覚神経系特徴抽出機能 特徴からfMRI変換 Encoder-Decoderモデル 最尤推定モデル 𝑃𝑟 𝑧 : 事前確率 4
Latent Feature Model: Φ−1 の決定方法 • Encoder 新規1層Fully-ConnectLayer(FCN) PCA部の係数の決定: → 244x244の刺激画像学習データ 群を既学習のVGG-Faceモデル でforwardして、その出力4096 をPCAを行い、699に次元圧縮 • Decoder 新規モデルの係数決定: →Adversarial Learningで決定 DecoderはGANのGeneratorに相当 𝑥 224x22 4x3 既学習モデル VGG-Face up to 14層 Encoder: 𝑧 = Φ(𝑥) 新規1層FCN (PCA部 4096→ 699) 𝑧 699x1 PCAを行い係 数を決定! 逆PCA係数を を計算して! 𝑥ො 64x 64 新規モデル 5層 DeConv 逆係数FCN (逆PCA部 699→4096) 𝑧 699x1 Decoder (=Generator): 𝑥ො = Φ−1 (𝑧) 5
Adversarial LearningによるGenerator係数の決定 • Discriminator: 本物𝑥から、Generatorが生成した偽物𝑥を識別する. ො minimize 𝐿𝑑𝑖𝑠 = −𝐸[log ψ 𝑥 + log 1 − 𝜓(Φ−1 𝑧 )] • Generator:Descriminatorを騙す位に𝑥に似た𝑥を𝑧から生成する ො minimize 𝐿𝑔𝑒𝑛 = 𝐿𝑎𝑑𝑣 + 𝐿𝑓𝑒𝑎𝑡𝑢𝑟𝑒 + 𝐿𝑠𝑡𝑖𝑚𝑢𝑙𝑢𝑠 = −λ𝑎𝑑𝑣 𝐸 log ψ Φ−1 𝑧 + λ𝑓𝑒𝑎 𝐸 𝜉 𝑥 − 𝜉(Φ−1 (𝑧) ξ: 𝑥(あるいは𝑥) ො → VGG − 𝐹𝑎𝑐𝑒 𝑟𝑒𝑙𝑢3_3 出力 2 + λ𝑠𝑡𝑖 𝐸 𝑥 − Φ−1 (𝑧) 𝑥 224x224 x3 ξ 𝐿𝑓𝑒𝑎𝑡𝑢𝑟𝑒 𝐿𝑆𝑡𝑖𝑚𝑢𝑙𝑢𝑠 ξ 𝑧 699x1 逆係数FCN (逆PCA部 699→4096) 5層 DeConv Decoder (=Generator): 𝑥ො = Φ−1 (𝑧) 2 5層 Conv G.T. 1: 𝑥の場合 0: 𝑥の場合 ො 𝑥ො 𝐿adv 64x64x3 Descriminator: ψ() 6
最尤推定によるHemodynamic Response Function(HRF)の同定 • 潜在特徴𝑧から脳反応fMRI値𝑦の変換は、fMRI測定系の血流動態反応関数 (Hemodynamic Response Function: HRF)であり、経験的に線形変換と考 えられている.このHRFを得たい. • その関係を確率的表現では、条件𝑧 の下での𝑦の尤度となる. 尤度:𝑃𝑟 𝑦 𝑧 = 𝑁𝑦 (𝐵 𝑇 𝑧, Σ) ここで、𝐵 = β1 , β2 , ・・, β𝑞 ∈ 𝑅𝑝∗𝑞 , β𝑖 : 学習するためのパラメータ Σ = diag(σ12 , σ22 , ・・, σ2𝑞 ) • 潜在特徴𝑧が事前確率:𝑃𝑟 𝑧 = 𝑁𝑧 0, 𝐼 に従うとき、観測値である脳反応 fMRI値𝑦が与えられる、もっとも確からしい𝐵 = β1 , β2 , ・・, β𝑞 を推定 する. 𝑇 2 • その解法は、最尤推定で、β𝑖 = 𝑎𝑟𝑔𝑚𝑖𝑛β𝑖 𝐸[ 𝑦𝑖 − β𝑖 𝑧 ] 2 𝑇 2 σ𝑖 = 𝐸[ 𝑦𝑖 − β𝑖 𝑧 ] ෝ となる.→ これで、 β 𝑖 、ෝ σ2𝑖 が求まった. 7
事後確率𝑷𝒓 (𝒛|𝒚)を逆HRFとして求める • 事後確率𝑷𝒓 (𝒛|𝒚)とは:脳反応fMRI観測値𝑦が与えられた時の、逆HRFを施した 結果の𝑧の確率分布.これは,線形変換であるHRFの逆関数も線形変換である が,それを確率で表現することと同じである. • 欲しいのは、その確率の中で、最も確からしい𝑧である. Ƹ 𝑧Ƹ = arg 𝑚𝑎𝑥𝑧 𝑃𝑟 𝑧 𝑦 • 𝑃𝑟 𝑧 𝑦 = 𝑃𝑟 𝑦 𝑧 𝑃𝑟 𝑧 ∝ 𝑁𝑧 Λ−1 ν, Λ−1 𝑁𝑧 0, 𝐼 → νはyの関数 ∝ 𝑁𝑧 (𝑚𝑐 , Σ𝑐 ) → 𝑚𝑐 は𝑦の関数 ここで、 ν = 𝐵Σ −1 𝑦, Λ = BΣ −1 𝐵𝑇 𝑚𝑐 = (𝐵Σ −1 𝐵𝑇 + 𝐼)−1 𝐵Σ −1 𝑦, Σ𝑐 = BΣ−1 𝐵𝑇 + 𝐼 −1 • よって、𝑧Ƹ = 𝑚𝑐 = (𝐵Σ −1 𝐵𝑇 + 𝐼)−1 𝐵Σ−1 𝑦 となる. • 刺激画像の再構成𝑥ොは:脳反応fMRI観測値𝑦が与えられた時 𝑥ො = Φ−1 arg 𝑚𝑎𝑥𝑧 𝑃𝑟 𝑧 𝑦 =Φ−1 (𝐵Σ −1 𝐵𝑇 + 𝐼)−1 𝐵Σ−1 𝑦 となる. 8
最終解法 • まとめると、 – 学習時: • 前提: – 学習データ(𝑥, 𝑦)が既知 – Φ: 𝑥 → 𝑧 は既知:VGG-Face Network – HRF: 𝑧 → 𝑦は線形変換 パラメータ:𝐵, Σ を仮定 既知 • 学習手順 – 𝑧 = Φ 𝑥 から𝑧が得られる – すると 𝑧, 𝑦 が既知なるので、HRFの線形変換 パラメータ:𝐵, Σ を最尤推定する – HRFが線形変換なので、その逆変換も容易に得られる. 逆変換を確率的に表したものが事後確率分布 – 𝑦が与えられた時、事後確率を最大化する𝑧が求めたい 𝑧Ƹ = (𝐵Σ −1 𝐵 𝑇 + 𝐼)−1 𝐵Σ −1 𝑦 – これで 𝑥, 𝑧Ƹ が既知になるので、これを使ってへ 線形変換Φ−1 を敵対的学習法で求める – テスト時: • 得られた𝑦から、 𝑧Ƹ = (𝐵Σ−1 𝐵𝑇 + 𝐼)−1 𝐵Σ−1 𝑦 を得る • 得られたΦ−1 から、刺激画像の再構成を得る 𝑥ො = Φ−1 arg 𝑚𝑎𝑥𝑧 𝑃𝑟 𝑧 𝑦 =Φ−1 (𝐵Σ−1 𝐵𝑇 + 𝐼)−1 𝐵Σ−1 𝑦 既知 既知 Φ 𝑥 Encoder Φ−1 𝑥ො Decoder 𝑦⇔𝑧 は線形 P𝑟 (𝑧):事前確率分布 P𝑟 (𝑦|𝑧):尤度 𝑧 既知 P𝑟 (𝑦|𝑧): 𝑧Ƹ 𝑦 P𝑟 (𝑧|𝑦):事後確率 分布 視覚神経系特徴抽出機能 特徴→fMRI変換(HRF) Encoder-Decoderモデル 最尤推定モデル 9
実験準備 • 使用したデータ – 独自fMRIデータセット:顔写真と対応したfMRIのペアデータ • 顔写真:学習時: 700個の顔写真x2回/被験者 テスト時: 48個の顔写真x13回/被験者 • 被験者:男女各1名、合計2名 • fMRIデータの収集方法:顔写真を提示毎に、被験者の脳反応fMRIを収集 – CelebA データセット:10177人の顔面を取った計202599の写真 • 顔写真に40個の帰属プロファイルがアノテーションされている(例、性別、人種、表情、皮 膚の色) • fMRIデータの収集方法:顔写真を提示毎に、被験者の脳反応fMRIを収集 • 敵対的学習でのDiscriminator(D),Generator(G)の学習方法 – 学習データ: CelebAの内の学習データを使用 – 学習方法: DとGの交互学習,ともに100epoch,最適化手法adams 10
実験の指標 • 評価尺度: 刺激画像(元画像)𝑥と再構成画像𝑥との類似性の尺度 ො – Feature Similarity: • 刺激画像(元画像)𝑥の特徴量(ξ 𝑥 )と再構成画像𝑥の特徴量( ො ξ 𝑥ො ))間のEuclid類似度 – Pearson correlation coefficient: • 刺激画像(元画像)𝑥と再構成画像𝑥の2つの変数間の直線関係の程度を示す指標. ො • [-1,1]の値. 0:2つの変数は無相関、1:正の相関、-1:負の相関 – Structure Similarity: • デジタルのReference画像とそれに歪が入った画像との差を人間の視覚の代わりに客観的な数 値として評価する方法 11
実験結果(1) • 再構成画像の画質評価 – Latent Feature Model Φ 𝑥 の出力から逆変換Φ−1 (Φ 𝑥 )した再構成画 • 再構成画像品質の上限になる – 被験者1および2の脳反応fMRIからの再構成画 • 性別,肌の色,顔の特徴などが元画と類似になっている 注:S1,S2: 被験者S1,S2の脳反応からの再構成 Stim: 刺激画面,model: Φ−1 Φ 𝑥 , brain1, 2: 脳反応からの再構成画 12
実験結果(2) • 潜在特徴を振ったときの絵 – 潜在特徴の各々が何らかの特徴に紐づく – Feature1: gender 2: hair color 3: age 4: 顔の表情(真面目⇔笑) • 2画像の補間した場合の画像 ・潜在変数𝑧および脳反応𝑦を サンプリング時の画像 13
実験結果(3) • 再構成画像の画質評価: – Latent Feature Model部を 他方式と入れ替えた場合との比較 • Identity transform • Eigenface • DAND(本提案方式) – 脳反応からの再構成ではDAND が良い結果を出している • 再構成画像のSimilarity scoreと原画の の認知レベルの主観要素との相関関係 – – – – – – 複雑度: 強い負の相関あり 女性っぽい: 強い負の相関あり 男性っぽい: 強い正の相関あり 魅力的: 相関が無い 人種: 相関が無い 原型性: 相関が無い 女性っぽい顔は、男性に比べて複雑なので、 再構成を行うことが難しい。 14
まとめ • 本研究では、確率推定と深層学習を組み合わせて、DAND(Deep Adversarial Network Decoding)を提案した. • 本提案を脳反応fMRIからの再構成顔画像に適用したところ、既存研究を Similarity scoreで凌駕した. • 性別,皮膚の色,顔の特徴などの主要なファクターで,原画と同等の画 質となった. • 再構成のSimilarity scoreと,元画の認知レベル主観要素(複雑度,女性っ ぽい,男性っぽい,etc)との相関を調査したところ,複雑な顔は再構成 し難い.女性っぽい顔は,男性っぽい顔比べて複雑なので再構成し難い. 15
感想と改良点 • 感心した点 – 視覚神経系のLatent Feature Model Φを,顔画像認識で実績のあるVGG-Faceを 選び,それを転移学習したもの(PCAとなるFully Connect Layerを追加)とした こと.VGG-Imageを転移学習したものではだめだったらしい.顔の再構成には、 顔認識という特徴量を学習したネットワークを使うべきだったことが判明.→ タスク毎に転移学習で使う学習ターゲットは異なるんだ。まだ汎化性がたりない ということ。→汎化性の強化には、メタ学習が対応の一つだろう。 – HRFは,潜在特徴(𝑧)と脳反応fMRI(𝑦)の関係を表現するが,今回は単純に一次元 の線形結合を仮定している.さらに逆HRFの同定には,潜在特徴(𝑧)を多変数ガウ シアンと仮定しているが,この仮定は大丈夫?代替えとして潜在特徴(𝑧)の密度分 布はフレキシブルにする手法はないか?ベイジアンモデルはどうか? 16
END 17