[DL輪読会]Counterfactual Vision-and-Language Navigation: Unravelling the Unseen

253 Views

November 20, 20

#deep learning #Deep Learning #Research Presentation #Data Augmentation #Counterfactual Reasoning #Vision and Language Navigation

スライド概要

2020/11/20
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 65.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.7K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 46.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45.9K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 43.9K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Counterfactual Vision-and-Language Navigation: Unravelling the Unseen Presenter: Kei Akuzawa http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 • タイトル: Counterfactual Vision-and-Language Navigation: Unravelling the Unseen • 著者: Amin Parvaneh, Ehsan Abbasnejad, Damien Teney, Javen Qinfeng Shi, Anton van den Hengel • University of Adelaide, Australia • 会議: NeurIPS2020 • 一言でいうと: navigationタスクのための，反事実的推論（Counterfactual Reasoning）を利用したデータ拡張手法の提案

タスクの説明: Vision-and Language Navigation (VLN) • POMDP課題の一種 • エージェントは言語指示と画像観測 t を受け取る • エージェントはアクション at を各時刻ごとに実行し，言語指示に示されたナビゲーション課題を達成すると報酬がもらえる（注: 本論文ではsparse rewardではない）

背景: VLNの難しさ • VLNは通常，強化学習と模倣学習の組み合わせによって解かれる • 強化学習（RL）: 試行錯誤による学習 • 模倣学習（IL）: 予め用意した正解軌道 τ0:T = {o1:T, a1:T, c}を用いた学習 • VLNエージェントを，未知の環境・言語指示に汎化させたい • エージェントが訓練時に使った軌道を丸暗記する危険がある • VLNのようなマルチモーダル・系列課題では特に，入力空間が広すぎるために，汎化が難しい

提案と貢献 • 提案: 反事実的推論（Counterfactual Reasoning）を利用して，汎化能力を向上させる • 反事実的軌道の生成: タスクに関係のないspuriousな画像特徴に介入 • エージェントの訓練: 反事実的軌道を利用することで，spuriousな特徴にロバスト化 • 貢献 • VLNにおいて，反事実的推論によるデータ拡張という新しい方針を提案． • データ拡張を行う具体的な手法の提案 • ベンチマーク環境 Room-to-Room と Embodied Question Answering の性能改善

手法: 前置き • この論文が考える方策: • 普通のRNN方策（数式で表されているだけ） 1. 観測 t からCNNで特徴量 zt を抽出 2. zt をRNNに入れて隠れ状態 st を抽出 3. st を元に，アクション at を出力

手法: 前置き • 介入による，反事実的な軌道: • • 二つの軌道， τ, c), (τ′, c′) の内挿によって軌道を作成 • 内挿の係数 u ∈ [0,1]d の選び方は後述 CNNで抽出した特徴量 zt の空間上で内挿する

手法: やること，そのメリット • やりたいこと: 反事実的に生成された軌道に対する報酬を最大化 • 報酬: • p(u | τ, c) : 介入のルールを定める分布 • : 反事実的に生成された軌道 • 上のメリット: • 介入に対して，平均的に良い性能を発揮することができる • 理由: 介入に対して周辺化している（𝔼u∼p(u|τ,c) に注意） • （因果推論の文脈では，条件付き平均処置効果の最小化と呼ばれる） • 次の疑問:介入をどう定義すれば，上のメリットが活かせる？？？

手法: 意味のある介入とは • どんな介入を考えるべきか？ => 方策をどんな特徴に対してロバストにしたいのか？ • => タスクに関係のない画像特徴の変更に対してロバストにしたい • “whatif the agent observed a table, instead of a chair?” • 介入に対する具体的な制約 ① 介入前と介入後で同じ言語指示に従うべきというヒュリスティクスを導入 • 介入前と後で，タスクの大枠（エージェントが通るべきルート）は変わって欲しくない ② エージェントの行動を大きく変える介入を考える • 本来，介入後も行動は変わって欲しくない（①）．すなわちここでは，なるべく敵対的な介入を考えている • エージェントの行動を変えない介入 => 元々方策に無視されている => これ以上ロバストにする必要がない ③ なるべく小さい介入を考える • eﬃciency and simplicity （厳密に著者の言いたいことはわかってないが，まあ小さい方がよさそう）

10.

手法: 介入の具体的な計算方法 • 第一項が③，第二項が①，第三項が② • つまり，現在の方策を騙すようにを選ぶ（敵対学習っぽい）

11.

手法: アルゴリズム

12.

実験 • Room-to-Room: • training data: 14025 pairs of τ, c) path in 61 environments • test data: • (1) seen: 環境は既知，言語指示は未知 • (2) unseen: 環境も言語指示も未知 • Embodied Question Answering（本発表では省略） • Room-to-Roomより大規模な環境

13.

実験 • 指標 • NE: ゴールとの距離 • • SR: 成功率 • SPL: Success weighted by Path Length ablation methods • +Prior: 介入 • • 単なるMixUp [Zhang+2018] +Aug: ある軌道 • をpriorからサンプル．にふさわしい言語指示 [Anderson+2018]の手法 • +Counterfactuals: 提案手法 • を後付け

14.

まとめと感想 • まとめ • VLNにおける未知環境・言語指示への汎化を促進するために，反事実的推論を利用したデータ拡張手法を提案した • 感想 • アイデアが面白かった • “介入”の定義については，タスクに応じて他の帰納バイアスもありそう

15.

参考文献 • Zhang et.al. mixup: Beyond empirical risk minimization. ICLR, 2018. • Anderson et.al. Vision-and-language navigation: Interpreting visuallygrounded navigation instructions in real environments. CVPR, 2018.