>100 Views
October 29, 21
スライド概要
2021/10/29
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Self-Motivated Communication Agent for Real-World Vision-Dialog Navigation 発表者: 阿久澤圭 (松尾研D3) http://deeplearning.jp/
書誌情報 • タイトル:Self-Motivated Communication Agent for Real-World Vision-Dialog Navigation • 著者:Yi Zhu, Yue Weng, Fengda Zhu, Xiaodan Liang, Qixiang Ye, Yutong Lu, Jianbin Jiao • Sun Yat-sen University, Noahʼs Ark Lab, Huawei Technologies, 他 • 発表:ICCV2021 • 概要:アノテーションなしで自問自答を行うナビゲーションエージェント
背景 • Vision-Dialog Navigation(VDN): • 対話履歴を訓練データとして利用するナビゲーション • エージェントの目的:特定の物体(ターゲット)へ到達 • 対話履歴(Dialog): • クラウドソーシングによって収集された訓練データ • ターゲットへの道筋を知るAnswerと,ナビゲーション を行うQuestionerの二人の人間が協調して作成
背景 • VDNの既存研究:会話履歴の訓練データを様々な方法で利用する • [Thomason+2020] 会話履歴をsequence-to-sequenceの方策への入力に利用 • [Roman+2020] 会話履歴で言語モデルを事前訓練 -> 各時刻ごとに会話を生成 • [Nguyen+2019] 決められた領域にエージェントが移動するとオラクルからヒントが貰える • VDNの既存研究の限界: • オラクルとのコミュニケーションが柔軟でない(例:事前に定義した場所でのみ質問できる • 高価な対話アノテーションを必要とする
関連研究:Cooperative Vision-and-Dialog Navigation Dataset (CVDN) [Thomason+2020] • CVDN:人間の対話を元にしたナビゲー ションデータセット • クラウドソーシングにより作成 • 目的:ナビゲーションにおいてエージェ ントと人間の協調を扱う • c.f. Vison-and-language navigation:対話=協調を扱わない • 限界:対話の内容や対話の行われる位置 が限られている
関連研究:HANNA [Nguyen+2019] • HANNA:特定の位置にいくと,オラクルがサブタスク(現在地とゴールまでの中間地点へ向かう 言語指示)を教えてくれるシミュレータ環境 • 限界:特定の位置でしかオラクルとのコミュニケーションを行えない,シミュレータの作成コスト
研究目的・提案内容など • 目的: • 適応的にコミュニケーションを取るエージェントを開発したい • 人手によるアノテーションはなるべく減らしたい • 提案:オラクルに対して,いつ,どのような質問を行うかを学習するエージェント • 質問文:有益なフィードバックを得るための自然言語による質問 • WeTAモジュール:オラクルへの質問の有無を選択 • WaTAモジュール:オラクルへの質問内容を決定 • 学習方法:リッチな対話履歴を利用せずに学習(発表者的見解:self-supervised)
問題設定 • Notation: • ターゲット t0:ナビゲーションのゴールに相当する物体 • 観測 Xt = N=36 {xi,t}i=1 :N個の方角についての画像特徴量(Resnetの中間層の出力) • アクション at:視野内のノードへの移動 • 学習:強化学習(RL) + 模倣学習(IL) • つまり,エキスパートの軌道も得られるし,シミュレータ内でのRLも可能
提案手法:全体像 ③ ① ② ① Wether To Ask (WeTA):質問をするかどうかの判定 ② What To Ask (WaTA):質問内容の決定 ③ Action Decoder:ナビゲーションのための移動位置を決定する方策
提案手法:全体像 ③ ① ② ① Wether To Ask (WeTA):質問をするかどうかの判定 ② What To Ask (WaTA):質問内容の決定 ③ Action Decoder:ナビゲーションのための移動位置を決定する方策
Whether to Ask • 入力:現在の状態 ht (過去の画像観測と ターゲットなどの埋め込み) • 出力:質問を行うかどうかのBinary bt • 教師データ:アクションのエントロピー yt = a onehot([H(pt ) < ϵ]+) => アクションの不確実性が高いと質問 • 目的関数: argminπϕLWeTA(bt, yt; πϕ) = − 𝔼yt[log bt]
提案手法:全体像 ③ ① ② ① Wether To Ask (WeTA):質問をするかどうかの判定 ② What To Ask (WaTA):質問内容の決定 ③ Action Decoder:ナビゲーションのための移動位置を決定する方策
What to Ask: 質問候補生成 • 前提:エージェントは様々な方角について合計N=36個の画像観測を持つ • 観測 Xt = {xi,t}Ni=1 • 訓練するモデル:xi,t を入力に,質問文 ci,t を出力するエンコーダーデコーダーモデル • Ground Truthの質問文の作り方: • 手順1:各画像観測 xi,t にobject localization networkを適用 => 物体名[Obj]と方角[Dir]を取得 • 手順2:テンプレートを元にN個の質問候補を生成 • e.g., Shoaled I go [Dir] to the [Obj]?
What to Ask:質問候補からの選択 • N個の質問候補について,どれを実際に利用するかのスコアベクトル Q at を算出 • Language Information: 質問候補の埋め込み Dt とターゲット埋め込みt̃0の相関 • Vision Information: 質問候補の埋め込み Dt と画像観測 xt,i ∈ Xt の相関
What to Ask:回答文について • A 回答スコアベクトルat :N個の質問候補について,yesかnoかで答える • 計算方法:未来の観測情報と質問文の類似度の計算 • 例えば,”Shoaled I go [Dir] to the [Obj]?”の質問が正しいかどうか は,未来の観測を見ればわかるはず
What to Ask:学習 • 質問スコアベクトルと回答スコアベクトルのKL距離最小化 • 学習初期は,回答スコアベクトルが教師となる • 学習後は,質問スコアベクトルが,各質問の確信度を表現する
提案手法:全体像 ③ ① ② ① Wether To Ask (WeTA):質問をするかどうかの判定 ② What To Ask (WaTA):質問内容の決定 ③ Action Decoder:ナビゲーションのための移動位置を決定する方策
Where to Go • 方策の入力:履歴ht, アクションat−1,観測Xt,移動可能な位置Xt • 履歴:質問スコアが最も高い質問文の特徴量 dt,i を利用して更新
最適化 • 強化学習と模倣学習を組み合わせて行う • 模倣学習:WeTA, WaTA, ナビゲーション方策の訓練 • 強化学習:WeTA, ナビゲーション方策の訓練
実験 • • データセット:CVDN + REVERIE • どちらも室内でのナビゲーション • CVDNでは対話履歴,REVERIEでは言語指示が与えられる 評価指標: • Goal Progress :ゴールに向けて何m近づいたか • Success Rate:タスクの達成率
Ablation Study: WeTA • Non-learning Agentとの比較: => WeTAを学習する方が良い • Learning Agent間の比較: => 提案アーキテクチャが良い
Ablation Study: WaTA • ベースラインRMM:質問文をエンコーダー・デコーダーで生成 • テンプレートを使った提案手法の方が性能がよい
Ablation Study: WeTA and WaTA • WeTAやWaTAを学習しない場合の性能への影響
質問文の正しさ • 訓練済みモデルでは,62.4%の質問文が,ターゲットへの方向とマッチ
他手法との比較:CVDN • 下3つはDialogを利用した手法 • 提案手法は,Dialogを利用しない(ターゲットの情報しか使わない)にもかかわ らず同程度の精度
他手法との比較:REVERIE • 既存手法は言語指示を 利用 • 提案手法はtargetのみ を利用 • 提案手法が最も良い
定性評価 • ナビゲーションの各時刻で,質問を行う確率と報酬 • 「報酬が低い -> 質問を行う -> 報酬が高くなる」というサイクルを確認
定性評価 • 赤線がエージェントの経路 • 途中で重要な質問をいくつか している
まとめ • 提案:人手によるアノテーションに依存せず,いつ,どのようなコミュニケーションをと るかを適応的に決定するエージェント • 結果:対話履歴データなしで学習し,ターゲットのみを利用するにもかかわらず,対話履 歴データなどを利用したベースライン手法と同程度の性能を達成した • 発表者の感想: • 「Vision-and-language + アクション(または時系列)」が得られるような状況で自 己教師あり学習をどう行うべきかという点について,示唆が得られる内容だと感じた • 提案手法では方策への入力に「最もスコアの高い質問文」を利用している,つまり自問 自答の結果を利用している.他人の回答を利用するような拡張が面白そうだと感じた
参考文献 • JesseThomason, MichaelMurray, MayaCakmak, and Luke Zettlemoyer. Vision-anddialog navigation. In Proceedings of the Conference on Robot Learning (CoRL), pages 394‒406, 2020. • Homero Roman, Yonatan Bisk, Jesse Thomason, Asli Celikyilmaz, and Jianfeng Gao. Rmm: A recursive mental model for dialog navigation. In Proceedings of the Confer- ence on Empirical Methods in Natural Language Processing (EMNLP), pages 1732‒1745, 2020 • Khanh Nguyen and Hal Daumé III. Help, anna! visual navigation with natural multimodal assistance via retrospective curiosity-encouraging imitation learning. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 684‒695, 2019.