[DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker Decent

>100 Views

January 26, 18

#deep learning #Deep Learning #Data Collection #Grounded Language Learning #Mechanical Turker Decent #Gameification

スライド概要

2018/1/26
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 63.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 44.9K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 43.7K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 42.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Mastering the Dungeon: Grounded Language Learning by Mechanical Turker Decent (under review at ICLR2018)” Hiromi Nakagawa, Matsuo Lab http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 • https://openreview.net/pdf?id=SJ-C6JbRW • 著者：Zhilin Yang, Saizheng Zhang, Jack Urbanek, Will Feng, Alexander H. Miller, Arthur Szlam, Douwe Kiela, Jason Weston – Facebook AI Research • 公開日：2017/11/04 – Last update: 2018/01/05 • Under review at ICLR2018 – Score: 8, 7, 7

https://openreview.net/pdf?id=SJ-C6JbRW

概要 • クラウドソーシングにおけるより良質なデータ収集スキーマの提案 • 言語理解タスクのデータ作成においてその有効性を検証 Mastering the Dungeon: 実験に用いるゲームの名前 Grounded Language Learning タスクの名前 by Mechanical Turker Decent 提案手法の名前 Mechanical Turk: Amazonの提供するクラウドソーシングプラットフォーム

関連研究：Grounded Language Learning • 言語理解に関する研究は大きく分けて２つ – Static datasetsを用いて学習するもの • Visual question answering [Anto et al., 2015] – ある環境下でagentがinteractiveに行動しながら学習するもの(筆者の主張) • Synthetic & templated languages [Sukhbaatar et al., 2015; Yu et al., 2017; Bordes et al., 2010; Hermann et al., 2017; Mikolov et al., 2015; Chaplot et al., 2017] • Natural language but not text adventure games [Wang et al., 2016, Wang et al., 2017] • Text adventure games but without the communication element[He et al., 2016; Narasimhan et al., 2015]

関連研究：Data Collection • 言語理解の研究ではAmazon Mechanical Turkでデータを収集するものが多い – 多くの研究では固定の金額でstaticなデータセットを集めている – 競争や協調，ゲーミフィケーションなどを取り入れたものもあるが，特定のタスクに特化したものが多い[Von Ahn & Dabbish et al., 2004; Kazemzadeh et al., 2014; Von Ahn et al., 2006; Eiben et al., 2012] • 提案手法のMechanical Turker Decent(MTD)はタスクに依存せず，学習に用いるデータの質を直接的に最適化できる

提案手法: Mechanical Turker Decent(MTD) • 全体で共用のデータセットDtrain_all, Dtest_allを用意 • 各ラウンドにおいて，N人のTurkerはそれぞれデータセットD1, ..., DNを作成 • Turker iのモデルMiを Di ∪ Dtrain_all を用いて訓練 • MiをEvaluation Dataset • 良いスコアを獲得したTurkerにボーナスを付与 • ラウンド終了時，全員のデータセットD1, ..., DNを共用のデータセットDtrain_all, Dtest_allにマージ • 次のラウンドへに適用してスコアSiを計算

提案手法: Mechanical Turker Decent(MTD)

提案手法のポイント 1. ゲーミフィケーションによりアノテータにとってプラスな影響[Von Ahh & Dabbosh, 2004.] 2. 競争と協調のインセンティブ設計によって従来手法の欠点を克服 – Avoids examples being too easy • 簡単なサンプルは自分のスコアを下げ，他人のスコアを上げてしまう – Avoids examples being too hard • 難しすぎるサンプルは自分のスコアを下げてしまう – Human-curated curriculum • Turkerが教師として機能し，徐々に難しいサンプルを学習するカリキュラム学習が可能 – MTD is not easily exploitable/gameable • 極度に他人を妨害するメリットが少なく，適度に競争と協調をするのが最適解になる • 競争=他人よりも良質なデータを作る，協調＝同様の分布に従うデータを作る

実験設定: Game Environment • Mastering the Dungeon – GraphWorldに基づいたゲーム – nodes：concepts (object, location, actor) – labeled edge：ノード同士の関係 – action = グラフ構造の変化 • Turkerはプレイヤーとして，ペットのドラゴンが自然言語の指示を正しく実行できるように訓練する – x: natural language commands • “enter the bedchamber and toss your armor on the bed” – y: a sequence of actions • “go bedroom; remove helmet; put helmet on the bed; remove chestplate”

10.

実験設定: Model (=Agent) • Seq2Seq with attention [Bahdanau et al., 2014] • Action-Centric Seq2Aeq (AC-Seq2Seq) – 今回のタスク用にSeq2Seqを以下の点について拡張したもの – actionを行動の種類と行動対象の事物に分割してembeddingを学習 • 類似の行動の学習を効率化 – 過去にとったactionの情報を保持 – actionの候補を現在可能なもののみに制限

11.

実験結果: MTD vs static method • MTD > Collaborative-only baseline – Collaborative-only = 金額とサンプル数は固定（従来手法） – MTDによって良質なサンプルを作成によるモデルの精度向上が促進される

12.

実験結果: Ablation study • MTD > MTD limit – MTD limit = 各ラウンドで作成できる最大サンプル数に制限をかける – 他者より多くのサンプルを作ろうとするインセンティブ設計が結果にもプラスに

13.

実験結果: Ablation study • MTD limit > MTD limit w/o model – w/o model = 作成したサンプルが現在のモデルの改善に寄与しそうかのFBを受けられない – モデルのFBが良質なサンプル(ex:難しすぎず簡単すぎない)を作成するのに寄与している

14.

実験結果: AC-Seq2Seq vs Seq2Seq • AC-Seq2Seq > Seq2Seq – GraphWorldの特性に応じたモデル設計がプラスに働いた

15.

まとめ • クラウドソーシングにおけるインタラクティブでより良質なデータ収集スキームを提案 • アノテータは2通りのインセンティブに応じて訓練データを作成する – 競争：自分のモデルの精度が向上するような良質なデータを作成 – 協調：全体のデータの分布から大きく外れないようなデータを作成 • 汎用性が高く，かつ従来のデータ収集スキーマの様々な欠点を補うことが可能 • Mastering the Dungeon という Grounded Language Learningのタスクで提案手法によって最良の精度を得られることを示した