1.6K Views
April 25, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Autonomous Evaluation and Refinement of Digital Agents Toshi Ito (Shinshu Univ. Takyu Lab. D1) http://deeplearning.jp/ 1
書誌情報 タイトル Autonomous Evaluation and Refinement of Digital Agents 著者 Jiayi Pan, Yichi Zhang, Nicholas Tomlin, Yifei Zhou, Sergey Levine, Alane Suhr 発表日 2024/4/9 (arxiv) 概要 Webナビゲーションとデバイス制御のためのデジタルエージェントのパフォーマンス向上に貢献 するドメイン全般の自動評価モデルの作成と利用方法の提案 実装 https://github.com/Berkeley-NLP/Agent-Eval-Refine デジタルエージェントの自律評価および改善 2
背景 • デジタルエージェントはユーザ指示に基づいてタスクを自動実行する 技術である。 • 現在のエージェントはまだ簡単なタスクでも誤りを犯すことがあり、 エージェントを適切に評価・改善を手動ではなく自動化させたい • 自動化にはエージェントのタスクの成功と失敗を見極めることが重要 • 既存のエージェントのパフォーマンスを改善するための自動評価モデ ルの提案 3
概要 4
目的 • エージェントのパフォーマンスを自動評価するモデルの開発 • パフォーマンスの向上のための評価モデルの利用方法の提案 5
提案手法 • ドメイン一般のニューラルモデルを使用して ユーザーの指示とエージェントの軌跡を評価 • End-to-End Approach – 入力から出力までの処理をビジュアル言語モ デル(VLM)で一括して行います。 – 一貫性があり処理が速いが、内部の処理メカ ニズムが不透明になりがちです。 – GPT-4Vという言語モデルを使用する • Modular Caption-then-Reason Approach – 最初に視覚情報からテキスト記述への変換を 行い、次にそのテキストを解析して評価する。 – エラーが発生した際に原因を分析しやすい – captioner(GPT-4V)と、GPT-4または Mixtralを組み合わせて使用する 6
提案手法 • 評価モデルの利用方法としてReflexionと Filtered Behavior Cloningの二つを提案する • Reflexion – エージェントのアクションを評価し、必要に応じた行動を再 考し調整を促す。 – エージェントのアクションが不適切な場合に、その結果を踏 まえて再試行する • Filtered Behavior Cloning – ステップごとの評価を提供し、特定の閾値以下の報酬を持つ データを除外する – 成功に影響を与える高報酬の状態・行動ペアのみ利用して学 習する – 資源が限られたモデルに対して有効的な施策である 7
実験環境 • End-to-End ApproachとModular Caption-then-Reason Approach をベンチマークで提案手法を評価する – WebArenaとAndroid-in-the-Wildを使ってオラクル評価または人間の判断と自 動評価モデルの性能を評価する • Reflexion との統合によるエージェントのパフォーマンス向上の評価 – 現行の最先端のGPT-4ベースのWebArenaエージェントを改善を図った – 最大3ラウンドまでReflexionを使用したときのパフォーマンスを評価 • ドメイン間との一致度評価 – 学習データの少ないiOSデバイス制御で自動評価モデルを使用する – その際に、Filtered Behavior Cloningを使用してモデルをチューニングし、ト レーニングデータの質を向上させる 8
実験環境 • Web Arena – Webブラウジングタスクを模擬するオフラインの環境での評価に使用される – ショッピング、地図検索など、多岐にわたるタスクを実行をする • Android-in-the-Wild (AitW) – Androidのデバイス制御に特化したデータセットを基に評価します。 – エージェントの性能を現実世界のタスクに適用する評価基準を提供する • iOSドメイン – iOSデバイス制御のタスクセットはAitWに触発されてデザインされた – タスク数がAitWと比べてかなり少ない – ドメイン間の転送を容易にするため、AitWの設計に合わせている 9
実験結果 • オラクル評価器または人間の判断との精度評価 10
実験結果 • Android-in-the-Wildで異なる評価方法を用いてモデルを評価 11
実験結果 • Reflexionを使用したWebArenaのベンチマークでの異なる評価システ ムを用いた結果 12
評価 • iOSデバイス制御タスクのタスク成功率 – テストタスク数:52 13
まとめ • Web ArenaとAndroid-in-the-Wildのベンチマークで提案手法の高い 精度の実現 • Reflexionとの統合により、パフォーマンス改善が見られた • Filtered Behavior Cloning によりドメイン間の差異を軽減させた 14
今後の課題について • 現行の評価器の改善 • 実験のスケーリングと新しいアルゴリズムの開発 • 言語に基づく説明の活用 • リアルワールドでの安全なデプロイメント 15
実装例 16
実装例 17
実装例 18
実装例 19
実装例 20
実装例 21
実装例 22