【DL輪読会】Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents

143 Views

April 17, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents Yuya IMAI, Matsuo Iwasawa Lab http://deeplearning.jp/ 1

2.

書誌情報 【ICLR'25 Oral】 Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents Authors: Boyu Gou, Ruohan Wang, Boyuan Zheng, Yanan Xie, Cheng Chang, Yiheng Shu, Huan Sun, Yu Su Affiliation: The Ohio State University, Orby AI TL;DR 視覚情報(スクリーンショット)のみを観測として、GUI操作を行 うAIエージェントの構築 2

3.

背景 GUIエージェント • GUI操作をしてデジタル世界を行動する自律エージェント • LLMの発展によって、webやデスクトップ、モバイルなど多様な環境 でエージェントが動作可能になった • 多くの既存手法はHTMLやアクセシビリティ(a11y)ツリーなどのテキ ストベースの観測を利用している 3

4.

背景 テキストベース情報依存の問題点 • ノイズや不完全性 – HTML全体には不要な情報が大量に含まれている – a11yツリーは省略があったり誤ったアノテーションが含まれる場合が多い • レイテンシとコスト増大 – HTMLなどの情報を毎ステップ取得・解析するコストが大きい →人間のように、視覚的な観測のみを行い、ピクセルレベルの 操作をするエージェントは、どこまで実現可能なのか? 4

5.

背景 課題: グラウンディング • 視覚情報のみのエージェント実現における主要なボトルネックはグラ ウンディング – テキストベースの計画(例:「送信ボタンをクリック」)を、GUI上の正確な 位置(座標)に対応付けるプロセス • グラウンディングモデルに必要な要件: – 高精度: 一度のグラウンディングエラーがタスク全体の失敗につながる可能性 があるため、精度が非常に重要 – 強い汎化性: デスクトップ、モバイル、Webなど、異なる種類のGUIで機能す る必要がある – 柔軟性: 特定のプランナーに強く依存せず、様々なモデルと組み合わせて使え る必要がある 5

6.

背景 本研究の貢献 • GUIエージェントフレームワーク(SeeAct-V)の提唱 – 人間のように視覚情報のみで環境を認識し、ピクセルレベルで操作するGUI エージェントのための汎用的なフレームワークSeeAct-Vを提案 • 大規模データセットとグラウンディングモデル(UGround)の公開 – 過去最大規模のGUI視覚グラウンディングデータセット(130万枚のGUIスク リーンショットから1000万のGUI要素とその指示表現)を構築、公開 – このデータセットで、普遍的な視覚グラウンディングモデルUGroundを開発、 公開 • 包括的な評価 – グラウンディング精度、オフラインエージェント評価、オンラインエージェン ト評価の3カテゴリにわたる6つのベンチマークを用いた、包括的なGUIエー ジェントの評価を実施 6

7.

手法 SeeAct-Vフレームワーク • 前提 – スクリーンショットのみを環境観測として使用 – タスク指示はテキストとして入力 7

8.

手法 SeeAct-Vフレームワーク • 2つの主要コンポーネントで行動 – Planning: 計画(テキスト)を生成する – Grounding: 計画をスクリーンショット上の座標に変換する 8

9.

手法 データ構築 • 視覚グラウンディング用の大規模データ セットをウェブから合成 – (スクリーンショット, 参照表現, 座標)の組 • ウェブページを利用する利点 – HTMLからバウンディングボックスや詳細な位 置情報を容易に取得可能 – CSSやアクセシビリティ属性など豊富なメタ データが活用できる 9

10.

手法 データ構築 • 複数種類の参照表現の利用 – 視覚的参照表現(Visual RE) • テキストや画像内容などの視覚的特徴 • ボタンや入力フィールドなどの要素タイプ • 形状、色などの外観特性 – 位置的参照表現(Positional RE) • 絶対位置:「ページの左上」など • 相対位置:「要素Xの右側」など • 文脈的参照:「アイテムAのための」「セクションX の下の」など – 機能的参照表現(Functional RE) • 主な機能による参照:「ホームに移動」「カートに追 加」など 10

11.

手法 データ構築 • 参照表現生成方法 – HTMLから抽出(ルールベース+LLMによる洗練) • 視覚的表現:inner-text、altなどから要素の見た目を記述 • 機能的表現:aria-labelなどのアクセシビリティ属性から機能を把握 • 位置的表現:「ページの上部に」、「要素AとBの間にある」など – マルチモーダルLLMによる拡張 • LLMの知識による拡張解釈(「青い鳥のアイコン→Twitterのアイコン」など) 11

12.

手法 データセット • 主要データセット「Web-Hybrid」 – Common Crawlからの大量のスクリーンショットとメタデータ収集 – 縦向き・横向きの多様な解像度のスクリーンショット • 補助データセット – 既存のAndroidグラウンディングデータを統合 – 「Web-Direct」:GPT-4oによる直接合成データ • 用途:ウェブに少ない特殊なGUI要素(トグルボタンなど)のカバー 12

13.

手法 モデル設計 • オープンソースのVLM、LLaVA-NeXT (7B)をバックボーンに採用 • テキスト入力:スクリーンショット上で特定の要素を参照する言葉 – 「スクリーンショットの中で、『{要素の説明}』に対応するピクセル座標はど こですか?」という形式 • 画像入力:柔軟に画像を分割できるCLIP@224pxをエンコーダーとし て使用 • 出力:座標(x, y)を自然言語形式で出力するように調整 – 例:「(1344, 1344)」 →前述のデータセットで学習してUGroundモデルを構築 13

14.

実験 概要 • 6つのベンチマークを使用 – 3つの主要プラットフォーム(ウェブ、デスクトップ、モバイル)をカバー • 3つの評価設定 – 視覚グラウンディング – オフラインエージェント評価(キャッシュされた環境) – オンラインエージェント評価(ライブ環境) 14

15.

実験 視覚グラウンディング評価 • ScreenSpotベンチマーク(1272件の指示と対応するバウンディング ボックス) – 標準設定:人間のアノテーターによる機能的説明・指示に従う • “set an alarm for 7:40” – エージェント設定:MLLMによって生成された多様な参照表現に従う 15

16.

実験 視覚グラウンディング評価 • 結果 – UGroundがすべての設定とプラットフォームで既存モデルを上回る – 標準設定で平均20%、エージェント設定で29%の改善 16

17.

実験 オフラインエージェント評価 • ベンチマーク – ウェブ:Multimodal-Mind2Web • 100以上のウェブサイトにわたる1,013タスク • 評価指標: 正しい要素を選択する精度。操作の種類(クリック、入力など)の正しさは対象 外 – モバイル:AndroidControl • 833アプリにわたる15,000の一意なタスクを含む大規模データセット • 評価指標: 成功率(予測アクション、要素、引数がすべて正確な場合のみ成功) – デスクトップ:OmniACT • 38のデスクトップアプリケーションと27のウェブサイトにわたる9,802タスク • 評価指標: PyAutoGUIスクリプト(アクションシーケンス)の精度 17

18.

実験 オフラインエージェント評価 • Multimodal-Mind2Webの結果 – GPT-4によるChoiceやSoMといった既存のグラウンディング手法や、先行研 究の資格グラウンディングモデルSeeClickを上回る • Choice: HTML要素の候補リストから該当の要素を選択する • SoM: 要素に割り当てられたマーク(ラベル)を選ぶ 18

19.

実験 オフラインエージェント評価 • AndroidControlとOmniACTの結果 – 全てのベンチマークでベースラインを上回る – 詳細は割愛 19

20.

実験 エラー分析 • エラーの分類 – 計画エラー • プランナーが、操作すべきUI要素について間違った説明 を生成してしまうエラー • 例えば、「送信ボタン」をクリックすべきなのに、 「キャンセルボタン」の説明を生成してしまう – グラウンディングエラー • プランナーは正しい要素の説明を生成したにもかかわら ず、グラウンディングモデル間違った画面上の位置(座 標)を予測してしまうエラー • →マニュアルで分析 20

21.

実験 エラー分析 • 分析結果 – 失敗の大部分は「計画エラー」によるもの – 「グラウンディングエラー」も一定数見られた • 主な原因は、モバイルやデスクトップUIでよく使われる特異な意味を持つアイコン(例: 特定のアプリを表す独自デザインのアイコン)の理解が難しいこと 21

22.

実験 学習データ分析 • Web-Hybrid データセットのスケー リング分析 – (結果) 訓練データ量が増えるにつれて、 性能は一貫して向上したが、10万件を超 えると、性能の伸びは鈍化する傾向が見 られた 22

23.

まとめ 手法 • 大規模なウェブベースの合成データを用いて開発された、普遍的な GUI視覚グラウンディングモデルUGround • 視覚情報(スクリーンショット)のみを入力とし、ピクセルレベルで のGUI操作を可能にするSeeAct-Vフレームワーク 結果 • UGroundを組み込んだSeeAct-Vベースのエージェントは、オフライ ン(事前記録データ)およびオンライン(実環境)の両方の評価にお いて、追加のテキスト情報に依存する既存のSoTAエージェントと比 べて、同等かそれ以上の性能を達成 23

24.

まとめ 限界点と今後の課題 • 訓練データの効率 – ウェブページ間には類似した要素や繰り返しが多く存在するため、データの グルーピングや重複排除を工夫することで、訓練データの効率を改善する余 地がある • ロングテール要素への対応 – 出現頻度の低い特殊な要素(ロングテール要素)への対応がまだ不十分。特 にモバイルやデスクトップのUIには、特有の意味を持つアイコンが多く存在 し、これら全てを訓練データで網羅するのは現実的ではないのでこの問題へ の対応は今後の課題。 • デスクトップUIデータの不足 – 本研究では、デスクトップUIのデータは訓練に使用されておらず、デスク トップUIにおける性能の限界の一因となっている。今後のより包括的なデー タセット開発が期待される。 24