【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

600 Views

April 07, 23

スライド概要

2023/4/7
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models 小林 範久 Present Square Co.,Ltd. http://deeplearning.jp/ 1

2.

書誌情報 タイトル: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models https://arxiv.org/abs/2303.03378 著者: Chenfei Wu Shengming Yin Weizhen Qi Xiaodong Wang Zecheng Tang Nan Duan* Microsoft Research Asia fchewu, v-sheyin, t-weizhenqi, v-xiaodwang, v-zetang, [email protected] 概要: • ChatGPTとVisual Foundation Modelsを組み合わせ、ChatGPTが複雑な視覚タスクを処理できるように するVisual ChatGPTを提案。 • Prompt Managerを設計し、22種類の異なるVFMsを巻き込み、それらの相互関係を定義してより良い相 互作用と組み合わせができるようにした。 • 大量のゼロショット実験を行い、豊富な事例を示すことで、Visual ChatGPTの理解度と生成能力を検証。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2

3.

アジェンダ 1. イントロダクション 2. 関連研究 3. Visual ChatGPT 4. 実験 5. 制限事項 6. 結論 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3

4.

1. イントロダクション イントロダクション • 近年、大型言語モデル(LLMs)の開発は驚くべき進歩を遂げており、最も重要なブレークスルーの1つは、 InstructGPT をベースに構築された ChatGPT である。特に一般的な会話方式でユーザーと対話するように訓練されて いるため、現在の会話の文脈を維持し、フォローアップ質問を処理し、それ自体が生成した答えを修正することができる。 • しかし、ChatGPTは視覚情報の処理能力に限りがある。これは、単一の言語モダリティでトレーニングされているため。 • 一方、Visual Foundation Models(VFMs)は、複雑な画像を理解し生成する能力を持つコンピュータビジョンにお いて膨大な可能性を示している。 例)BLIP Model :画像の理解と説明を提供するエキスパート Stable Diffusion :テキストプロンプトに基づいて画像を合成するエキスパート しかし、上記はタスク仕様の性質上、入出力形式が厳しく固定されているため、VFM は人間と機械の対話における会話型 言語モデルよりも柔軟性に欠ける。 ChatGPTのようなシステムを構築して、画像の理解と生成もサポートできないか? Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4

5.

1. イントロダクション イントロダクション • 直感的なアイデアとしては、マルチモーダルな会話モデルを学習させるというものがある。しかし、そのようなシステムを構築する には、大量のデータと計算資源を消費することになる。また、言語や画像だけでなく、動画や音声などのモダリティを取り込み たい場合、どうすればよいかという課題もある。 Visual ChatGPTというシステムを提案 新しいマルチモーダルChatGPTをゼロからトレーニングする代わりにChatGPTを直接基盤としてVisual ChatGPTを 構築し、さまざまなVFMsを組み込む。 Prompt Managerを提案 • ChatGPTとこれらのVFMsの間のギャップを埋める。このPrompt Managerは次の機能をサポートする。 1)明示的にChatGPTに各VFMの能力を伝え、入力-出力形式を指定する。 2)異なる視覚情報(例えばpng画像、深度画像、マスク行列)を言語形式に変換してChatGPTが理解できるよう にする。 3)異なるVisual Foundation Modelsの履歴、優先順位、競合を処理する。Prompt Managerの助けを借りて、 ChatGPTはこれらのVFMsを活用し、反復的にフィードバックを受け取る。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5

6.

1. イントロダクション イントロダクション ① 黄色い花の画像をアップロードし、 「この画像の予測された深度に基づ いて赤い花を生成し、それを漫画の ように段階的に作成してください」と いう複雑な言語指示を入力。 ④ ② Prompt Managerの助けを借りて、 Visual ChatGPTは関連する Visual Foundation Modelsの実 行チェーンを開始する。 最終結果が 表示される ③ まず深度推定モデルを適用して深度情報を検出。 次に深度情報を使用して深度-画像モデルで赤い花の図を生成。 ・最後にStable Diffusionモデルに基づくスタイル転送VFMを活用 ⇒画像のスタイルを漫画に変更 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 6

7.

2. 関連研究 2.1. 自然言語とビジョン • 様々なモダリティ(音、視覚、映像など)に囲まれた生活において、言語と視覚は情報を伝達する2つの主要な媒体である。 • 自然言語と視覚の間には自然なリンクがあり、ほとんどの質問では、満足のいく結果を得るために、この2つの流れの共同モ デリングが必要である。 例: 視覚的質問応答(VQA)は、画像とそれに対応する1つの質問を入力として受け取り、与えられた画像内の 情報に基づいて回答を生成することが求められる。 • InstructGPT のような大規模言語モデル(LLMs)の成功により、モデルとの対話や自然言語形式でフィードバックを得る ことができるが、視覚情報を処理することができない。視覚処理能力をこのようなLLMに融合させるためには、大規模な言語 モデルや視覚モデルを訓練することが困難であり、適切に設計された指示や面倒な変換が必要であるため、LLMsに視覚処 理能力を融合させるためにはいくつかの課題がある。 • いくつかの作品は、事前学習されたLLMsを活用してVLタスクのパフォーマンスを向上させることを探求しているが、これらの方 法はいくつかの特定のVLタスク(言語から視覚または視覚から言語)をサポートし、訓練にラベル付きデータが必要である。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 7

8.

2. 関連研究 2.2. VLタスクのための事前学習済みモデル • 視覚的な特徴をよりよく抽出するために、初期の作品では事前学習された画像エンコーダーが採用されている。最近の LiT ではCLIP事前学習モデルと学習済みViTモデルが適用されている。 • 別の観点から見ると、LLMsから知識を活用することも重要である。事前学習されたLLMsは強力なテキスト理解および生 成能力を示している。 • VLモデリングでは、視覚特徴をテキスト空間に合わせるために、事前学習済みLLMsに追加アダプタモジュールを追加して いる。モデルパラメーターの数が増えると、事前学習されたLLMsを訓練することが難しくなるため、VLタスクに事前訓練され たLLMを直接活用する取り組みがなされている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 8

9.

2. 関連研究 2.3. VLタスク用プレトレーニングLLMsのガイダンス • 複雑なタスク、例えば、常識的な推論を対処するために、 LLMsの多段階推論能力を引き出すChain-of-Thought (CoT)が提案されている。具体的には、CoTはLLMsに最終結果のための中間回答を生成するよう求める。 • 既存の研究は、この技術をFew-Shot-CoT とZero-Shot-CoT の2つのカテゴリーに分類している。Few-Shot-Cot では、LLMsはCoT推論を行い、LLMsが複雑な問題を解決する能力をよりよく獲得できることがわかった。さらに、LLMsが ゼロショット設定下で自己生成された根拠を活用して自己改善できることが示されている。 • 上記の研究は主に言語という単一のモダリティに焦点を当てたものである。近年、言語と視覚モダリティを組み込んだ Multimodal-CoT が提案され、根拠生成と回答推論を分離した2段階フレームワークが提案されている。 • しかし、このような方法は、ScienceQAベンチマークのような特定のシナリオ下でのみ優位性を示すにすぎない。 • 本研究はCoTの可能性を大量のタスクに拡張しており、テキスト-画像生成、画像-画像変換、画像-テキスト生成 などが 含まれている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 9

10.

3. Visual ChatGPT Visual ChatGPTの概要 Copyright (C) Present Square Co., Ltd. All Rights Reserved. • 図の左側は、3ラウンドの対 話を示している。 • 中央は、Visual ChatGPT がVisual Foundation Modelsを反復的に呼び出 し、回答を提供するフローチ ャートを示している。 • 右側は、2番目のQAの詳細 なプロセスを示している。 10

11.

3. Visual ChatGPT Visual ChatGPT S • 𝑆 = {(𝑄1 , 𝐴1 ), (𝑄2 , 𝐴2 ), … , (𝑄𝑁 , 𝐴𝑁 )} を 𝑁 個の質問-回答ペアを 持つ対話システムとする。 • 𝑖 回目の会話から応答𝐴𝑖を得るために、複数のVFMsとそれらのモデル (𝑗) からの中間出力A𝑖 が関与する。𝑗 は 𝑖 回目のラウンドで 𝑗 番目の VFM(F)からの出力を示す。 (𝑗) • 最後に、システムはA𝑖 を出力し、それが最終応答として示され、それ 以上のVFMは実行されない。 𝑸𝟏 𝑨𝟏 𝑸𝟐 ・ ・ ・ 𝑸𝒊 𝑨𝟐 ・ ・ ・ j番目の VFM 𝑨𝒊 Visual ChatGPTの定義式 𝑸𝑵 𝑨𝑵 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11

12.

3. Visual ChatGPT Visual ChatGPT システムプリンシプル 𝑷 • Visual ChatGPTに基本的なルールを提供する。 例:画像のファイル名に敏感であること。 チャット履歴に基づいて結果を生成するのではなく、VFMを使用して画像を処理すること。など Visual Foundation Model 𝑭 • Visual ChatGPTの中核は、さまざまなVFMs:𝐹 = {𝑓1 , 𝑓2 , … , 𝑓𝑁 } の組み合わせ。 • 各基礎モデル𝑓𝑖 は明確な入力と出力を持つ決定された関数を含む。 • Visual ChatGPT がサポートしているFoundation modelsが右表。 対話履歴 𝑯<𝒊 𝑖 番目のラウンドの対話履歴を、過去の質問回答ペア、すなわち {(𝑄1 , 𝐴1 ), (𝑄2 , 𝐴2 ),· · · , (𝑄𝑖−1 , 𝐴𝑖−1 )} の文字列 連結したものと定義する。対話履歴を最大長で切り捨てて、ChatGPTモデルの入力長に合わせる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 12

13.

3. Visual ChatGPT Visual ChatGPT ユーザークエリ 𝑸𝒊 • Visual ChatGPTでは、言語クエリだけでなく視覚クエリも含むことができる。 (<𝒋) 推論履歴 𝑹𝒊 • 複雑な質問を解決するために、Visual ChatGPTは複数のVFMの協力が必要な場合がある。 (<𝒋) • 𝑖 回目のラウンドの会話について、 𝑹𝒊 は 𝑗 番目に呼び出されたVFMsからのすべての以前の推論履歴である。 中間回答 𝑨(𝒋) • Visual ChatGPTは、複雑なクエリを処理する場合、異なるVFMを論理的に呼び出すことで、複数の中間回答を 生成し、ステップバイステップで最終回答を得ようとする。 Prompt Manager M • プロンプトマネージャーは、 ChatGPTモデルが理解できるように、すべての視覚信号を言語に変換するよう設計されて いる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 13

14.

3. Visual ChatGPT Prompt Manager の全体図 定義式 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 14

15.

3. Visual ChatGPT 3.1. システムプリンシプルのPrompt Managing M(P) • Visual ChatGPTは、視覚情報を理解し、応答する答えを 生成するために、さまざまなVFMを統合するシステムである。 • そのためには、システムの原理をカスタマイズし、ChatGPTが 理解できるようなプロンプトに変換する必要がある。このプロン プトには、以下のような目的がある。 VFMs へのアクセス • Visual ChatGPTは、さまざまなVLタスクを解決するためのVFMsリストにアクセスできる。どの基礎モデルを使用 するかは、完全にChatGPTモデル自身が決定するため、新しいVFMsやVLタスクに対応しやすくなっている。 ファイル名感度 • Visual ChatGPTはファイル名によって画像ファイルにアクセスし、正確なファイル名を使用することが重要である。これ は、1回の会話に複数の画像とその異なる更新バージョンが含まれる場合があり、ファイル名の誤用が現在議論されて いる画像について混乱を招く可能性があるためである。そのため、Visual ChatGPTはファイル名使用に厳格であり、 正しい画像ファイルを取得および操作することを確実にする。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 15

16.

3. Visual ChatGPT 3.1. システムプリンシプルのPrompt Managing M(P) Chain-of-Thought • 1つの見かけ上単純なコマンドでも複数のVFMsが必要な場合がある。(本論文の漫画風の赤い花の例) • より複雑なクエリをサブ問題に分解して対処するために、CoTがVisual ChatGPTに導入されており、次の実行また は最終応答を返すためのVFMsを決定・活用・ディスパッチするのに役立つ。 推論形式の厳格化 • Visual ChatGPTは厳密な推論形式に従わなければならない。そのため、推論結果を精巧な正規表現で解析し、 ChatGPTモデルが次の実行を決定するための合理的な入力形式を構築する。(例えば、新しいVFMをトリガーとし たり、最終応答を返す。) 信頼性 • 言語モデルであるVisual ChatGPTは、画像ファイル名や事実を捏造する可能性があり、システムの信頼性を低下 させる可能性がある。このような問題に対処するために、Visual ChatGPTがビジョン基礎モデルの出力に忠実であり、 画像の内容やファイル名を生成しようとするプロンプトを設計している。また、複数のVFMの連携によりシステムの信頼 性が向上するため、会話履歴に基づいて結果を生成するのではなく、VFMを優先的に活用するようChatGPTを誘 導するプロンプトを構築している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 16

17.

3. Visual ChatGPT 3.2 Foundation modelの Prompt Managing M(F) • Prompt Managerは次項の側面を特定して、Visual ChatGPTが正確にVLタスクを理解し処理できるようにする。 名前 • プロンプトは、Visual ChatGPTがVFMの目的を簡潔に理解するのに 役立つだけでなく、VFMへの入口として機能する。 使用法 • 使用法プロンプトはVFMが使用されるべき具体的なシナリオを説明す る。例えば、Pix2Pixモデルは、画像のスタイル変更に適している。この 情報提供はVisual ChatGPTが特定のタスクにどのVFMを使用する か決定する際に役立つ。 入力/出力 • 入力および出力プロンプトは、各VFMで必要とされる入力および出力形式の概要を示す。 例(オプション) • 例プロンプトはオプション。Visual ChatGPTが特定の入力テンプレート下で特定のVFMの使用方法をよりよく理解し、 複雑なクエリを処理する際にも役立つ。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 17

18.

3. Visual ChatGPT 3.3. ユーザークエリのPrompt Managing 𝑴(𝑸𝒊 ) • Visual ChatGPTは、言語または画像、単純なものから複 雑なものまで、さまざまなユーザークエリに対応している。 • Prompt Managerは次の2つの側面からユーザークエリを 処理する。 (1)ユニークなファイル名の生成 • Visual ChatGPTは、新しくアップロードされた画像と、既存の画像を参照する画像の 2 種類の画像関連クエリを処理す ることができる。 • 新規にアップロードされた画像に対して、Visual ChatGPT は UUID(universally unique identifier) を持つユニー クなファイル名を生成し、相対ディレクトリを表すプレフィックス文字列 “image” を追加する(例:“image/{uuid}.png”)。 • アップロードされた画像はChatGPTに入力されないが、画像のファイル名を示す質問と画像を受信したことを示す回答を含 むための対話履歴が生成される。 • 既存の画像を参照するクエリについて、Visual ChatGPTはファイル名のチェックを無視する。 (ChatGPTは、UUID名などの曖昧さがなければ、ユーザークエリのファジーマッチングを理解する能力があるため、 このアプローチは有益であると証明されている。) Copyright (C) Present Square Co., Ltd. All Rights Reserved. 18

19.

3. Visual ChatGPT 3.3. ユーザークエリのPrompt Managing 𝑴(𝑸𝒊 ) (2)VFM思考の強制 • Visual ChatGPTのVFMのトリガーを成功させるために、(𝑄𝑖 )に接尾辞promptを付加している。 「VisualChatGPTはテキスト言語モデルなので、VisualChatGPTは想像ではなく、イメージを観察するためのツールを 使用する必要があります。Visual ChatGPTはテキスト言語モデルであるため、Visual ChatGPTは想像ではなく イメージを観察するツールを使用しなければなりません。Thought: ツールを使う必要があるか」。 このプロンプトには2つの目的がある。 1)VisualChatGPTが想像力だけに頼らず、Foundationモデルを使うように促す。 2)VisualChatGPTが「ここにいるよ」といった一般的な応答ではなく、Foundationモデルによって生成された 具体的なアウトプットを提供するように促す。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 19

20.

3. Visual ChatGPT (𝒋) 3.4 Foundation ModelアウトプットのPrompt Managing 𝑴(𝑭(𝑨𝒊 )) (𝑗) • 異なるVFMsからの中間出力𝐹(𝐴𝑖 )について、Visual ChatGPTは暗黙的に要約し、その次の対話のために ChatGPTに供給する。 • すなわち、他のVFMsを呼び出して、終了条件に達する まで、またはユーザーにフィードバックを与えるまで、更な る操作を行う。内部ステップは以下のように要約できる。 (1)連鎖したファイル名の生成 • Visual ChatGPTの中間出力は、次の暗黙的な会話ラウンドの入力になる。そのため、これらの出力をより論理的にす る必要がある。 命名規則等 • Visual Foundation Modelsから生成された画像は「image/」フォルダーに保存される。次の文字列が画像名を表すことを示唆す る。次に、画像は「{Name} {Operation} {Prev Name} {Org Name}」と命名されます。ここで、{Name} は上記のUUID 名であり、{Operation} は操作名、{Prev Name} は入力画像の一意の識別子、{Org Name} はユーザーがアップロードした 画像またはVFMsによって生成された元の画像名である。例えば、「image/ui3c edge-of o0ec nji9dcgf.png」は入力「o0ec」 のキャニーエッジ画像であり、「ui3c」と名付けられる。この画像の元の名前は「nji9dcgf」である。このような命名規則により、 ChatGPTに中間結果属性(例えば画像)とそれが一連の操作からどのように生成されたかを示唆することができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 20

21.

3. Visual ChatGPT (𝒋) 3.4 Foundation ModelアウトプットのPrompt Managing 𝑴(𝑭(𝑨𝒊 )) (2)VFMの追加呼び出し • Visual ChatGPTの中核の一つは、ユーザーの コマンドを完了するために、自動的にVFMを追 加で呼び出すことができることである。 • 具体的には、ChatGPTが現在の問題を解決す るためにVFMが必要かどうか自問自答し続ける ように、各世代の末尾に「Thought: 」という接 尾語を末尾につける。 (3)詳細な情報を求める • ユーザーのコマンドが曖昧な場合、Visual ChatGPTはVFMsをより活用するために、ユーザーに詳細を求める。 • LLMは、特に入力された情報が不十分な場合に、ユーザーの意図を恣意的に改ざんまたは推測することが許可され ていないので、このデザインが安全かつ重要である。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 21

22.

4. 実験 4.1. セットアップ • LLMをChatGPT(OpenAI「text-davinci-003」バージョン)で実装し、LangChain1でLLMをガイドする。 • HuggingFace Transformers からFoundationモデルを収集し、Maskformer 3およびControlNet 4から Foundaitonモデルを収集。 • すべての22 VFMsの完全な展開には4つのNvidia V100 GPUが必要であるが、ユーザーはGPUリソースを柔軟に節 約するために少ないFoundationモデルをデプロイすることができる。 • チャット履歴の最大長さは2,000であり、過剰なトークンはChatGPTの入力長に合わせるため切り捨てられる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 22

23.

4. 実験 4.2. 複数ラウンド対話のフルケース • 図4はVisual ChatGPTの16ラウンドマルチモーダル対話ケースである。 • このケースでは、ユーザーがテキストと画像両方の質問を尋ね、Visual ChatGPTはテキストと画像両方で応答する。 • この対話には、複数の画像の議論、複数のFoundationモデルの処理、および複数ステップが必要な質問の処理が含まれる。 図4. 人間とVisual ChatGPTの 複数ラウンドの対話 • 対話では、Visual ChatGPTは 人間の意図を理解し、言語と画 像の入力をサポートし、生成、質 問、編集などの複雑な視覚タスク を達成することができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 23

24.

4. 実験 4.3. プロンプトマネージャーのケーススタディ • システム原則のプロンプトを管理するケーススタディを図5で分析。 • Foudationモデルのプロンプトを管理するケーススタディを図6で分析。 • ユーザークエリとモデル出力のプロンプト管理のケーススタディを図7で分析。 図5 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 図6 図7 24

25.

4. 実験 図5. システム原則のプロンプト管理のケーススタディ • ファイル名感度、推論形式厳格性、信頼性、思考の連鎖の4つの提案を定性的に分析する。 • システム原理のプロンプトの有効性を検証するため、様々な部分を削除してモデル性能を比較する。それぞれの削除によって、 異なる容量の劣化が生じる。 ファイル名をしっかりと 認識している。 M(P)でファイル名感度を強調することがファイル参照 精度に影響するかどうかを示している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 推論形式が適切に 選ばれている。 (この例は画像) 推論形式の厳格性がなければさらなる解析 は実行できない。 25

26.

4. 実験 図5. システム原則のプロンプト管理のケーススタディ • ファイル名感度、推論形式厳格性、信頼性、思考の連鎖の4つの提案を定性的に分析する。 • システム原理のプロンプトの有効性を検証するため、様々な部分を削除してモデル性能を比較する。それぞれの削除によって、 異なる容量の劣化が生じる。 正しい情報が 出力されるように 調整されている。 Visual ChatGPTに観察に忠実であるよう指示するか、 コンテンツを生成するかの違いを示している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 正しい情報が 出力されるように 調整されている。 チェーン内でツール使用能力を強調することが決 定に役立つことを示している。 26

27.

4. 実験 図6.基礎モデルのプロンプト管理のケーススタディ • 名前、使用法、入力/出力、例の4つの提案を定性的に分析する。 Visual ChatGPTがツール名を推測してから、ツール名が ないと正しいツールを使用できないことを示している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. ツール名の使用法が欠落または不明確な場合、他のツールを 呼び出したりエラーが発生したりすることを示している。 27

28.

4. 実験 図6.基礎モデルのプロンプト管理のケーススタディ • 名前、使用法、入力/出力、例の4つの提案を定性的に分析する。 入力/出力形式の要件が欠如すると、誤ったパラメータ につながることを示している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 例の提供。ChatGPTは履歴情報と人間の意図をまとめて 正しいツールを使用することができる。 28

29.

4. 実験 図7. ユーザークエリとモデル出力のプロンプト管理のケーススタディ • ユニークなファイル名、VFM思考強制、チェーンされたファイル名、詳細を求める4つの提案を定性的に分析。 ユニークなファイル名が上書きを回避することを示し ている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. VFM思考強制がツール呼び出しと厳格な思考形式を 促進することを示している。 29

30.

4. 実験 図7. ユーザークエリとモデル出力のプロンプト管理のケーススタディ • ユニークなファイル名、VFM思考強制、チェーンされたファイル名、詳細を求める4つの提案を定性的に分析。 チェーンされたファイル命名がファイルの理解に役立ち、 Visual ChatGPTによって正常に観察され結論付 けられることを示している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. Visual ChatGPTが曖昧な参照を検出し、詳細を 求めることができることを示している。 30

31.

5.制限事項 制限事項 ChatGPTおよびVFMsへの依存 Visual ChatGPTは、タスクを割り当てるためにChatGPTに、タスクを実行するためにVFMsに重点を置いている。したがって、Visual ChatGPTのパフォーマンスはこれらのモデルの正確性と効果に大きく影響される。 プロンプトエンジニアリングが重い Visual ChatGPTには、VFMsを言語に変換し、これらのモデルの説明を識別可能にするために、かなりの量のプロンプトエンジニアリング が必要である。このプロセスは時間がかかる場合があり、コンピュータビジョンと自然言語処理の両方の専門知識が必要である。 リアルタイム機能の制限 Visual ChatGPTは一般的な目的で設計されている。それは、複雑なタスクを自動的にいくつかのサブタスクに分解しようとする。したが って、特定のタスクを処理する際には、Visual ChatGPTは複数のVFMsを呼び出す場合があり、特定のタスクに特化した専門モデルと 比較して、リアルタイム機能が制限される可能性がある。 トークン長の制限 ChatGPTの最大トークン長は、使用できる基礎モデルの数を制限する可能性がある。基礎モデルが数千または数百万ある場合は、 ChatGPTに供給されるVFMsを制限するためにプレフィルタモジュールが必要になる場合がある。 セキュリティとプライバシー 基礎モデルを簡単に接続および切断できる能力は、特にAPIを介してアクセスされるリモートモデルの場合、セキュリティとプライバシー上の 懸念を引き起こす可能性があります。機密データが公開または漏洩されないようにするために、注意深い検討と自動チェックが必要である。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 31

32.

6. 結論 まとめ • 本研究では、異なるVFMsを組み込み、ユーザーが言語形式を超えてChatGPTとやりとりできるオープンシステムである Visual ChatGPTを提案。視覚情報をChatGPTに注入するための一連のプロンプトを細心の注意を払って設計する ことで複雑な視覚的な問いに段階的に対処することができる。 • 大量の実験と選ばれたケースが、Visual ChatGPTが異なるタスクにおいて優れた潜在能力と能力を示したことを示し ている。 課題 • 前述の制限事項に加えて、VFMsの失敗やプロンプトの不安定性により、いくつかの生成結果が不満足な場合がある ことが懸念される。 • したがって、実行結果と人間の意図との整合性を確認し、対応する編集を行うための自己訂正モジュールが必要であ る。このような自己訂正行動は、モデルのより複雑な思考を引き起こし、推論時間を著しく増加させることも課題。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 32

33.

Appendix 参考文献 • [2] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh. Vqa: Visual question answering. In Proceedings of the IEEE international conference on computer vision, pages 2425– 2433, 2015. • [29] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155, 2022. • [39] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017 • [42] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed H Chi, Quoc V Le, Denny Zhou, et al. Chain-of-thought prompting elicits reasoning in large language models. In Advances in Neural Information Processing Systems, 2022. • [51] Xiaohua Zhai, Alexander Kolesnikov, Neil Houlsby, and Lucas Beyer. Scaling vision transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12104–12113, 2022. • [52] Xiaohua Zhai, Xiao Wang, Basil Mustafa, Andreas Steiner, Daniel Keysers, Alexander Kolesnikov, and Lucas Beyer. Lit: Zero-shot transfer with locked-image text tuning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18123–18133, 2022. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 33