【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

1.

DEEP LEARNING JP [DL Papers] Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models 小林範久 Present Square Co.,Ltd. http://deeplearning.jp/ 1

http://deeplearning.jp/

2.

書誌情報タイトル： Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models https://arxiv.org/abs/2303.03378 著者： Chenfei Wu Shengming Yin Weizhen Qi Xiaodong Wang Zecheng Tang Nan Duan* Microsoft Research Asia fchewu, v-sheyin, t-weizhenqi, v-xiaodwang, v-zetang, [email protected] 概要： • ChatGPTとVisual Foundation Modelsを組み合わせ、ChatGPTが複雑な視覚タスクを処理できるようにするVisual ChatGPTを提案。 • Prompt Managerを設計し、22種類の異なるVFMsを巻き込み、それらの相互関係を定義してより良い相互作用と組み合わせができるようにした。 • 大量のゼロショット実験を行い、豊富な事例を示すことで、Visual ChatGPTの理解度と生成能力を検証。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2

https://arxiv.org/abs/2303.03378

3.

4.

１. イントロダクションイントロダクション • 近年、大型言語モデル（LLMs）の開発は驚くべき進歩を遂げており、最も重要なブレークスルーの1つは、 InstructGPT をベースに構築された ChatGPT である。特に一般的な会話方式でユーザーと対話するように訓練されているため、現在の会話の文脈を維持し、フォローアップ質問を処理し、それ自体が生成した答えを修正することができる。 • しかし、ChatGPTは視覚情報の処理能力に限りがある。これは、単一の言語モダリティでトレーニングされているため。 • 一方、Visual Foundation Models（VFMs）は、複雑な画像を理解し生成する能力を持つコンピュータビジョンにおいて膨大な可能性を示している。例）BLIP Model ：画像の理解と説明を提供するエキスパート Stable Diffusion ：テキストプロンプトに基づいて画像を合成するエキスパートしかし、上記はタスク仕様の性質上、入出力形式が厳しく固定されているため、VFM は人間と機械の対話における会話型言語モデルよりも柔軟性に欠ける。 ChatGPTのようなシステムを構築して、画像の理解と生成もサポートできないか？ Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4

5.

１. イントロダクションイントロダクション • 直感的なアイデアとしては、マルチモーダルな会話モデルを学習させるというものがある。しかし、そのようなシステムを構築するには、大量のデータと計算資源を消費することになる。また、言語や画像だけでなく、動画や音声などのモダリティを取り込みたい場合、どうすればよいかという課題もある。 Visual ChatGPTというシステムを提案新しいマルチモーダルChatGPTをゼロからトレーニングする代わりにChatGPTを直接基盤としてVisual ChatGPTを構築し、さまざまなVFMsを組み込む。 Prompt Managerを提案 • ChatGPTとこれらのVFMsの間のギャップを埋める。このPrompt Managerは次の機能をサポートする。 1）明示的にChatGPTに各VFMの能力を伝え、入力-出力形式を指定する。 2）異なる視覚情報（例えばpng画像、深度画像、マスク行列）を言語形式に変換してChatGPTが理解できるようにする。 3）異なるVisual Foundation Modelsの履歴、優先順位、競合を処理する。Prompt Managerの助けを借りて、 ChatGPTはこれらのVFMsを活用し、反復的にフィードバックを受け取る。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5

6.

１. イントロダクションイントロダクション ① 黄色い花の画像をアップロードし、「この画像の予測された深度に基づいて赤い花を生成し、それを漫画のように段階的に作成してください」という複雑な言語指示を入力。 ④ ② Prompt Managerの助けを借りて、 Visual ChatGPTは関連する Visual Foundation Modelsの実行チェーンを開始する。最終結果が表示される ③ まず深度推定モデルを適用して深度情報を検出。次に深度情報を使用して深度-画像モデルで赤い花の図を生成。・最後にStable Diffusionモデルに基づくスタイル転送VFMを活用 ⇒画像のスタイルを漫画に変更 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 6

7.

２. 関連研究 2.1. 自然言語とビジョン • 様々なモダリティ（音、視覚、映像など）に囲まれた生活において、言語と視覚は情報を伝達する2つの主要な媒体である。 • 自然言語と視覚の間には自然なリンクがあり、ほとんどの質問では、満足のいく結果を得るために、この２つの流れの共同モデリングが必要である。例：視覚的質問応答（VQA）は、画像とそれに対応する1つの質問を入力として受け取り、与えられた画像内の情報に基づいて回答を生成することが求められる。 • InstructGPT のような大規模言語モデル（LLMs）の成功により、モデルとの対話や自然言語形式でフィードバックを得ることができるが、視覚情報を処理することができない。視覚処理能力をこのようなLLMに融合させるためには、大規模な言語モデルや視覚モデルを訓練することが困難であり、適切に設計された指示や面倒な変換が必要であるため、LLMsに視覚処理能力を融合させるためにはいくつかの課題がある。 • いくつかの作品は、事前学習されたLLMsを活用してVLタスクのパフォーマンスを向上させることを探求しているが、これらの方法はいくつかの特定のVLタスク（言語から視覚または視覚から言語）をサポートし、訓練にラベル付きデータが必要である。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 7

8.

２. 関連研究 2.2. VLタスクのための事前学習済みモデル • 視覚的な特徴をよりよく抽出するために、初期の作品では事前学習された画像エンコーダーが採用されている。最近の LiT ではCLIP事前学習モデルと学習済みViTモデルが適用されている。 • 別の観点から見ると、LLMsから知識を活用することも重要である。事前学習されたLLMsは強力なテキスト理解および生成能力を示している。 • VLモデリングでは、視覚特徴をテキスト空間に合わせるために、事前学習済みLLMsに追加アダプタモジュールを追加している。モデルパラメーターの数が増えると、事前学習されたLLMsを訓練することが難しくなるため、VLタスクに事前訓練されたLLMを直接活用する取り組みがなされている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 8

9.

２. 関連研究 2.3. VLタスク用プレトレーニングLLMsのガイダンス • 複雑なタスク、例えば、常識的な推論を対処するために、 LLMsの多段階推論能力を引き出すChain-of-Thought （CoT）が提案されている。具体的には、CoTはLLMsに最終結果のための中間回答を生成するよう求める。 • 既存の研究は、この技術をFew-Shot-CoT とZero-Shot-CoT の2つのカテゴリーに分類している。Few-Shot-Cot では、LLMsはCoT推論を行い、LLMsが複雑な問題を解決する能力をよりよく獲得できることがわかった。さらに、LLMsがゼロショット設定下で自己生成された根拠を活用して自己改善できることが示されている。 • 上記の研究は主に言語という単一のモダリティに焦点を当てたものである。近年、言語と視覚モダリティを組み込んだ Multimodal-CoT が提案され、根拠生成と回答推論を分離した2段階フレームワークが提案されている。 • しかし、このような方法は、ScienceQAベンチマークのような特定のシナリオ下でのみ優位性を示すにすぎない。 • 本研究はCoTの可能性を大量のタスクに拡張しており、テキスト-画像生成、画像-画像変換、画像-テキスト生成などが含まれている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 9

10.

３. Visual ChatGPT Visual ChatGPTの概要 Copyright (C) Present Square Co., Ltd. All Rights Reserved. • 図の左側は、3ラウンドの対話を示している。 • 中央は、Visual ChatGPT がVisual Foundation Modelsを反復的に呼び出し、回答を提供するフローチャートを示している。 • 右側は、2番目のQAの詳細なプロセスを示している。 10

11.

３. Visual ChatGPT Visual ChatGPT S • 𝑆 = {(𝑄1 , 𝐴1 ), (𝑄2 , 𝐴2 ), … , (𝑄𝑁 , 𝐴𝑁 )} を 𝑁 個の質問-回答ペアを持つ対話システムとする。 • 𝑖 回目の会話から応答𝐴𝑖を得るために、複数のVFMsとそれらのモデル (𝑗) からの中間出力A𝑖 が関与する。𝑗 は 𝑖 回目のラウンドで 𝑗 番目の VFM（F）からの出力を示す。 (𝑗) • 最後に、システムはA𝑖 を出力し、それが最終応答として示され、それ以上のVFMは実行されない。 𝑸𝟏 𝑨𝟏 𝑸𝟐 ・・・ 𝑸𝒊 𝑨𝟐 ・・・ j番目の VFM 𝑨𝒊 Visual ChatGPTの定義式 𝑸𝑵 𝑨𝑵 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11

12.

３. Visual ChatGPT Visual ChatGPT システムプリンシプル 𝑷 • Visual ChatGPTに基本的なルールを提供する。例：画像のファイル名に敏感であること。チャット履歴に基づいて結果を生成するのではなく、VFMを使用して画像を処理すること。など Visual Foundation Model 𝑭 • Visual ChatGPTの中核は、さまざまなVFMs：𝐹 = {𝑓1 , 𝑓2 , … , 𝑓𝑁 } の組み合わせ。 • 各基礎モデル𝑓𝑖 は明確な入力と出力を持つ決定された関数を含む。 • Visual ChatGPT がサポートしているFoundation modelsが右表。対話履歴 𝑯<𝒊 𝑖 番目のラウンドの対話履歴を、過去の質問回答ペア、すなわち {(𝑄1 , 𝐴1 ), (𝑄2 , 𝐴2 ),· · · , (𝑄𝑖−1 , 𝐴𝑖−1 )} の文字列連結したものと定義する。対話履歴を最大長で切り捨てて、ChatGPTモデルの入力長に合わせる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 12

13.

３. Visual ChatGPT Visual ChatGPT ユーザークエリ 𝑸𝒊 • Visual ChatGPTでは、言語クエリだけでなく視覚クエリも含むことができる。 (<𝒋) 推論履歴 𝑹𝒊 • 複雑な質問を解決するために、Visual ChatGPTは複数のVFMの協力が必要な場合がある。 (<𝒋) • 𝑖 回目のラウンドの会話について、 𝑹𝒊 は 𝑗 番目に呼び出されたVFMsからのすべての以前の推論履歴である。中間回答 𝑨(𝒋) • Visual ChatGPTは、複雑なクエリを処理する場合、異なるVFMを論理的に呼び出すことで、複数の中間回答を生成し、ステップバイステップで最終回答を得ようとする。 Prompt Manager M • プロンプトマネージャーは、 ChatGPTモデルが理解できるように、すべての視覚信号を言語に変換するよう設計されている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 13

14.

15.

３. Visual ChatGPT 3.1. システムプリンシプルのPrompt Managing M(P) • Visual ChatGPTは、視覚情報を理解し、応答する答えを生成するために、さまざまなVFMを統合するシステムである。 • そのためには、システムの原理をカスタマイズし、ChatGPTが理解できるようなプロンプトに変換する必要がある。このプロンプトには、以下のような目的がある。 VFMs へのアクセス • Visual ChatGPTは、さまざまなVLタスクを解決するためのVFMsリストにアクセスできる。どの基礎モデルを使用するかは、完全にChatGPTモデル自身が決定するため、新しいVFMsやVLタスクに対応しやすくなっている。ファイル名感度 • Visual ChatGPTはファイル名によって画像ファイルにアクセスし、正確なファイル名を使用することが重要である。これは、1回の会話に複数の画像とその異なる更新バージョンが含まれる場合があり、ファイル名の誤用が現在議論されている画像について混乱を招く可能性があるためである。そのため、Visual ChatGPTはファイル名使用に厳格であり、正しい画像ファイルを取得および操作することを確実にする。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 15

16.

３. Visual ChatGPT 3.1. システムプリンシプルのPrompt Managing M(P) Chain-of-Thought • 1つの見かけ上単純なコマンドでも複数のVFMsが必要な場合がある。（本論文の漫画風の赤い花の例） • より複雑なクエリをサブ問題に分解して対処するために、CoTがVisual ChatGPTに導入されており、次の実行または最終応答を返すためのVFMsを決定・活用・ディスパッチするのに役立つ。推論形式の厳格化 • Visual ChatGPTは厳密な推論形式に従わなければならない。そのため、推論結果を精巧な正規表現で解析し、 ChatGPTモデルが次の実行を決定するための合理的な入力形式を構築する。（例えば、新しいVFMをトリガーとしたり、最終応答を返す。）信頼性 • 言語モデルであるVisual ChatGPTは、画像ファイル名や事実を捏造する可能性があり、システムの信頼性を低下させる可能性がある。このような問題に対処するために、Visual ChatGPTがビジョン基礎モデルの出力に忠実であり、画像の内容やファイル名を生成しようとするプロンプトを設計している。また、複数のVFMの連携によりシステムの信頼性が向上するため、会話履歴に基づいて結果を生成するのではなく、VFMを優先的に活用するようChatGPTを誘導するプロンプトを構築している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 16

17.

３. Visual ChatGPT 3.2 Foundation modelの Prompt Managing M(F) • Prompt Managerは次項の側面を特定して、Visual ChatGPTが正確にVLタスクを理解し処理できるようにする。名前 • プロンプトは、Visual ChatGPTがVFMの目的を簡潔に理解するのに役立つだけでなく、VFMへの入口として機能する。使用法 • 使用法プロンプトはVFMが使用されるべき具体的なシナリオを説明する。例えば、Pix2Pixモデルは、画像のスタイル変更に適している。この情報提供はVisual ChatGPTが特定のタスクにどのVFMを使用するか決定する際に役立つ。入力/出力 • 入力および出力プロンプトは、各VFMで必要とされる入力および出力形式の概要を示す。例（オプション） • 例プロンプトはオプション。Visual ChatGPTが特定の入力テンプレート下で特定のVFMの使用方法をよりよく理解し、複雑なクエリを処理する際にも役立つ。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 17

18.

３. Visual ChatGPT 3.3. ユーザークエリのPrompt Managing 𝑴(𝑸𝒊 ) • Visual ChatGPTは、言語または画像、単純なものから複雑なものまで、さまざまなユーザークエリに対応している。 • Prompt Managerは次の2つの側面からユーザークエリを処理する。（１）ユニークなファイル名の生成 • Visual ChatGPTは、新しくアップロードされた画像と、既存の画像を参照する画像の 2 種類の画像関連クエリを処理することができる。 • 新規にアップロードされた画像に対して、Visual ChatGPT は UUID(universally unique identifier) を持つユニークなファイル名を生成し、相対ディレクトリを表すプレフィックス文字列 “image” を追加する(例:“image/{uuid}.png”)。 • アップロードされた画像はChatGPTに入力されないが、画像のファイル名を示す質問と画像を受信したことを示す回答を含むための対話履歴が生成される。 • 既存の画像を参照するクエリについて、Visual ChatGPTはファイル名のチェックを無視する。（ChatGPTは、UUID名などの曖昧さがなければ、ユーザークエリのファジーマッチングを理解する能力があるため、このアプローチは有益であると証明されている。） Copyright (C) Present Square Co., Ltd. All Rights Reserved. 18

19.

３. Visual ChatGPT 3.3. ユーザークエリのPrompt Managing 𝑴(𝑸𝒊 ) （２）VFM思考の強制 • Visual ChatGPTのVFMのトリガーを成功させるために、(𝑄𝑖 )に接尾辞promptを付加している。「VisualChatGPTはテキスト言語モデルなので、VisualChatGPTは想像ではなく、イメージを観察するためのツールを使用する必要があります。Visual ChatGPTはテキスト言語モデルであるため、Visual ChatGPTは想像ではなくイメージを観察するツールを使用しなければなりません。Thought：ツールを使う必要があるか」。このプロンプトには2つの目的がある。 1）VisualChatGPTが想像力だけに頼らず、Foundationモデルを使うように促す。 2）VisualChatGPTが「ここにいるよ」といった一般的な応答ではなく、Foundationモデルによって生成された具体的なアウトプットを提供するように促す。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 19

20.

３. Visual ChatGPT (𝒋) 3.4 Foundation ModelアウトプットのPrompt Managing 𝑴(𝑭(𝑨𝒊 )) (𝑗) • 異なるVFMsからの中間出力𝐹(𝐴𝑖 )について、Visual ChatGPTは暗黙的に要約し、その次の対話のために ChatGPTに供給する。 • すなわち、他のVFMsを呼び出して、終了条件に達するまで、またはユーザーにフィードバックを与えるまで、更なる操作を行う。内部ステップは以下のように要約できる。（１）連鎖したファイル名の生成 • Visual ChatGPTの中間出力は、次の暗黙的な会話ラウンドの入力になる。そのため、これらの出力をより論理的にする必要がある。命名規則等 • Visual Foundation Modelsから生成された画像は「image/」フォルダーに保存される。次の文字列が画像名を表すことを示唆する。次に、画像は「{Name} {Operation} {Prev Name} {Org Name}」と命名されます。ここで、{Name} は上記のUUID 名であり、{Operation} は操作名、{Prev Name} は入力画像の一意の識別子、{Org Name} はユーザーがアップロードした画像またはVFMsによって生成された元の画像名である。例えば、「image/ui3c edge-of o0ec nji9dcgf.png」は入力「o0ec」のキャニーエッジ画像であり、「ui3c」と名付けられる。この画像の元の名前は「nji9dcgf」である。このような命名規則により、 ChatGPTに中間結果属性（例えば画像）とそれが一連の操作からどのように生成されたかを示唆することができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 20

21.

３. Visual ChatGPT (𝒋) 3.4 Foundation ModelアウトプットのPrompt Managing 𝑴(𝑭(𝑨𝒊 )) （２）VFMの追加呼び出し • Visual ChatGPTの中核の一つは、ユーザーのコマンドを完了するために、自動的にVFMを追加で呼び出すことができることである。 • 具体的には、ChatGPTが現在の問題を解決するためにVFMが必要かどうか自問自答し続けるように、各世代の末尾に「Thought: 」という接尾語を末尾につける。（３）詳細な情報を求める • ユーザーのコマンドが曖昧な場合、Visual ChatGPTはVFMsをより活用するために、ユーザーに詳細を求める。 • LLMは、特に入力された情報が不十分な場合に、ユーザーの意図を恣意的に改ざんまたは推測することが許可されていないので、このデザインが安全かつ重要である。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 21

22.

4. 実験 4.1. セットアップ • LLMをChatGPT（OpenAI「text-davinci-003」バージョン）で実装し、LangChain1でLLMをガイドする。 • HuggingFace Transformers からFoundationモデルを収集し、Maskformer 3およびControlNet 4から Foundaitonモデルを収集。 • すべての22 VFMsの完全な展開には4つのNvidia V100 GPUが必要であるが、ユーザーはGPUリソースを柔軟に節約するために少ないFoundationモデルをデプロイすることができる。 • チャット履歴の最大長さは2,000であり、過剰なトークンはChatGPTの入力長に合わせるため切り捨てられる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 22

23.

4. 実験 4.2. 複数ラウンド対話のフルケース • 図4はVisual ChatGPTの16ラウンドマルチモーダル対話ケースである。 • このケースでは、ユーザーがテキストと画像両方の質問を尋ね、Visual ChatGPTはテキストと画像両方で応答する。 • この対話には、複数の画像の議論、複数のFoundationモデルの処理、および複数ステップが必要な質問の処理が含まれる。図4. 人間とVisual ChatGPTの複数ラウンドの対話 • 対話では、Visual ChatGPTは人間の意図を理解し、言語と画像の入力をサポートし、生成、質問、編集などの複雑な視覚タスクを達成することができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 23

24.

4. 実験 4.3. プロンプトマネージャーのケーススタディ • システム原則のプロンプトを管理するケーススタディを図5で分析。 • Foudationモデルのプロンプトを管理するケーススタディを図6で分析。 • ユーザークエリとモデル出力のプロンプト管理のケーススタディを図7で分析。図５ Copyright (C) Present Square Co., Ltd. All Rights Reserved. 図６図７ 24

25.

4. 実験図5. システム原則のプロンプト管理のケーススタディ • ファイル名感度、推論形式厳格性、信頼性、思考の連鎖の4つの提案を定性的に分析する。 • システム原理のプロンプトの有効性を検証するため、様々な部分を削除してモデル性能を比較する。それぞれの削除によって、異なる容量の劣化が生じる。ファイル名をしっかりと認識している。 M(P)でファイル名感度を強調することがファイル参照精度に影響するかどうかを示している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 推論形式が適切に選ばれている。（この例は画像）推論形式の厳格性がなければさらなる解析は実行できない。 25

26.

4. 実験図5. システム原則のプロンプト管理のケーススタディ • ファイル名感度、推論形式厳格性、信頼性、思考の連鎖の4つの提案を定性的に分析する。 • システム原理のプロンプトの有効性を検証するため、様々な部分を削除してモデル性能を比較する。それぞれの削除によって、異なる容量の劣化が生じる。正しい情報が出力されるように調整されている。 Visual ChatGPTに観察に忠実であるよう指示するか、コンテンツを生成するかの違いを示している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 正しい情報が出力されるように調整されている。チェーン内でツール使用能力を強調することが決定に役立つことを示している。 26

27.

4. 実験図６．基礎モデルのプロンプト管理のケーススタディ • 名前、使用法、入力/出力、例の4つの提案を定性的に分析する。 Visual ChatGPTがツール名を推測してから、ツール名がないと正しいツールを使用できないことを示している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. ツール名の使用法が欠落または不明確な場合、他のツールを呼び出したりエラーが発生したりすることを示している。 27

28.

4. 実験図６．基礎モデルのプロンプト管理のケーススタディ • 名前、使用法、入力/出力、例の4つの提案を定性的に分析する。入力/出力形式の要件が欠如すると、誤ったパラメータにつながることを示している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 例の提供。ChatGPTは履歴情報と人間の意図をまとめて正しいツールを使用することができる。 28

29.

4. 実験図7. ユーザークエリとモデル出力のプロンプト管理のケーススタディ • ユニークなファイル名、VFM思考強制、チェーンされたファイル名、詳細を求める4つの提案を定性的に分析。ユニークなファイル名が上書きを回避することを示している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. VFM思考強制がツール呼び出しと厳格な思考形式を促進することを示している。 29

30.

4. 実験図7. ユーザークエリとモデル出力のプロンプト管理のケーススタディ • ユニークなファイル名、VFM思考強制、チェーンされたファイル名、詳細を求める4つの提案を定性的に分析。チェーンされたファイル命名がファイルの理解に役立ち、 Visual ChatGPTによって正常に観察され結論付けられることを示している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. Visual ChatGPTが曖昧な参照を検出し、詳細を求めることができることを示している。 30

31.

５.制限事項制限事項 ChatGPTおよびVFMsへの依存 Visual ChatGPTは、タスクを割り当てるためにChatGPTに、タスクを実行するためにVFMsに重点を置いている。したがって、Visual ChatGPTのパフォーマンスはこれらのモデルの正確性と効果に大きく影響される。プロンプトエンジニアリングが重い Visual ChatGPTには、VFMsを言語に変換し、これらのモデルの説明を識別可能にするために、かなりの量のプロンプトエンジニアリングが必要である。このプロセスは時間がかかる場合があり、コンピュータビジョンと自然言語処理の両方の専門知識が必要である。リアルタイム機能の制限 Visual ChatGPTは一般的な目的で設計されている。それは、複雑なタスクを自動的にいくつかのサブタスクに分解しようとする。したがって、特定のタスクを処理する際には、Visual ChatGPTは複数のVFMsを呼び出す場合があり、特定のタスクに特化した専門モデルと比較して、リアルタイム機能が制限される可能性がある。トークン長の制限 ChatGPTの最大トークン長は、使用できる基礎モデルの数を制限する可能性がある。基礎モデルが数千または数百万ある場合は、 ChatGPTに供給されるVFMsを制限するためにプレフィルタモジュールが必要になる場合がある。セキュリティとプライバシー基礎モデルを簡単に接続および切断できる能力は、特にAPIを介してアクセスされるリモートモデルの場合、セキュリティとプライバシー上の懸念を引き起こす可能性があります。機密データが公開または漏洩されないようにするために、注意深い検討と自動チェックが必要である。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 31

32.

６. 結論まとめ • 本研究では、異なるVFMsを組み込み、ユーザーが言語形式を超えてChatGPTとやりとりできるオープンシステムである Visual ChatGPTを提案。視覚情報をChatGPTに注入するための一連のプロンプトを細心の注意を払って設計することで複雑な視覚的な問いに段階的に対処することができる。 • 大量の実験と選ばれたケースが、Visual ChatGPTが異なるタスクにおいて優れた潜在能力と能力を示したことを示している。課題 • 前述の制限事項に加えて、VFMsの失敗やプロンプトの不安定性により、いくつかの生成結果が不満足な場合があることが懸念される。 • したがって、実行結果と人間の意図との整合性を確認し、対応する編集を行うための自己訂正モジュールが必要である。このような自己訂正行動は、モデルのより複雑な思考を引き起こし、推論時間を著しく増加させることも課題。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 32

33.

Appendix 参考文献 • [2] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh. Vqa: Visual question answering. In Proceedings of the IEEE international conference on computer vision, pages 2425– 2433, 2015. • [29] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155, 2022. • [39] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017 • [42] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed H Chi, Quoc V Le, Denny Zhou, et al. Chain-of-thought prompting elicits reasoning in large language models. In Advances in Neural Information Processing Systems, 2022. • [51] Xiaohua Zhai, Alexander Kolesnikov, Neil Houlsby, and Lucas Beyer. Scaling vision transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12104–12113, 2022. • [52] Xiaohua Zhai, Xiao Wang, Basil Mustafa, Andreas Steiner, Daniel Keysers, Alexander Kolesnikov, and Lucas Beyer. Lit: Zero-shot transfer with locked-image text tuning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18123–18133, 2022. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 33

【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【拡散モデル勉強会】拡散モデルの数理

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【拡散モデル勉強会】Introduction to Diffusion Models

【DL輪読会】Conditional Flow Matching

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

各ページのテキスト