【DL輪読会】Using Left and Right Brains Together: Towards Vision and Language Planning

2.4K Views

August 22, 24

#Vision-Language Planning #Multimodal AI #Cognitive Architecture #Large Language Models #Future Frame Prediction

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.3K

各ページのテキスト

左右の脳を一緒に使う: ビジョンと言語計画に向けて (ICML2024) Hiroshi Yamakawa, Matsuo Lab 1

書誌情報 • Using Left and Right Brains Together: Towards Vision and Language Planning – 著者は９名（主要著者： Jun Cen、Chenfei Wu、Xiao Liuが）所属は以下が含まれる • Southern University of Science and Technology（南方科技大学） • Microsoft Research Asia（マイクロソフトリサーチアジア） • The Hong Kong University of Science and Technology（香港科技大学） • Xi'an Jiaotong University（西安交通大学） • City University of Hong Kong（香港城市大学） • Peng Cheng Laboratory, Shenzhen（鵬城実験室、深セン） – URL • (arXiv) https://arxiv.org/html/2402.10534v1 • (ICML2024 papge) https://icml.cc/virtual/2024/poster/33100 • No code implementations yet – 人間の脳の左右半球の働きにヒントを得て、言語処理と視覚処理を統合した新しいAI推論フレームワーク（Vision-Language Planning）を提案する研究 2

ヒトの脳における左右の機能棲み分けの一般論著者等のビデオより： https://www.youtube.com/watch?v=UgGuivPoIaY 3

https://www.youtube.com/watch?v=UgGuivPoIaY

研究背景と目的 1. 現在のAIモデルの限界大規模マルチモーダルモデル（LMM）の問題点 a. 主に言語空間での計画に依存 b. 視覚的な推論能力が不足 2. 人間の脳の働きからのヒント左半球：言語処理と論理的思考 • 右半球：視覚空間処理と直感的思考 3. 研究目的 Vision-Language Planning (VLP) フレームワークの提案 a. 言語計画と視覚計画の統合 b. より人間に近い認知プロセスの実現 4. VLPの期待される効果 a. マルチモーダルタスクでの性能向上 b. より柔軟で文脈に応じた推論の実現 4

従来手法vs提案手法 • 提案手法（VLP） – 言語計画と視覚計画の統合 – 未来の視覚情報を生成・活用 – より柔軟で文脈に応じた推論 • VLPの利点 – 複雑なマルチモーダルタスクへの対応力向上 – 人間の認知プロセスに近いアプローチ – 視覚的想像力を活用した推論 • 従来手法（LMM） – 言語処理に重点 – 視覚情報を言語空間に変換 – 限定的な視覚的推論能力 5

VLPフレームワークの全体像主要構成要素 • 言語計画 (Language Planning) • 視覚計画 (Vision Planning) • 決定メーカー (Decision Maker) 処理フロー • 入力：テキスト、画像、ビデオ • 言語計画：タスクを小ステップに分解 • 視覚計画：未来フレームを生成 • 決定メーカー：両計画を統合し最終決定 6

言語計画（Language Planning） 1. 概要 a. • タスクを小さなステップに分解 b. • 順序立てた推論プロセスの実現 2. 役割 a. • 複雑な問題の構造化 b. • より論理的な思考過程の模倣 3. 実装方法 a. • ゼロショット Chain-of-Thought 技術の利用 b. • 例：ChatGPTによる3ステップの質問生成 4. 具体例質問：「その人はカップで他に何ができますか？」 a. 生成された計画： i. • ステップ1：カップの追加機能は？ ii. • ステップ2：現状況でのカップの他の使用法は？ iii. • ステップ3：カップの創造的な再利用方法は？ 7

視覚計画（Vision Planning） 1. 概要 a.現在の画像/動画から未来のフレームを生成 b.視覚的な推論能力の向上 2. 主要構成要素 a.Vision Planning Generator (VPG): Stable Video Diffusion モデルを使用 b.Vision Planning Selector (VPS) i. Coarse Selector (CS): ChatGPT (CS) ii. Fine Selector (FS): BLIP-2 (FS) (視覚言語処理タスクのためのモデル) 3. 利点 a.未来の状態を予測し、より適切な判断が可能 b.視覚的な文脈を考慮した推論 4. 課題 a.生成された未来フレームの品質が重要 b.計算コストと推論時間の管理 8

決定メーカー（Decision Maker）決定メーカーの役割 • 言語計画と視覚計画の結果を統合 • 最終的な出力を生成決定メーカーの利点 • 複数の視点からの情報統合 • より堅牢な意思決定プロセス LLAVAを用いた実装 • 多段階の対話戦略 – バニラ回答 – 言語計画に基づく回答 – 視覚計画に基づく回答 – 投票メカニズム GPT4-Vを用いた実装 • 単一ステップでの統合 • 言語と視覚情報の同時処理 9

10.

評価実験①：ビデオ質問応答タスク • 実験概要： – データセット：STAR, NExT-QA – タスク：ビデオの内容に関する多肢選択式質問に回答主な結果： ● VLPは既存の最先端手法を上回る性能を達成 ● STARデータセットで平均50.5%の正解率（従来比+3.1%） ● NExT-QAデータセットで平均64.7%の正解率（従来比+1.1%） VLPの優位性： ● 言語計画による論理的推論の向上 ● 視覚計画による未来予測能力の獲得 ● 複雑な質問に対する理解力の向上 10

11.

ビデオキャプション生成タスクの評価結果 • データセット: BDD-X（自動運転シナリオ） • 評価指標: – BLEU-4 (B) – CIDEr (C) – METEOR (M) • VLPの性能: – BLEU-4: 35.7（最高スコア） – CIDEr: 256.7（最高スコア） – METEOR: 31.1（最高スコア） • 考察: – VLPは全ての指標で最高性能を達成 – 特にCIDErスコアで大幅な改善（+9.2ポイント） – ビジョンプランニングがキャプション生成の質を向上 11

12.

評価実験③：自動運転タスク • 評価指標： – 進路予測：RMSE(度)↓、精度(A_σ)↑ – 速度予測：RMSE(m/s)↓、精度(A_σ)↑ • 主な結果： – VPを追加したADAPTモデルが最高性能 – 進路予測：RMSE 6.2°、A_0.5 86.2% – 速度予測：RMSE 2.3m/s、A_0.5 35.3% • 考察： – 生成された未来フレームが予測精度向上に寄与 – 特に速度予測で大きな改善（RMSE 2.5→2.3、A_0.5 28.1%→35.3%） 12

13.

事例研究：GPT-4V との組み合わせ（ビジョン関連タスク） • GPT-4Vを用いたVLPの効果 – タスク：車の次の行動予測 • バニラ回答vs言語計画vs視覚言語計画の比較 – バニラ：確実な予測は不可能と回答 – 言語計画：より詳細な分析を提供するが、依然として予測困難 – 視覚言語計画：正確な予測を実現 • 視覚計画の効果 – 生成された未来フレーム：歩行者が道路を横断中 – GPT-4Vの回答： • 車は停止を維持 • 歩行者が安全に横断し、信号が青に変わった後に進行 • 結論 – VLPは不確実な状況下でより確実な予測を可能に – 視覚と言語の統合が判断精度を向上 13

14.

事例研究：GPT-4V との組み合わせ（言語のみのタスク） GPT-4Vを用いた言語のみのタスクでのVLP活用例 • タスク：ニューヨークの花火ショーに関するニュース記事作成 • VLPの効果： – 言語計画による構造化 – 生成された視覚情報による詳細な描写 • 主なポイント： – より具体的な場所の言及（例：エンパイアステートビル） – 花火の色彩豊かな描写 – 臨場感のある表現の増加 • 結論：VLPにより、より詳細で魅力的な記事が生成可能に 14

15.

アブレーション研究 Table 3: STARデータセットでのVPとLPのアブレーション研究 • 主な知見： – ビジョンプランニング（VP）と言語プランニング（LP）の効果 • ベースラインと比較して性能が向上 • VP: 平均2.2%の精度向上 • LP: 平均3.0%の精度向上 • タスクによる効果の違い – ビジョン・言語タスク（STAR）: LPがより効果的 – 純粋なビジョンタスク（BDD-X）: VPがより効果的 • 組み合わせの効果 – VP+LPの組み合わせが最も高い性能を示す質問タイプ Int.: Interaction（相互作用） Seq.: Sequence（順序） Pre.: Prediction（予測） Fea.: Feasibility（実現可能性） Avg.: Average（平均）結論： • VPとLPは単独でも効果があるが、組み合わせることでさらなる性能向上が可能。タスクの特性に応じて、VPとLPの重要性が変化する 15

16.

ビジョンプランニングの成功例と失敗例 • 成功例： – 原画像のみでは「キャビネットを開ける」と予測 – 生成された未来フレームにより「紙 /ノートを取る」と正しく予測 • 失敗例： – 原画像で正しく「箱を置く」と予測 – 生成された未来フレームにより誤って「カップ/グラス/ボトルを取る」と予測 • 考察： – ビジョンプランニングは未来の状態を予測し、より正確な判断を可能にする – しかし、生成された未来フレームの品質が結果に大きく影響する • 重要ポイント： – ビデオ生成モデルの精度向上が課題 – 生成フレームの適切な選択が重要 16

17.

言語プランニングの成功例と失敗例成功例： • 質問：人が本を取る前に置いた物は何か？ • バニラの回答：毛布（不正解） • 言語プランニング後の回答：サンドイッチ（正解）成功の理由： • 段階的な質問により、詳細な状況把握 • 物の順序を正確に認識（皿を置いてから本を取る）失敗例： • 質問：人はサンドイッチをどうしたか？ • バニラの回答：食べた（正解） • 言語プランニング後の回答：置いた（不正解）失敗の原因： • サブ質問への不適切な回答（予期せずに受け取った、投げ捨てた） • 誤った情報に基づく最終判断教訓： • 言語プランニングの質が結果を左右 • サブ質問の設計と回答の正確性が重要 17

18.

ビデオ生成モデルの品質の重要性 • VLPの性能はビデオ生成モデルの品質に大きく依存 • 異なるビデオ生成モデルの比較結果： • 主な知見： – グラウンドトゥルースフレームが最高性能 – ドメイン特化型モデル（DMVFN）が汎用モデル（Stable Video Diffusion）より優れる – - 低解像度生成（MCVD）は性能が劣るビデオキャプション生成の評価指標 ● ● ● B (BLEU-4) C (CIDEr) M (METEOR) • 課題： – オープンドメインでの高品質ビデオ生成 – タスク特化型ビデオ生成モデルの開発 • 将来展望： – ビデオ生成技術の進歩がVLPの性能向上に直結 18

19.

考察と今後の課題 1. ビデオ生成モデルの品質改善 • 現状の課題： - 生成された未来フレームの品質が不十分 - 不自然な動きや不明瞭な詳細が存在 • 改善の方向性： - より高解像度で自然な動きを生成できるモデルの開発 - タスク特化型のファインチューニング 2. 推論時間の短縮 • 現在のボトルネック： - ビデオ生成に60秒以上かかる場合も • 短縮への取り組み： - 拡散ステップの削減（例：50ステップから4ステップへ） - 推論時間を10秒程度まで短縮する技術の開発 3. その他の課題 • マルチモーダルモデルの更なる統合 • リアルタイム処理への対応 • 多様なドメインへの適用と検証 19

20.

まとめと展望 • Vision-Language Planning (VLP)フレームワークの提案 - 言語計画と視覚計画の統合 - 人間の脳の左右半球の機能にヒントを得た設計 • 主な成果: - ビデオ質問応答、キャプション生成での性能向上 - 自動運転、ロボット操作タスクでの有効性 - GPT-4Vとの組み合わせによる効果的な運用 • 今後の展望: 1. ビデオ生成モデルの品質向上 2. 推論時間の短縮 3. より複雑なマルチモーダルタスクへの応用 4. 実世界のAIシステムへの統合 • VLPの可能性: - より人間らしい認知プロセスを持つAIの実現 - マルチモーダルAIシステムの能力向上 20

21.

山川の考察： VLPフレームワークの脳器官への対応付け入力処理: ● ● 視覚入力: 後頭葉（視覚野）言語入力: 側頭葉（ウェルニッケ野）モダリティ変換: ● 頭頂連合野: 異なる感覚モダリティの情報を統合する役割言語計画 (Language Planning): ● ● ● 前頭葉（特に左半球）: 言語処理、計画立案ブローカ野: 言語生成背外側前頭前野: 実行機能、計画立案本結果は、 Claude3の知識に基づく簡易的なものであることに注意視覚計画 (Vision Planning): ● ● 右半球の頭頂葉: 空間認識、視覚的イメージの操作後頭-頭頂経路: 視覚情報の処理と空間的操作決定メーカー (Decision Maker): ● ● ● 前頭前野: 高次の意思決定、統合前帯状皮質: 意思決定、感情処理海馬: 記憶の統合と新しい情報の処理出力生成: ● ● 運動野: 行動の計画と実行（ロボットタスクの場合）ブローカ野: 言語出力の生成 21

22.

私達の関連研究：海馬を参照した情報統合目的: ● ● 海馬形成の構造を参考にしたロバストな自己位置推定モデルの開発 Allocentric情報(MEC)とEgocentric情報 (LEC)の統合主要な結果と考察 (左下): • CA3に対応する潜在変数がスパースな表現を獲得 • ロボットが突然テレポートされる「誘拐ロボット問題」において、高い性能 Nakashima, T., Otake, S., Taniguchi, A., Maeyama, K., El Hafi, L., Taniguchi, T., & Yamakawa, H. (2024). Hippocampal formation-inspired global selflocalization: quick recovery from the kidnapped robot problem from an egocentric perspective. Frontiers in Computational Neuroscience, 18. 22

23.

[3] Brain-Inspired Intelligence 脳参照アーキテクチャ(BRA)をベースにしたモデル開発や分析を通じ、脳の仕組みを解き明かす。全脳BRA構築ヒト脳型AGI データ自動生成 Building BRA data Human Brain morphic AGI Automated data building 神経科学知見に基づき、脳全体にわたる BRAデータの構築と評価を行う。他方で部分的に計算機能の仮説をHCD/FRGとして構築し、それに基づき計算モデルを実装する。 BRAを活用しつつ脳モデルの実装や、脳データの解析を行う。さらにモデルを用いた機能不全の分析(医療）。脳のように機能や状態（意図・欺瞞など）を解釈できる可能性を探求する。 BRAデータの作成/評価に関わるパイプラインを構築し、LLMを用いて自動化する。 2027年までに最初の全脳BRAを構築し、その後は自動更新できる状況を目指す。主な脳器官としては、新皮質、海馬、基底核、前障、小脳などを含む ● ● ● ● ● 脳参照アーキテクチャ(BRA) 脳情報フロー（BIF) 仮説的コンポーネント図（HCD）機能実現グラフ(FRG) Strructure-constrained Interface Decomposition (SCID) 法 Brain-inspired AI LLM+RLHF ≠ (Yampolskiy, 2024). ● ● ● ● AIアライメント(脳に基づく解釈可能性などを含む) 脳シミュレーションと脳の分析脳の機能不全のモデル化人と親和性の高いコミュニケーション ● ● ● ● ● BRAデータの自動評価と自動作成 WBA技術ロードマップ大規模言語モデル BRA Editorial System (BRAES) Bibliographic database for BRA (BDBRA) 23

24.

[3] Brain-Inspired Intelligence 研究ミッション脳参照アーキテクチャ(BRA)をベースにしたモデル開発や分析を通じ、脳の仕組みを解き明かすテーマ① テーマ② テーマ③ 全脳BRA 構築ヒト脳型 AGI データ自動生成神経科学知見に基づき、脳全体にわたる BRAデータの構築と評価を行う。他方で部分的に計算機能の仮説をHCD/FRG として構築し、計算モデルを実装する。 BRAを活用し、脳モデルの実装や、脳データの解析を行う。モデルを用いた機能不全の分析（医療）や脳のように機能や状態（意図・欺瞞など）を解釈できる可能性を探求する。 BRAデータの作成/評価に関わるパイプラインを構築し、LLMを用いて自動化する。 2027年までに最初の全脳BRAを構築し、その後は自動更新できる状況を目指す。キーワード例キーワード例キーワード例 ● ● ● ● ● 脳参照アーキテクチャ(BRA) 脳情報フロー（BIF) 仮説的コンポーネント図（HCD）機能実現グラフ(FRG) Strructure-constrained Interface Decomposition (SCID) 法 ● ● ● ● AIアライメント (脳に基づく解釈可能性等を含む) 脳シミュレーションと脳の分析脳の機能不全のモデル化人と親和性の高いコミュニケーション ● ● ● ● ● BRAデータの自動評価と自動作成 WBA技術ロードマップ大規模言語モデル BRA Editorial System (BRAES) Bibliographic database for BRA (BDBRA)