【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

20.6K Views

September 22, 23

#LLM #自律型エージェント #アーキテクチャ #メモリシステム #BabyAGI

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

LLMベースの自律型エージェントシステムのサーベイ岡田領 / Ryo Okada（@anonymousgraba）

アウトライン 1. 2. 書誌情報 LLMベースの自律型エージェントとは 3. 具体例 4. 共通するアーキテクチャ構造 5. 評価について 6. 課題 2

書誌情報２つの文書から抜粋して紹介 https://lilianweng.github.io/posts/2023-06-23-agent/ arXiv, submitted on Aug 2023, Revised 7 Sep 2023 • Blog post, 2023/6/23 動機：LLMを用いて自動化アプリケーションみたいなものを作る上でAutoGPT等の自律型エージェントの外観や課題感を抑えたかった 3

https://lilianweng.github.io/posts/2023-06-23-agent/

LLMベースの自律型エージェントとは概要 • • • BabyAGI（左図） OpenAIの自然言語処理能力を使って、目的に基づいて新しいタスクを作成し、Chroma/Weaviate（ベクトルデータベース）を使ってタスクの結果を保存し、コンテキストを取得する過去のタスクの結果と事前定義された目的に応じてタスクを作成 https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/ • • LLMをコントローラとして人間のように意思決定するようなエージェント（like AutoGPT, BabyGPT, …）アイディア：LLMに記憶やプランニングといった人間の重要な能力を持たせることで人間のように振る舞い，様々なタスクを行えるのでは？ 4

https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/

Generative Agents Arxiv, submitted on Apr 2023 • 25人の村社会を構築し，集団行動をシミュレーション（The Simsを参考にした仮想環境） • メモリストリーム，リフレクション, プランニングの３つのモジュールで複雑なシミュレーションを可能に • メモリストリームに経験を記録，抽象的な思考をリフレクションによって獲得する． • １日の大まかなプランを計画→再起的にプランの詳細を生成する．（プランニング） 5

Generative Agents リフレクションの例 • メモリストリームから100件の過去イベント（例：Klaus Mueller is reading a book on gentrification, ...）を取得し， LLMに以下プロンプトともに入力． ‒ Given only the information above, what are 3 most salient high-level questions we can answer about the subjects in the statements? • 生成された質問 ‒ What topic is Klaus Mueller passionate about?, … • これらの質問をクエリとし，関連メモリを収集 • そこからLLMでインサイト抽出．(右上プロンプト) • 結果：Klaus Mueller is dedicated to his research on gentrification Reflectionを反映したメモリ構造 6

MetaGPT Arxiv, submitted on Aug 2023 • SOP（標準作業手順書）に着目し，タスク分解，各専門エージェントが連携してシステム開発を行う． • コード生成のための関数を動的に構築する際にエージェントの協力を活用（メタプログラミング） • 基礎コンポーネント：ロール，環境，アクション，ツール，メモリ • Knowledge sharing: エージェント同士が効率的に情報交換 • Encapsulating workflows: サブタスクを適切なエージェントに割当，アウトプットの標準化 7

MetaGPT 8

• 人間から要求を受け取ると • プロダクトマネージャーが要求分析，実現可能性分析を行う • 次にアーキテクトが技術設計を行う • 次にプロジェクトマネージャは各要件に対応するためのシーケンス図を作成する • エンジニアがコード開発 • 品質保証（QA）エンジニアがテストを実施する

10.

MetaGPT • ３が最も成功したケース 10

11.

アーキテクチャ

12.

LLMベースの自律型エージェントシステムのアーキテクチャ共通するアーキテクチャ構造 12

13.

プロファイルエージェントがコーダー，教師，ドメイン専門家などの特定の役割を担う場合手法説明例手作り（Handcrafting）エージェントのプロファイルを手動で作成 Generative Agents MetaGPT ChatDev LLMで生成プロファイル生成ルールを用意し，LLMが生成する．データセットアライメント実データセット中の人間に関する情報をプロンプトに整形し，活用する．人口統計データセット（人種/ 民族、性別、年齢、居住州など）に基づいて、GPT-3に役割を割当* *Out of one, many: Using language models to simulate human samples. Political Analysis, 31(3):337–351, 2023. 13

14.

メモリ環境から知覚した情報を記憶し，将来の行動を促進する． • • メモリ構造 ‒ 短期記憶：トランスフォーマーのコンテキストウィンドウ内の情報 ‒ 長期記憶：外部ベクトルデータベースフォーマット ‒ • 自然言語形式，埋め込みベクトル，データベース，構造化リストメモリ操作 ‒ 読み込み，書き出し，反映（リフレクション） 14

15.

メモリメモリ構造手法説明例統合メモリ短期記憶のみを再現し，プロンプトへ記憶情報を書き込む． RLP*：話し手と聞き手の状態を保持する会話エージェント．状態をプロンプトで保持し，短期記憶として機能する．ハイブリッドメモリ短期記憶と長期記憶を明示的にモデル化． Generative Agent：短期記憶：エージェントの現在の状況のコンテキスト情報長期記憶：エージェントの過去の行動や思考．必要に応じて取り出す． *Reflective linguistic programming (rlp): A stepping stone in socially-aware agi (socialagi). arXiv preprint arXiv:2305.12647, 2023 15

16.

メモリフォーマット手法利点例自然言語柔軟に表現できて理解しやすい．情報が包括的になる． Voyager(LLMによるMinecraftのプレイ): Mincraftゲーム内のスキルを自然言語記述で保持埋め込みベクトル検索や読み取りの効率が良い． ChatDev(LLMによる仮想ソフトウェア会社): 対話履歴をベクトルに埋め込みし，検索可能に．データベース効率的かつ包括的に操作可能． ChatDB(LLMをシンボリックメモリで補強): エージェントはSQL文で追加，削除，修正．構造化リスト効率的かつ簡潔 Ghost in the Minecraft: サブゴールのアクションリストを階層ツリー構造で格納． ※これらは排他的ではなく，同時にも利用される．例：key value listでキーは埋め込みベクトルで表現．値は自然言語．（GITM） 16

17.

メモリ記憶の操作手法利点例読み込み以前に成功した行動を利用して同様の目標を達成する．新しさ，関連性，重要性が鍵書き出し知覚した環境に関する情報を記憶に保存する．類似した情報（記憶の重複），記憶量の限界（オーバーフロー）の対処が課題・同じサブゴールに成功した行動の蓄積が一定のサイズを超えたらLLM使って凝縮・固定サイズのメモリでFIFO方式（RET-LLM ）反映（リフレクション）人間が自身の認知，感情，行動を評価する能力．抽象的な洞察に要約・推論する力 Generative Agentsでのリフレクションの例（資料前半） 17

18.

プランニング複雑なタスクを単純なサブタスクに分解して個々に解決する． • フィードバックなしのプランニング ‒ • 行動の後に将来の行動に影響を与えるようなフィードバックを受け取らないフィードバックによるプランニング 18

19.

プランニングフィードバックなしのプランニング手法利点例シングルパス推論いくつかのステップに分解する Chain of Thought Step by Step マルチパス推論ツリー構造のステップに分解 ToT 外部プランナー外部のプランナーに計画を行わせる．（ドメイン固有の専門的な問題などを） LLM+P: タスク記述をプランニング・ドメイン定義言語（PDDL）に変換し，外部プランナーでPDDLを処理．生成された結果をLLMで自然言語に変換． 19

20.

プランニングフィードバックによるプランニング手法利点例環境フィードバック世界や仮想環境から得られるフィードバック．ゲームのタスク完了信号や，エージェントが行動した後の観測結果など． Voyager: プログラム実行の中間結果，実行エラー，自己検証結果の環境フィードバックを取り入れ，計画を立てる．ヒューマンフィードバック人間からのフィードバック．モデルフィードバックエージェント自身からの内部フィードバック．事前訓練モデルを用いる． 20

21.

アクションエージェントの意思決定を具体的な結果に変換．最も下流のモジュール． • アクションゴール ‒ • アクション生成 ‒ • 行動生成戦略行動空間 ‒ • 例：タスク完了，コミュニケーション，環境探索エージェントが実行可能なアクションの集合アクションインパクト ‒ アクションの結果 ✔ 環境の変化，内部状態の変更，新しいアクションのトリガー 21

22.

アクションアクション生成手法利点例記憶想起による行動エージェントの記憶から情報抽出し，アクション生成 Generative Agents: メモリストリームを保持し，アクションをガイドするために最近の関連する情報を取り出す計画に従った行動エージェントはプランに従って行動する Ghost in the Minecraft: エージェントはタスクを多くのサブゴールに分解し，計画を立てる．計画に基づいてサブゴールを順次解決するための行動をとり，最終的なタスクを完結させる． 22

23.

アクション行動空間手法利点例外部ツール API Gorilla, Toolformer, HuggingGPT データベース・知識ベース ChatDB: SQL文でデータベースに問い合わせ，エージェントによる論理的なアクションを可能に．外部モデル特定の複雑なタスクを別のモデルに行わせる．（画像生成，音声処理，コード生成など．）内部知識計画能力会話能力常識的理解能力 23

24.

エージェントの能力拡張エージェントの能力拡張に関わる戦略 • ファインチューニングによる能力獲得 ‒ • アノテーションされたデータ，LLMでの生成データ，実データファインチューニングなしの能力獲得 ‒ プロンプトエンジニアリング，メカニズムエンジニアリング 24

25.

メカニズムエンジニアリングファインチューニングやプロンプトエンジニアリングとは異なるエージェント能力拡張の戦略手法利点例トライアルアンドエラーエージェントの行動を予め定義した批評家が判定．不満の場合はフィードバックを取り入れて反応．クラウドソーシング別々のエージェントに多様な回答を出力させ，回答が一貫してなければ他エージェントの回答を取り入れる．コンセンサスが取れるまで行う．経験の蓄積探索〜タスク達成に成功するとその行動をメモリに格納．以降同様のタスクではその知識を活用．自己駆動進化自らゴールを設定し，環境を探索しながら，報酬関数から良いフィードバックをもらい，改善していく（LMA3*） Voyager: スキルのライブラリを持ち，繰り返し改良．スキルライブラリを活用することで，効率的にタスクをこなせる． *Augmenting autotelic agents with large language models. arXiv preprint arXiv:2305.12487, 2023. 25

26.

評価エージェントの評価に関わる選択肢 • 主観的評価 ‒ 人間によるアノテーション ✔ ‒ チューリングテスト ✔ • 人間がスコアやランクづけして評価評価者が人間とエージェントの出力を区別する客観的評価 ‒ 評価指標：タスク成功メトリクス，人間類似度，効率性 ‒ プロトコル：実世界シミュレーション，社会性評価，マルチタスク評価，ソフトウェアテスト ‒ ベンチマーク 26

27.

課題 LLMベース自律型エージェントの代表的な課題ロールプレイング能力 • Web上で滅多に議論されない役割や新しい役割は無理 • 自己認識の欠如が指摘* 一般化されたヒューマンアライ • 多様な人間の価値観にアライメントする必要メントプロンプトのロバストさハルシネーション知識の境界 • プロンプトの設計が大変．LLMごと異なったり．エージェントの各モジュールも影響する． • LLMの基本的な課題．自律型エージェントでも同様． • LLMは膨大なウェブ知識コーパスで訓練されており，過剰な能力を発揮する可能性 • 例：映画の予備知識を持たないユーザ行動をシミュレーションしたくてもベースにある豊富な知識で判断してしまう可能性効率性 • エージェントは何度もLLMをコールする必要があり，LLMの推論の遅さが蓄積・影響される．長期のプランニングとタスク分 • LLMは予期せぬエラーに直面した時に計画を調整するのに苦労し，試行錯誤から学習する人間に比べてロバスト性が低い．解 *Reflective linguistic programming (rlp): A stepping stone in socially-aware agi (socialagi). arXiv preprint arXiv:2305.12647, 2023. 27

28.

Thank you.