エージェントAIシステムの開発は何が難しいのか？

1K Views

September 10, 25

#aiエージェント #エージェントaiシステム #mas(マルチエージェントaiシステム) #エージェント評価

スライド概要

AIへの投資が凄まじいことになっている。特にAIインフラ（データセンターなど）への投資は歴史上最大の規模とスピードのようである。従って、こんな状況が登場してきているのであれば、これを使用するAIアプリケーションの準備も急激に立ち上がらなければならない。これが、生成AIに続いてAIエージェントへの関心が劇的に高まっている背景だと思う。是非、これが新たな価値創造に繋がって欲しいと思うが、その一方、課題の多さも話題になっている。そんなことから、ちょっとAIエージェント周辺の状況を探索してみる。

高橋浩

@5451263343

スライド一覧

定年まで35年間あるIT企業に勤めていました。その後、大学教員を5年。定年になって、非常勤講師を少々と、ある標準化機関の顧問。そこも定年になって数年前にB-frontier研究所を立ち上げました。この名前で、IT関係の英語論文（経営学的視点のもの）をダウンロードし、その紹介と自分で考えた内容を取り交ぜて情報公開しています。幾つかの学会で学会発表なども。昔、ITバブル崩壊の直前、ダイヤモンド社からIT革命本「デジタル融合市場」を出版したこともあります。こんな経験が今に続く情報発信の原点です。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

生成AIからエージェントAIへの移行の課題と展望

aiエージェントエージェントai 自律性ガバナンスエージェント介入リスク

高橋浩 9.4K

医療分野における大規模言語モデルの調査

医療医療llm 生成ai 医師免許試験デジタル化

高橋浩 5.7K

医療へのChatGPT & AIの適用

chatgpt イノベーションヘルスケア新サービス開発組織変革

高橋浩 5.1K

ChatGPT 機会課題影響

大規模言語モデル chatgpt 生成ai 商業化の壁 llm

高橋浩 5K

GPTは労働市場にどのような影響を与えるか

chatgpt 生成aiツール生産性向上生成aiの今後 llm

高橋浩 4K

価値創造と価値獲得

value creation value capture オープンイノベーションデジタル化 b2b業界価値創造と価値獲得のバランス

高橋浩 3.9K

各ページのテキスト

エージェントAIシステムの開発は何が難しいのか？ B-frontier 研究所高橋浩

目的 • 生成AIは一世を風靡したが、最近では限界も見えて来ていた (95%の企業がAI投資からリターン得ず：[FT](日経8/27))。 • 但し、この延長線上で最近急激にエージェントAIが台頭し、AI 活用の切り札として注目を集めている。 • エージェントAIは創造と行動を融合させた新たなビジョンであり、人間の働き方や価値創造の在り方に新たな期待を持たせてくれる反面、多くの課題も指摘されている。 • 開発面だけでなく、目標を自律的に維持し続けられるかなど、運用面でも課題が有り、人間と機械の関係性に見直しを迫る。 • 本稿は、このような認識の下に、今後への対応に向けて何が課題なのかの考察を深めることを目的とする。 2

本資料のポイント（＋目次） 1. エージェントAIシステムの状況把握が求められている１エージェントAIシステムの解説生成AIとエージェントAIの相違エージェントAIシステムへの期待と課題、など前半 1. マルチエージェントAIシステムのデータに基づく分析が２求められているマルチエージェントAIシステムのデータに基づく分析解説成功・失敗率の特定や障害の分類エージェントAIシステムの評価、など後半３ 2. エージェントAIシステムへの今後の取組み 3

１前半エージェントAIシステムの解説５つの質問 1. 生成AIとエージェントAIの主要な違いは何か? 2. 生成AIからエージェントAIに関心が移動しているのは何故か? 3. エージェントAIシステムを実現するアイディアはどのようなものか？ 4. この狙いは適切に実現できそうか？ 5. 当面はどのような取組みが適切か？ 4

質問１：生成AIとエージェントAIの違いは何か? 生成AIとエージェントAIとの比較出発点として生成AIとエージェントAIの違いを明確に理解することが重要である。生成 AI: 創造性の原動力 • 生成 AI は「創造」がすべて • テキスト、画像、音楽、コード、さらにはビデオなどのコンテンツを生成するように設計されている。 • 核心は、既存のデータから学習し、その知識を使用して、人間の創造性を模倣した新しいオリジナルの出力を生成することである。エージェント AI: 自律的な問題解決者 • エージェント AI は「実行」がすべて • 特定の目標を達成するために自律的に行動するように設計されている。 • 核心は、意思決定を行い、行動を起こし、変化する環境に適応することである。 5

質問２：生成AIからエージェントAIに関心が移動しているのは何故か? 生成AIの問題点の明確化生成AIの何が問題なのかを「ストーリー」で考える。家族旅行：機械が夢を見、人間が働く時 • 今がギリシャへの家族旅行を計画する絶好の時だと思った。 • A氏はChatGPTを開き「4人家族でギリシャを2週間旅行するプランを見せて」と入力した。 • 子供たちがギリシャ神話に興味を持っていることなども追加した。 • AIは数秒のうちに傑作を作り上げた。【隠れた名所、地元の体験、彼の家族に合わせた細やかな配慮、完璧に練り上げられた旅程】 • 【1日目～3日目：アテネ。混雑を避けるため、早朝にアクロポリスから出発しましょう。お子様はアクロポリス博物館のインタラクティブな展示に夢中になるでしょう…魅力的なプラカ地区にある家族経営のタベルナ・プラタノスでランチ。中庭はジャスミンの香りで満たされています…】 • A氏が1時間ごとの詳細を尋ねると、AIは驚くほど正確に応え、最適な写真撮影スポットや完璧な休憩時間も教えてくれた。 6

生成AIの問題点の明確化（続）しかし、その後に地獄を迎える • 「魅力的な家族経営」のホテル？・・永久に閉店？ • 「隠れたビーチ」？・・地図上ではどこにも見当たらない。 • 伝統的な料理教室？・・6ヶ月間予約でいっぱい。 • A氏のデスクトップはまるで犯罪の捜査現場のようになった。 • ブラウザのタブが何十枚も開き、フライトの選択肢を追跡するスプレッドシートがいくつも並び、ホテルの部屋のスクリーンショットや旅行会社からのPDFが貼られ・・ • 空室状況の確認、価格の比較、AIが描いた完璧な空想を予約可能な形に変える終わりのない作業・・何が起きているのか？ • 人間が「AIがやってくれると思っていた面倒な作業に何時間も費やしてしまう」ことになった。 • こんなはずではなかった。まるで我々は人間をロボットのように、AIをクリエイティブな人材のように扱っている。 • これは想定とは逆だ。今こそ、この状況を逆転させなれればならない。 7

質問3：エージェントAIシステムを実現するアイディアはどのようなものか？前述の問題を解決するためのアイディア従来型エージェントシステムのエンジンをLLMに入れ替えてエージェントAIシステムに行動までやってもらう従来型エージェントシステムエージェントAIシステム深刻なリスクにさらされない高度に管理された環境での行動にのみ限定されていた。エージェントAIが相互に作用し適応することで、AI自身が行動を起こし、変化する環境に適応してもらう環境への移行を行う。 • 即ち、高度に管理されたルールベースの従来型エージェントシステムから、・・ • リアルタイムデータ、あるいは過去のトレンドに基づいて、予期せぬ変化に戦略的かつ動的に対応するエージェントAIシステムへ移行する。 8

アイディア実現に必要なエージェントAIシステムの構成このようなシステムはLLM、メモリー、ツールの３要素で構成する必要がある。他の世界 OS インターネット APIサーバーハードウェア物理世界エージェントAI ツール API Doc/ フィードバックメモリーウェブAPI アプリケーションシェルデータベース生成実行更新内臓RAMデータ SQL ベクトルDB 行動 • タスクを動的に分解し、コンテキストを共有し、長期に渡って高レベルの目標を追求する。 9

10.

一般には要求の高度化に伴いシングルエージェントからマルチエージェントAIシステムに移行するエージェントAIシステム (エージェント型AI) AIエージェント感知アーキテクチャの進化専門エージェント群高度な推論と計画マルチエージェントコラボレーションタスク分解推論持続メモリ行動オーケストレーションシステム調整共有コンテキストシングル(あるいは特定種)タスクを実行するAIエージェントマルチエージェントによる協調型のエージェントAIシステム 10

11.

質問4：この狙いは適切に実現できそうか？エージェント AI に対する生成 AI の限界 • しかし、生成 AI は元来がエージェント AI の要求に合わせて設計されていない。 • その結果、下記のような問題が発生する。 1. 真の自律性の欠如: 生成 AIはトレーニングデータに大きく依存しており、データのバイアスや制限に縛られている。エージェント AIの基盤となる真の意味での理解や自律性はない。 2. 意思決定の不備: 生成 AI はもっともらしい出力を作成することには優れているが、堅牢な推論能力が不充分なので、長期的一貫性を維持しつつ動的環境に適応する意思決定能力が足りない。 11

12.

1. 3. スケーラビリティと制御:生成AIは計算コストが高く制御が困難なので、特定エージェントアプリに合わせて微調整して行動しても、多くの場合予測不可能な結果が生じ、信頼性が損なわれるリスクがある。 4. 2. 倫理的およびセキュリティ上の懸念:生成 AI の確率的性質は変わらないので、誤解を招くコンテンツや有害なコンテンツ作成のリスクは残る。一か八かのシナリオを実行する訳には行かない。 3. 証拠の欠如: 生成 AI がエージェント AI のコンテキストで一貫して 5. 期待どおりに機能できることを示す経験的証拠はない。ケーススタディは逸話的なものであることが多く、長期的な存続には対応できない。 12

13.

現行のエージェント AIシステムに欠けているもの・結局、生成 AI の現在の機能を超えてテクノロジーを進化させなければならない。・項目としては次の例などが挙げられる。 1. 説明可能性と透明性: エージェントAIは、理解できる言葉で自分の行動を正当化できなければならない。 2. 堅牢なコンテキスト理解: システムは、表面レベルのパターン認識を超えた、より深いコンテキスト認識が必要である。 3. 効率的な学習メカニズム: エージェントAIは、大量の計算リソースや再トレーニングを必要とせずにリアルタイムに適応する必要がある。 4. 安全性と信頼性: 複雑で構造化されていない環境において、予測可能で倫理的な行動を確保できる必要がある。 13

14.

質問５：当面はどのような取組みが適切か？完全自律型エージェントAIシステムの危険性当面は、下記のような課題が存在するので完全自律化は避けた方が良い。システムの不正確性 • 不正確さが不適切なツール選択に伝播する。連鎖的エラーは無関係な結果のリスクを増大させる。結果、人間の目標とは異なる結果を生み出す可能性がある。システムの非一貫性 • 結果に固有のばらつきが発生し、見過ごされる不一致が安全性の問題を惹起させる。結果、公平性と矛盾する可能性がある。プライバシー侵害 • エージェントAIがユーザーに代わってパーソナライズされた方法で行動するために発生するリスクが増大する。安全性・セキュリティ • 一見安全に見える個々の操作が有害な方法で組み合わさり、防止が困難な新たなリスクが生じる。虚偽情報の拡散 • 真実と虚偽に関する誤った認識を与え、人々の信念を操作し、合意のない親密なコンテンツの影響を拡大させる可能性がある。 14

15.

エージェントAIシステムの解説(まとめ) • 生成AIにおける最近のブレークスルー(推論能力の強化など)は新たなエージェントAIシステムの扉を拓いた。 • そして、従来型エージェントシステムは存在していたので、複雑なプロセスを自動化する方法、既存のシステムと統合する方法などについては一定の経験を積んでいたはずだった。 • しかし、エージェントAIシステムの導入は、これらの経験では全く対応できない新たな課題を突きつけている。 • そこで、もう少し実態を把握するため、実際のデータに基づく分析を後半後半で示す。 15

16.

２後半マルチエージェントAIシステムのデータに基づく分析データに基づく分析の背景 • LLMに基づくエージェントAIシステムは、現実世界の問題により適確に対応してくれるのではないかと期待を集めている。 • このような期待が登場するのは、多様な環境と動的に相互作用しながら複雑なタスクを多段階で処理する能力が評価されているからである。 • 特に、マルチエージェントAIシステム（MAS：Multi Agent AI(LLMベース) System）はオーケストレーションを通じて相互作用し集合知を可能にするエージェントの集合体として、期待が高い。 • しかし、MASのパフォーマンス向上はシングルエージェントAIシステムと比較しても遅いと見られている。 • 何故このような状況が発生するのか？ • 後半では、これを可視化するため、MASの成功・失敗率判定から出発する。 16

17.

MASの成功・失敗率の判定法【調査手法】 • GPT-4o、Claude-3を用いたオープンソースベースMASを6個選択した。 • 別途、６人の熟練した人間アノテーターを採用し、彼らのスキルを使用して選択した６個のMASの実行トレースを体系的に実施した。 • 具体的には、さまざまなタスクから抽出した200以上の会話トレース（平均して15,000行以上のテキスト）を詳細に分析した。 • そして、「成功・失敗」を「MASが意図したタスク目標を達成できたかどうか」を基準に判定した。 • ６個のMASの成功・失敗率を次頁に示す。 17

18.

現行MASはまだまだ成熟していない・失敗率は、なんと最高で87%、最低で41%、であった。 MetaGPT (ProgramDev) 40.0% 60.0% ChatDev (ProgramDev) 33.3% 66.7% HyperAgent (SWE-Bench Lite) AppWorld (Test-C) AG2 (OlympiadBench) Magentic-One (GAIA) • 失敗原因を突きとめるため、 ①: ３つの障害カテゴリー(タイプ1, 2, 3) 74.7% 25.3% 13. 3% ②: 14件の障害モードを設けた。 86.7% 59.0% 38.0% 41.0% 62.0% 成功 • 障害分類結果と各MASの評価結果を以降に示す。失敗 AppWorld, HyperAgent, AG2, ChatDev, MetaGPT, Magentic-OneはMASの名称（次頁表参照） Test-C, SWE-Bench Lite, OlympiadBench, ProgramDev, GAIAは使用されたベンチマーク名（次々頁表参照） 18

19.

選択した６個のMASの概要 MAS アーキテクチャシステムの目的星形のトポロジー日常的タスクに対応するユーティリティサービス (例: G-Mail、Spotify など) に特化してAPIを介してツールを呼び出すエージェント。サービス間タスクを達成するために独自のプログラム評価を行い、タスク完了の工夫をしている。 HyperAgent 階層型ワークフロー開発者(人間)のワークフローをエミュレートすることで、複数のプログラミング言語にまたがる幅広いタスクに対応するマルチエージェントAIシステム。プランナー、ナビゲーター、コードエディター、エグゼキューターという4つの専用エージェントで構成され、SEのライフサイクル全体を管理する。 AG2 N/A – （エージェントフレームワーク）エージェントのインタラクションを管理するためのプログラミングフレームワーク ChatDev 階層型ワークフロー仮想的なソフトウェアエンジニアリング会社として、ユーザーの指示に従って、ソフトウェア設計、コード生成、QAなどのソフトウェアエンジニアリングフェーズタスクをシミュレートする。 MetaGPT 組立ラインソフトウェア企業におけるさまざまな役割のSOP(標準作業手順)をシミュレートし、オープンエンドのソフトウェアアプリケーションを作成する。 MagenticOne 星形のトポロジー様々な Web およびファイルベースの環境に関連する複雑でオープンエンドのタスクを自律的に解決するように設計された汎用マルチエージェントシステム OpenManus 階層的現実世界のタスクを解決する協調型AIエージェントの開発を容易にするために設計されたマルチエージェントフレームワーク AppWorld 19

20.

MAS評価に使用されたベンチマークベンチマーク領域一般性のレベル説明 Test-C プログラミング関連タスク固有プログラムやシステムが特定のタスクをどれだけ速く、効率的に実行できるかを測定する。 SWE-Bench Lite プログラミングタスク固有ソフトウェアエンジニアリングの問題解決におけるエージェントの精度を測定する。 OlympiadBench オリンピックレベルの数学や物理学などの問題の対応 ProgramDev GAIA＊プログラミング周辺全体汎用特定問題固有タスク固有完全に一般的人間の専門家の熟練度を超えたレベルの問題に対してその高度な能力を測定する。ソフトウェア設計、環境構築、実装、受け入れテスト、単体テストなど、ソフトウェア開発ライフサイクルの様々な段階にわたってLLMを包括的に評価する。さまざまな基本的な能力とツールの使用を必要とする一般的な一連の質問に対するエージェントの精度を測定する。＊: GAIAのみが汎用AIアシスタント向けのベンチマークであった。 GAIA以外は従来型あるいはLLM向けのベンチマークであった。 20

21.

MASの障害カテゴリーと障害モードエージェント間会話の段階実行中実行前障害モード障害カテゴリータイプ１実行後構成比率 1.1タスク要件の遵守の失敗 1.2エージェントの役割の遵守の失敗仕様に関する問題（システム設計） 1.3固定されたステップの繰り返し 1.4コンテンツの喪失 1.5タスク完了の認識の失敗 2.1予期しない会話のリセットタイプ２ 2.2説明を求める代わりに誤った仮定に基づいて進行エージェント間の不整合に関する問題（エージェント間の調整） 2.3 タスクの脱線 2.4重要な情報の隠蔽 2.5他のエージェントからの入力の無視 2.6 推論と行動の不一致タイプ３タスク検証に関する問題（品質管理） 3.1 早期の終了 3.2 検証なしまたは不完全 3.3 誤った検証 21

22.

MAS障害の障害カテゴリー毎の説明 • タイプ１：仕様に関する問題 • 障害はシステム設計上の決定および不充分性または曖昧なプロンプト仕様に起因していると考えられる。 • タイプ２：エージェント間の不整合に関する問題 • 障害は実行中のエージェント間の相互作用と調整の不具合によって発生していると考えられる。 • このタイプの失敗の診断は非常に複雑になる可能性がある。 • 何故なら、異なる根本原因が類似した表層的動作を引き起こす場合があるからである。 • 例：情報の欠落は、情報隠蔽(2.4)、入力無視(2.5)などの他に、コンテンツの喪失(1.4)などによっても発生する。 • タイプ３：タスク検証に関する問題 • 障害にはエラーを検出または修正できない不適切な検証プロセスに起因していると考えられる。 22

23.

MAS障害モードに基づくMASの評価６個のMASについて各障害モードがどのように分布しているかを示す。 1.3固定されたステップの繰り返し仕様に関する問題エージェント間の不整合に関する問題タスク検証に関する問題 1.5タスク完了の認識の失敗 3.2 検証なしまたは不完全失敗回数 3.1 早期の終了 1.1タスク要件の遵守の失敗 MAS障害モード 23

24.

各MASの障害特性の説明タイプ１関係 • 固定されたステップの繰り返し(1.3)やタスク完了の認識の失敗(1.5) が多いが、タスク要件の遵守の失敗(1.1)が目立つものもある(AG2)。タイプ２関係 • 重要な情報の隠蔽(2.4)や推論と行動の不一致(2.6)が多いが、その他の要因もほどほどに多い。タイプ３関係 • 早期の終了(3.1)と検証なしまたは不完全(3.2)が特に多い。全体では 21.3％と他タイプよりは少ないがそれでも大きな比重を占める。 MAS名障害特性 AppWorld 早期終了(3.1)に特に悩まされている。これが失敗率86.7％の大きな理由になっている。 HyperAgent 推論と行動の不一致(2.6)が多い。また、エージェント間の不整合に関する問題(2.関連)の合計が最も多い。 AG2 タスク要件の遵守の失敗(1.1)が目立つ。(1., 2.関連)は中くらいだが(3.関連)は高い。 ChatDev (1.関連)は中くらいだが(2, 3.関連)は最も低い。それにも関わらず失敗率は67％と結構高い。 MetaGPT 検証なしまたは不完全(3.2)が最も高い。(1., 2.関連)は下から2番目くらいに低いが失敗率は60%とまだ高い。 Magentic-One 早期終了(3.1)が2番目に高い。(1., 2.関連)は上から3番目くらいと比較的高い。失敗率も60%とまだ高い。 OpenManus ステップ繰り返し(1.3)に特に悩まされている。また、仕様に関する問題(1.関連)の合計が最も多い。 24

25.

MASの障害傾向の分析 • ６個のMASは障害モードの傾向がかなりバラついている。 • ３カテゴリーはいづれも基本的なことばかりだが、ほぼどのカテゴリーも大きな比重を占めており、根本的レベルで成熟度不充分と判断される。 • これは、全体的に問題の原因が現状でも絞り込めていないことを示唆する。 • 前半質問4 などで想定した傾向が各MASで多様な形態で登場していることを推測させる。 • これは、改善するための道筋が明確には見えていないことを予想させるので、成熟までにはそれなりの時間が掛かると思われる。 25

26.

正確性(精度)を超えた未解決の問題点 • ここまでは主として目標達成の精度に焦点を当ててきた。 • しかし、精度に過度に焦点を当てると次のような問題が生じる。 • 精度向上のみに重点を置いたエージェントAIシステムの構成や設計 • その結果、不必要に複雑化 • その結果、不必要に高コスト化 • これらの課題を緩和するには、精度、コストの両指標を共同で（同時に）最適化するような目標設定が必要になる。 26

27.

正確性(精度)を超えた未解決の問題点（続） • これらに取組むための検討事項としては下記などがある。 1. モデル開発用ベンチマークとそれ以外（システム全体など）のベンチマークを明確に分離する。 • 現状は両者が混同、あるいはモデル開発用ベンチマークのみを使用しているケースが多い。 2. 学習用データと検証用データを明確に分離して分析する。 3. 現状のベンチマークに過剰に適応あるいは過学習することで間違いに陥ることを防ぐため、新たに、適切な評価手法の開発とそれとセットのベンチマークの標準化が求められる。 27

28.

マルチエージェントAIシステムのデータに基づく分析(まとめ) • エージェントの評価は言語モデルの評価と根本的に異なる。 • エージェントは、より一般的、現実的、実用的、あるいは通常は単一の正解を持たないタスクに使用される。 • エージェントは単一モデルの呼び出しよりも遥かに多くのコストがかかることがある。従って実行コストの制限を付与(レベル設定など)する必要がある場合がある。 • そのため、エージェントの評価には次のような考慮も必要である。 • コスト管理の導入 • 精度と推定コストの２指標を共同で最適化 • モデル開発者と下流開発者で異なるベンチマークを設定 • エージェントの一般性に複数のレベルを設定し、それを選択することで目的に応じた過剰適応回避の手段を提供 • エージェント評価の再現性を保証するための評価の標準化 28

29.

３エージェントAIシステムへの今後の取組み改めて、生成AIとエージェントAIの関係性を考えてみる。生成 AIとエージェント AI • 生成 AI は新しいものを生み出す(創造)のに対し、エージェント AI は特定のものを達成する行動を行う。 • 生成 AI は静的あるいは瞬発的であるのに対し、エージェント AI は動的で、環境から学習し、それに応じた行動を行う。 • 結果、重要な違いに目的の複雑性が生じる。 • 生成 AI は狭く明確に定義されたタスクに取り組むのに対し、エージェント AI は、継続的な意思決定と適応を要するより広範で多段階の目標に取り組む。 29

30.

両者は交差し、互いに補完し合える関係に到達するのか？ • 生成 AI とエージェント AI は相互に排他的ではなく、実際、しばしば強力な方法で協力し合う場合もある。 • 両者の違いを正確に理解すれば、社会が AI の倫理的、社会的、経済的影響を乗り越えるのに役立つ。 • 自律性の境界と目標の整合性は、エージェントAI システムを設計および運用する際に特に重要である。 • 自律性の限界を明確に定義し、AI の目標が人間の価値観と一致していることを確認できれば、責任を持って対処できる。 • しかし、現状はまだこのような段階には到達していない。 • 今後、一層発展して、創造と行動がシームレスに統合して来れば、両者間の境界が徐々に曖昧になり、新たなシステムが生まれてくるものと思われる。 30

31.

今後の取組みに向けて • 検討のメインルートを明確化することが必要である。 • それには検討の方向性の絞り込みも必要であり、エージェントAIシステムのプロフィール明確化も要る(下記に例示)。 • 自律性のレベル • マルチエージェントシステムのレベル（エージェント数、ランク付け、など） • 目標の一貫性の達成要件 • 目標達成とコスト要件のカテゴリー分け、など • これらを実践するためのベンチマークの詳細化も重要である(下記に例示)。 • 要件に対応したベンチマークの多様化 • ベンチマーク実践のための検証ツールの整備 • 検証用データを整備するための施策、など • これらの検討と並走する例として、生成 AIとエージェント AI両者の補完関係構築に向けた時間軸と分類軸の例を以降に示す。 31

32.

エージェントAIシステムの展開(時間軸) 本稿の考察に基づいたタイムスケジュールの例を示す。黎明期エージェント AIサービスの展開構築期アイディアの創出 • 生成AIとエージェントシステムを統合 • エージェントシステムのエンジンをLLMに入れ替え行動を伴う複雑な目標の追求へ生成AIの成熟化と展開生成AIの適応限界拡大生成AIの進化 • DeepSeek他による変化高度化、廉価化、ｵｰﾌﾟﾝｿｰｽ化、民主化のパラダイムへ活用期要素機能の進化・推論機能の強化ほかエージェントモデルの類型化次頁参照エージェント間通信の充実・MCPなど各分野対応の充実化・先端的事例の吸収ベンチマークの充実・GAIAなど障害分類法の充実・障害モードの特定など評価尺度の充実・モデル能力の評価・コスト評価との統一評価基本問題への対処の充実・セキュリティ・プライバシー・安全性・一貫性社会問題への対応・雇用問題への取組み企業団体向け対応・組織変革・ガバナンス・生産性向上など 32

33.

エージェントAIの類型化(分類軸) • MAS採用を考える場合、エージェントAIシステムの類型化も有効である。 • 成功事例の登場による類型の詳細化や見直しなども適切に行う必要がある。名称単純な反射エージェントモデルベースの反射エージェントゴールベースのエージェント効用ベースのエージェント内容 • 事前に定義されたルールと即時データに厳密に基づいて動作する。サーモスタット制御、特定特定のイベント条件アクションルールを超える状況には応答しない。キーワード検出でパスワードリセット、など • 特定のルールに従うのでなく、起こりそうな結果と影響を評価し、裏付けとなるデータを利用して、認識している世界の内部モデルを構築し、それを意思決定に活用する。ナビゲーション、推奨システム、観測可能な症状からの診断システム、など • 推論機能を活用して、環境データを評価するだけでなく、さまざまなアプローチを比較して、望ましい結果を達成できるように動作する。自然言語処理 (NLP) やロボット工学アプリなど複雑なタスクの実行 • さまざまなシナリオとそれぞれの効用価値や利点を比較し、ユーザーに最も多くの報酬を与えるものを選択して実行する。複数の目標が衝突する場合や不確実性下での微妙な意思決定に有用である。金融取引システム、複数の好みを最適化する旅行計画アシスタント、など • 過去の経験から継続的に学習し、結果を改善する。経験を通じて特定の基準を満たすように学習要素を経時的に適応させて動作する。相互作用履歴から学習するチャット, フィードバックで改善する推奨システム, 等 • 複雑なタスクを小さなタスクに分解し下位に割り当てる。各自は独立して動作する。上位エージェントは結果を収集し、集合的に目標を達成できるように調整する。複雑なワークフロー管理、企業オートメーションプラットフォーム、など学習エージェント階層型エージェント事例 33

34.

最終まとめ 1. エージェントAIシステムのデータに基づく分析が登場し出だした。 2. MAS失敗率の算定や失敗の原因の障害モード分類などが提示された。 3. 結果は、MASは、単に開発が困難なだけでなく、それ以降の運用においても、目標の一貫性の保持など多くの課題があることが示された。 4. それにもかかわらず、生成AIからエージェントAIへの移行は確実に進み、エージェントAI時代の到来はますます確実なものになろうとしている。 5. この状況は、リスクは多いものの、ある企業が特定分野でエージェントAI 活用に先行し確実に生産性向上を達成したら、同業他社への競争優位性が確立されるのではないかとの認識の存在も予想させる。 6. このようなことが想定されるので、多くの企業は組織改革などまで含めてエージェントAIへの取組み開始を検討せざるを得ないのだろう。 7. 自らのビジョン再考まで含めて戦略的検討が求められている。 34

35.

編集後記 • 今回はMert Cemri et al. 論文「何故マルチエージェントAIシステムは失敗するのか？」を中心にしてまとめてみた。 • この種の研究は市場からのニーズが極めて高いようである。それに答える意気込みで、著者は実作業者６名に加えて、UC, Berkeleyの教授連が５名も共著者に名前を連ねていた（右写真は教授達）。 • それにも関わらず、論文の内容はそれほど画期的なものでも無かった。実データに基づく障害モード特定、障害分類法の提示などはあったが。 • と言うことは、この種の研究は初歩段階で、そもそもこの種の研究は難しいのだろうなという印象を持った。 • このような認識の下に、それ以外の分野（前半やまとめ）は、本論文と整合が取れそうな内容を探索して、全体を物語風にまとめてみた。 • エージェントAIシステム、なかんずくMASの開発は、組織変革や社会課題（雇用ほか）対応も含め、長期間続いていくものと思われる。 • 幅広い対応への認識を適切に持ち、着実に対応して行けたらと思う。 UC, Berkeley教授 Kurt Keutzer UC, Berkeley教授 Kannan Ramchandran UC, Berkeley教授 Matei Zaharia UC, Berkeley教授 Joseph E. Gonzalez UC, Berkeley教授 Ion Stoica 35

36.

文献前半後半 36