エージェントAIシステムの開発は何が難しいのか?

323 Views

September 10, 25

スライド概要

AIへの投資が凄まじいことになっている。特にAIインフラ(データセンターなど)への投資は歴史上最大の規模とスピードのようである。従って、こんな状況が登場してきているのであれば、これを使用するAIアプリケーションの準備も急激に立ち上がらなければならない。これが、生成AIに続いてAIエージェントへの関心が劇的に高まっている背景だと思う。是非、これが新たな価値創造に繋がって欲しいと思うが、その一方、課題の多さも話題になっている。そんなことから、ちょっとAIエージェント周辺の状況を探索してみる。

profile-image

定年まで35年間あるIT企業に勤めていました。その後、大学教員を5年。定年になって、非常勤講師を少々と、ある標準化機関の顧問。そこも定年になって数年前にB-frontier研究所を立ち上げました。この名前で、IT関係の英語論文(経営学的視点のもの)をダウンロードし、その紹介と自分で考えた内容を取り交ぜて情報公開しています。幾つかの学会で学会発表なども。昔、ITバブル崩壊の直前、ダイヤモンド社からIT革命本「デジタル融合市場」を出版したこともあります。こんな経験が今に続く情報発信の原点です。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

エージェントAIシステムの開発は 何が難しいのか? B-frontier 研究所 高橋 浩

2.

目的 • 生成AIは一世を風靡したが、最近では限界も見えて来ていた (95%の企業がAI投資からリターン得ず:[FT](日経8/27))。 • 但し、この延長線上で最近急激にエージェントAIが台頭し、AI 活用の切り札として注目を集めている。 • エージェントAIは創造と行動を融合させた新たなビジョンであ り、人間の働き方や価値創造の在り方に新たな期待を持たせて くれる反面、多くの課題も指摘されている。 • 開発面だけでなく、目標を自律的に維持し続けられるかなど、 運用面でも課題が有り、人間と機械の関係性に見直しを迫る。 • 本稿は、このような認識の下に、今後への対応に向けて何が課 題なのかの考察を深めることを目的とする。 2

3.

本資料のポイント(+目次) 1. エージェントAIシステムの状況把握が求められている 1 エージェントAIシステムの解説 生成AIとエージェントAIの相違 エージェントAIシステムへの期待と課題、など 前半 1. マルチエージェントAIシステムのデータに基づく分析が 2 求められている マルチエージェントAIシステムのデー タに基づく分析解説 成功・失敗率の特定や障害の分類 エージェントAIシステムの評価、など 後半 3 2. エージェントAIシステムへの今後の取組み 3

4.

1 前半 エージェントAIシステムの解説 5つの質問 1. 生成AIとエージェントAIの主要な違いは何か? 2. 生成AIからエージェントAIに関心が移動しているの は何故か? 3. エージェントAIシステムを実現するアイディアはど のようなものか? 4. この狙いは適切に実現できそうか? 5. 当面はどのような取組みが適切か? 4

5.

質問1:生成AIとエージェントAIの違いは何か? 生成AIとエージェントAIとの比較 出発点として生成AIとエージェントAIの違いを明確に理解することが重要である。 生成 AI: 創造性の原動力 • 生成 AI は「創造」がすべて • テキスト、画像、音楽、コード、さらにはビデオなどのコンテンツを生成す るように設計されている。 • 核心は、既存のデータから学習し、その知識を使用して、人間の創造性を模 倣した新しいオリジナルの出力を生成することである。 エージェント AI: 自律的な問題解決者 • エージェント AI は「実行」がすべて • 特定の目標を達成するために自律的に行動するように設計されている。 • 核心は、意思決定を行い、行動を起こし、変化する環境に適応することである。 5

6.

質問2:生成AIからエージェントAIに関心が移動しているのは何故か? 生成AIの問題点の明確化 生成AIの何が問題なのかを「ストーリー」で考える。 家族旅行:機械が夢を見、人間が働く時 • 今がギリシャへの家族旅行を計画する絶好の時だと思った。 • A氏はChatGPTを開き「4人家族でギリシャを2週間旅行するプランを見せ て」と入力した。 • 子供たちがギリシャ神話に興味を持っていることなども追加した。 • AIは数秒のうちに傑作を作り上げた。【隠れた名所、地元の体験、彼の家 族に合わせた細やかな配慮、完璧に練り上げられた旅程】 • 【1日目~3日目:アテネ。混雑を避けるため、早朝にアクロポリスから出 発しましょう。お子様はアクロポリス博物館のインタラクティブな展示に夢 中になるでしょう…魅力的なプラカ地区にある家族経営のタベルナ・プラタ ノスでランチ。中庭はジャスミンの香りで満たされています…】 • A氏が1時間ごとの詳細を尋ねると、AIは驚くほど正確に応え、最適な写真 撮影スポットや完璧な休憩時間も教えてくれた。 6

7.

生成AIの問題点の明確化(続) しかし、その後に地獄を迎える • 「魅力的な家族経営」のホテル? ・・永久に閉店? • 「隠れたビーチ」?・・地図上ではどこにも見当たらない。 • 伝統的な料理教室?・・6ヶ月間予約でいっぱい。 • A氏のデスクトップはまるで犯罪の捜査現場のようになった。 • ブラウザのタブが何十枚も開き、フライトの選択肢を追跡するスプレッドシートがいくつ も並び、ホテルの部屋のスクリーンショットや旅行会社からのPDFが貼られ・・ • 空室状況の確認、価格の比較、AIが描いた完璧な空想を予約可能な形に変え る終わりのない作業・・ 何が起きているのか? • 人間が「AIがやってくれると思っていた面倒な作業に何時間も費やしてしま う」ことになった。 • こんなはずではなかった。まるで我々は人間をロボットのように、AIをクリ エイティブな人材のように扱っている。 • これは想定とは逆だ。今こそ、この状況を逆転させなれればならない。 7

8.

質問3:エージェントAIシステムを実現するアイディアはどのようなものか? 前述の問題を解決するためのアイディア 従来型エージェントシステムのエンジンをLLMに入れ替 えてエージェントAIシステムに行動までやってもらう 従来型エージェントシステム エージェントAIシステム 深刻なリスクにさらさ れない高度に管理され た環境での行動にのみ 限定されていた。 エージェントAIが相互に作用し 適応することで、AI自身が行動 を起こし、変化する環境に適応 してもらう環境への移行を行う。 • 即ち、高度に管理されたルールベースの従来型エージェントシステムから、・・ • リアルタイムデータ、あるいは過去のトレンドに基づいて、予期せぬ変化に戦略的か つ動的に対応するエージェントAIシステムへ移行する。 8

9.

アイディア実現に必要なエージェントAIシステムの構成 このようなシステムはLLM、メモリー、ツールの3要素で構成する必要がある。 他の世界 OS インターネット APIサーバー ハードウェア 物理世界 エージェントAI ツール API Doc/ フィードバック メモリー ウェブAPI アプリケーション シェル データベース 生成 実行 更新 内臓RAMデータ SQL ベクトルDB 行動 • タスクを動的に分解し、コンテキストを共有し、長期に渡って高レベルの目標を追求する。 9

10.

一般には要求の高度化に伴いシングルエージェン トからマルチエージェントAIシステムに移行する エージェントAIシステム (エージェント型AI) AIエージェント 感知 アーキテク チャの進化 専門エージェ ント群 高度な推論と 計画 マルチエージェン トコラボレーショ ン タスク分解 推論 持続メモリ 行動 オーケストレーション システム調整 共有コンテキスト シングル(あるいは特定種)タスクを 実行するAIエージェント マルチエージェントによる協調型の エージェントAIシステム 10

11.

質問4:この狙いは適切に実現できそうか? エージェント AI に対する生成 AI の限界 • しかし、生成 AI は元来がエージェント AI の要求に合わせて設計されていない。 • その結果、下記のような問題が発生する。 1. 真の自律性の欠如: 生成 AIはトレーニング データに大きく依存し ており、データのバイアスや制限に縛られている。エージェント AIの基盤となる真の意味での理解や自律性はない。 2. 意思決定の不備: 生成 AI はもっともらしい出力を作成することに は優れているが、堅牢な推論能力が不充分なので、長期的一貫性 を維持しつつ動的環境に適応する意思決定能力が足りない。 11

12.

1. 3. スケーラビリティと制御:生成AIは計算コストが高く制御が困難な ので、特定エージェントアプリに合わせて微調整して行動しても、 多くの場合予測不可能な結果が生じ、信頼性が損なわれるリスク がある。 4. 2. 倫理的およびセキュリティ上の懸念:生成 AI の確率的性質は変わ らないので、誤解を招くコンテンツや有害なコンテンツ作成のリ スクは残る。一か八かのシナリオを実行する訳には行かない。 3. 証拠の欠如: 生成 AI がエージェント AI のコンテキストで一貫して 5. 期待どおりに機能できることを示す経験的証拠はない。ケースス タディは逸話的なものであることが多く、長期的な存続には対応 できない。 12

13.

現行のエージェント AIシステムに欠けているもの ・結局、生成 AI の現在の機能を超えてテクノロジーを進化させなければならない。 ・ 項目としては次の例などが挙げられる。 1. 説明可能性と透明性: エージェントAIは、理解できる言葉で自 分の行動を正当化できなければならない。 2. 堅牢なコンテキスト理解: システムは、表面レベルのパターン 認識を超えた、より深いコンテキスト認識が必要である。 3. 効率的な学習メカニズム: エージェントAIは、大量の計算リ ソースや再トレーニングを必要とせずにリアルタイムに適応 する必要がある。 4. 安全性と信頼性: 複雑で構造化されていない環境において、予 測可能で倫理的な行動を確保できる必要がある。 13

14.

質問5:当面はどのような取組みが適切か? 完全自律型エージェントAIシステムの危険性 当面は、下記のような課題が存在するので完全自律化は避けた方が良い。 システムの不正確性 • 不正確さが不適切なツール選択に伝播する。連鎖的エラーは無関係な結果のリ スクを増大させる。結果、人間の目標とは異なる結果を生み出す可能性がある。 システムの非一貫性 • 結果に固有のばらつきが発生し、見過ごされる不一致が安全性の問題を惹起さ せる。結果、公平性と矛盾する可能性がある。 プライバシー侵害 • エージェントAIがユーザーに代わってパーソナライズされた方法で行動する ために発生するリスクが増大する。 安全性・セキュリティ • 一見安全に見える個々の操作が有害な方法で組み合わさり、防止が困難な新た なリスクが生じる。 虚偽情報の拡散 • 真実と虚偽に関する誤った認識を与え、人々の信念を操作し、合意のない親 密なコンテンツの影響を拡大させる可能性がある。 14

15.

エージェントAIシステムの解説(まとめ) • 生成AIにおける最近のブレークスルー(推論能力の強化など)は 新たなエージェントAIシステムの扉を拓いた。 • そして、従来型エージェントシステムは存在していたので、複 雑なプロセスを自動化する方法、既存のシステムと統合する方 法などについては一定の経験を積んでいたはずだった。 • しかし、エージェントAIシステムの導入は、これらの経験では 全く対応できない新たな課題を突きつけている。 • そこで、もう少し実態を把握するため、実際のデータに基づく 分析を後半 後半 で示す。 15

16.

2 後半 マルチエージェントAIシステムのデータに基づく分析 データに基づく分析の背景 • LLMに基づくエージェントAIシステムは、現実世界の問題により適確に対 応してくれるのではないかと期待を集めている。 • このような期待が登場するのは、多様な環境と動的に相互作用しながら複 雑なタスクを多段階で処理する能力が評価されているからである。 • 特に、マルチエージェントAIシステム(MAS:Multi Agent AI(LLMベース) System)はオーケストレーションを通じて相互作用し集合知を可能にする エージェントの集合体として、期待が高い。 • しかし、MASのパフォーマンス向上はシングルエージェントAIシステムと 比較しても遅いと見られている。 • 何故このような状況が発生するのか? • 後半では、これを可視化するため、MASの成功・失敗率判定から出発する。 16

17.

MASの成功・失敗率の判定法 【調査手法】 • GPT-4o、Claude-3を用いたオープンソースベースMASを6個選択 した。 • 別途、6人の熟練した人間アノテーターを採用し、彼らのスキルを 使用して選択した6個のMASの実行トレースを体系的に実施した。 • 具体的には、さまざまなタスクから抽出した200以上の会話トレース(平 均して15,000行以上のテキスト)を詳細に分析した。 • そして、「成功・失敗」を「MASが意図したタスク目標を達成でき たかどうか」を基準に判定した。 • 6個のMASの成功・失敗率を次頁に示す。 17

18.

現行MASはまだまだ成熟していない ・失敗率は、なんと最高で87%、最低で41%、であった。 MetaGPT (ProgramDev) 40.0% 60.0% ChatDev (ProgramDev) 33.3% 66.7% HyperAgent (SWE-Bench Lite) AppWorld (Test-C) AG2 (OlympiadBench) Magentic-One (GAIA) • 失敗原因を突きとめるため、 ①: 3つの障害カテゴリー(タイ プ1, 2, 3) 74.7% 25.3% 13. 3% ②: 14件の障害モードを設けた。 86.7% 59.0% 38.0% 41.0% 62.0% 成功 • 障害分類結果と各MASの評 価結果を以降に示す。 失敗 AppWorld, HyperAgent, AG2, ChatDev, MetaGPT, Magentic-OneはMASの名称(次頁表参照) Test-C, SWE-Bench Lite, OlympiadBench, ProgramDev, GAIAは使用されたベンチマーク名(次々頁表参照) 18

19.

選択した6個のMASの概要 MAS アーキテクチャ システムの目的 星形のトポロジー 日常的タスクに対応するユーティリティサービス (例: G-Mail、Spotify など) に特化してAPIを介してツールを呼び出すエージェント。サービス間タスクを 達成するために独自のプログラム評価を行い、タスク完了の工夫をしている。 HyperAgent 階層型ワークフロー 開発者(人間)のワークフローをエミュレートすることで、複数のプログラミ ング言語にまたがる幅広いタスクに対応するマルチエージェントAIシステム。 プランナー、ナビゲーター、コードエディター、エグゼキューターという4つ の専用エージェントで構成され、SEのライフサイクル全体を管理する。 AG2 N/A – (エージェント フレームワーク) エージェントのインタラクションを管理するためのプログラミングフレーム ワーク ChatDev 階層型ワークフロー 仮想的なソフトウェアエンジニアリング会社として、ユーザーの指示に従っ て、ソフトウェア設計、コード生成、QAなどのソフトウェアエンジニアリン グフェーズタスクをシミュレートする。 MetaGPT 組立ライン ソフトウェア企業におけるさまざまな役割のSOP(標準作業手順)をシミュ レートし、オープンエンドのソフトウェアアプリケーションを作成する。 MagenticOne 星形のトポロジー 様々な Web およびファイルベースの環境に関連する複雑でオープンエンドの タスクを自律的に解決するように設計された汎用マルチエージェントシステ ム OpenManus 階層的 現実世界のタスクを解決する協調型AIエージェントの開発を容易にするため に設計されたマルチエージェントフレームワーク AppWorld 19

20.

MAS評価に使用されたベンチマーク ベンチマーク 領域 一般性のレベル 説明 Test-C プログラミング関連 タスク固有 プログラムやシステムが特定のタスクをどれだけ 速く、効率的に実行できるかを測定する。 SWE-Bench Lite プログラミング タスク固有 ソフトウェアエンジニアリングの問題解決におけ るエージェントの精度を測定する。 OlympiadBench オリンピックレベルの数 学や物理学などの問題の 対応 ProgramDev GAIA* プログラミング周辺全体 汎用 特定問題固有 タスク固有 完全に一般的 人間の専門家の熟練度を超えたレベルの問題に対 してその高度な能力を測定する。 ソフトウェア設計、環境構築、実装、受け入れテ スト、単体テストなど、ソフトウェア開発ライフ サイクルの様々な段階にわたってLLMを包括的に 評価する。 さまざまな基本的な能力とツールの使用を必要と する一般的な一連の質問に対するエージェントの 精度を測定する。 *: GAIAのみが汎用AIアシスタント向けのベンチマークであった。 GAIA以外は従来型あるいはLLM向けのベンチマークであった。 20

21.

MASの障害カテゴリーと障害モード エージェント間会話の段階 実行中 実行前 障害モード 障害カテゴリー タイプ1 実行後 構成比率 1.1タスク要件の遵守の失敗 1.2エージェントの役割の遵守の失敗 仕様に関する問題 (システム設計) 1.3固定されたステップの繰り返し 1.4コンテンツの喪失 1.5タスク完了の認識の失敗 2.1予期しない会話のリセット タイプ2 2.2説明を求める代わりに誤った仮定に基づいて進行 エージェント間の不整合に 関する問題 (エージェント間の調整) 2.3 タスクの脱線 2.4重要な情報の隠蔽 2.5他のエージェントからの入力の無視 2.6 推論と行動の不一致 タイプ3 タスク検証に関する問題 (品質管理) 3.1 早期の終了 3.2 検証なしまたは不完全 3.3 誤った検証 21

22.

MAS障害の障害カテゴリー毎の説明 • タイプ1:仕様に関する問題 • 障害はシステム設計上の決定および不充分性または曖昧なプロンプト仕様に起 因していると考えられる。 • タイプ2:エージェント間の不整合に関する問題 • 障害は実行中のエージェント間の相互作用と調整の不具合によって発生してい ると考えられる。 • このタイプの失敗の診断は非常に複雑になる可能性がある。 • 何故なら、異なる根本原因が類似した表層的動作を引き起こす場合があるから である。 • 例:情報の欠落は、情報隠蔽(2.4)、入力無視(2.5)などの他に、コンテンツの喪失(1.4)などによっても 発生する。 • タイプ3:タスク検証に関する問題 • 障害にはエラーを検出または修正できない不適切な検証プロセスに起因してい ると考えられる。 22

23.

MAS障害モードに基づくMASの評価 6個のMASについて各障害モードがどのように分布しているかを示す。 1.3固定されたステップの繰り返し 仕様に関する問題 エージェント間の不整合 に関する問題 タスク検証に関する問題 1.5タスク完了の認識の失敗 3.2 検証なしまたは不完全 失敗回数 3.1 早期の終了 1.1タスク要件の遵守の失敗 MAS障害モード 23

24.

各MASの障害特性の説明 タイプ1関係 • 固定されたステップの繰り返し(1.3)やタスク完了の認識の失敗(1.5) が多いが、タスク要件の遵守の失敗(1.1)が目立つものもある(AG2)。 タイプ2関係 • 重要な情報の隠蔽(2.4)や推論と行動の不一致(2.6)が多いが、その他の要 因もほどほどに多い。 タイプ3関係 • 早期の終了(3.1)と検証なしまたは不完全(3.2)が特に多い。全体では 21.3%と他タイプよりは少ないがそれでも大きな比重を占める。 MAS名 障害特性 AppWorld 早期終了(3.1)に特に悩まされている。これが失敗率86.7%の大きな理由になっている。 HyperAgent 推論と行動の不一致(2.6)が多い。また、エージェント間の不整合に関する問題(2.関連)の合計が最も多い。 AG2 タスク要件の遵守の失敗(1.1)が目立つ。(1., 2.関連)は中くらいだが(3.関連)は高い。 ChatDev (1.関連)は中くらいだが(2, 3.関連)は最も低い。それにも関わらず失敗率は67%と結構高い。 MetaGPT 検証なしまたは不完全(3.2)が最も高い。(1., 2.関連)は下から2番目くらいに低いが失敗率は60%とまだ高い。 Magentic-One 早期終了(3.1)が2番目に高い。(1., 2.関連)は上から3番目くらいと比較的高い。失敗率も60%とまだ高い。 OpenManus ステップ繰り返し(1.3)に特に悩まされている。また、仕様に関する問題(1.関連)の合計が最も多い。 24

25.

MASの障害傾向の分析 • 6個のMASは障害モードの傾向がかなりバラついている。 • 3カテゴリーはいづれも基本的なことばかりだが、ほぼどのカテゴ リーも大きな比重を占めており、根本的レベルで成熟度不充分と判断 される。 • これは、全体的に問題の原因が現状でも絞り込めていないことを示唆 する。 • 前半 質問4 などで想定した傾向が各MASで多様な形態で登場していることを 推測させる。 • これは、改善するための道筋が明確には見えていないことを予想させ るので、成熟までにはそれなりの時間が掛かると思われる。 25

26.

正確性(精度)を超えた未解決の問題点 • ここまでは主として目標達成の精度に焦点を当ててきた。 • しかし、精度に過度に焦点を当てると次のような問題が生じる。 • 精度向上のみに重点を置いたエージェントAIシステムの構成や設計 • その結果、不必要に複雑化 • その結果、不必要に高コスト化 • これらの課題を緩和するには、精度、コストの両指標を共同で (同時に)最適化するような目標設定が必要になる。 26

27.

正確性(精度)を超えた未解決の問題点(続) • これらに取組むための検討事項としては下記などがある。 1. モデル開発用ベンチマークとそれ以外(システム全体など)のベンチ マークを明確に分離する。 • 現状は両者が混同、あるいはモデル開発用ベンチマークのみを使用しているケー スが多い。 2. 学習用データと検証用データを明確に分離して分析する。 3. 現状のベンチマークに過剰に適応あるいは過学習することで間違いに 陥ることを防ぐため、新たに、適切な評価手法の開発とそれとセット のベンチマークの標準化が求められる。 27

28.

マルチエージェントAIシステムのデータに基づく分析(まとめ) • エージェントの評価は言語モデルの評価と根本的に異なる。 • エージェントは、より一般的、現実的、実用的、あるいは通常は単一の正解を 持たないタスクに使用される。 • エージェントは単一モデルの呼び出しよりも遥かに多くのコストがかかること がある。従って実行コストの制限を付与(レベル設定など)する必要がある場合 がある。 • そのため、エージェントの評価には次のような考慮も必要である。 • コスト管理の導入 • 精度と推定コストの2指標を共同で最適化 • モデル開発者と下流開発者で異なるベンチマークを設定 • エージェントの一般性に複数のレベルを設定し、それを選択することで目的に 応じた過剰適応回避の手段を提供 • エージェント評価の再現性を保証するための評価の標準化 28

29.

3 エージェントAIシステムへの今後の取組み 改めて、生成AIとエージェントAIの関係性を考えてみる。 生成 AIとエージェント AI • 生成 AI は新しいものを生み出す(創造)のに対し、エージェント AI は特定のものを達成する行動を行う。 • 生成 AI は静的あるいは瞬発的であるのに対し、エージェント AI は動的で、環境から学習し、それに応じた行動を行う。 • 結果、重要な違いに目的の複雑性が生じる。 • 生成 AI は狭く明確に定義されたタスクに取り組むのに対し、 エージェント AI は、継続的な意思決定と適応を要するより広範 で多段階の目標に取り組む。 29

30.

両者は交差し、互いに補完し合える関係に到達するのか? • 生成 AI とエージェント AI は相互に排他的ではなく、実際、しばし ば強力な方法で協力し合う場合もある。 • 両者の違いを正確に理解すれば、社会が AI の倫理的、社会的、経済 的影響を乗り越えるのに役立つ。 • 自律性の境界と目標の整合性は、エージェントAI システムを設計お よび運用する際に特に重要である。 • 自律性の限界を明確に定義し、AI の目標が人間の価値観と一致して いることを確認できれば、責任を持って対処できる。 • しかし、現状はまだこのような段階には到達していない。 • 今後、一層発展して、創造と行動がシームレスに統合して来れば、 両者間の境界が徐々に曖昧になり、新たなシステムが生まれてくる ものと思われる。 30

31.

今後の取組みに向けて • 検討のメインルートを明確化することが必要である。 • それには検討の方向性の絞り込みも必要であり、エージェントAIシステム のプロフィール明確化も要る(下記に例示)。 • 自律性のレベル • マルチエージェントシステムのレベル(エージェント数、ランク付け、など) • 目標の一貫性の達成要件 • 目標達成とコスト要件のカテゴリー分け、など • これらを実践するためのベンチマークの詳細化も重要である(下記に例示)。 • 要件に対応したベンチマークの多様化 • ベンチマーク実践のための検証ツールの整備 • 検証用データを整備するための施策、など • これらの検討と並走する例として、生成 AIとエージェント AI両者の補完関 係構築に向けた時間軸と分類軸の例を以降に示す。 31

32.

エージェントAIシステムの展開(時間軸) 本稿の考察に基づいたタイムスケジュールの例を示す。 黎明期 エージェント AIサービスの展開 構築期 アイディアの創出 • 生成AIとエージェン トシステムを統合 • エージェントシステム のエンジンをLLMに 入れ替え 行動を伴う 複雑な目標の追求へ 生成AIの成熟化と展開 生成AIの適応限界拡大 生成AIの進化 • DeepSeek他による 変化 高度化、廉価 化、オープンソース化、民 主化のパラダイムへ 活用期 要素機能の進化 ・推論機能の強化ほか エージェントモデルの類 型化 次頁参照 エージェント間通信の充実 ・MCPなど 各分野対応の充実化 ・先端的事例の吸収 ベンチマークの充実 ・GAIAなど 障害分類法の充実 ・障害モードの特定など 評価尺度の充実 ・モデル能力の評価 ・コスト評価との統一評価 基本問題への対処の充実 ・セキュリティ ・プライバシー ・安全性 ・一貫性 社会問題への対応 ・雇用問題への取組み 企業団体向け対応 ・組織変革 ・ガバナンス ・生産性向上など 32

33.

エージェントAIの類型化(分類軸) • MAS採用を考える場合、エージェントAIシステムの類型化も有効である。 • 成功事例の登場による類型の詳細化や見直しなども適切に行う必要がある。 名称 単純な反射エージェン ト モデルベースの反射 エージェント ゴールベースのエー ジェント 効用ベースのエージェ ント 内容 • 事前に定義されたルールと即時データに厳密に基づいて動作する。 サーモスタット制御、特定 特定のイベント条件アクションルールを超える状況には応答しない。 キーワード検出でパスワー ドリセット、など • 特定のルールに従うのでなく、起こりそうな結果と影響を評価し、 裏付けとなるデータを利用して、認識している世界の内部モデルを 構築し、それを意思決定に活用する。 ナビゲーション、推奨シス テム、観測可能な症状から の診断システム、など • 推論機能を活用して、環境データを評価するだけでなく、さまざま なアプローチを比較して、望ましい結果を達成できるように動作す る。 自然言語処理 (NLP) やロ ボット工学アプリなど複雑 なタスクの実行 • さまざまなシナリオとそれぞれの効用価値や利点を比較し、ユー ザーに最も多くの報酬を与えるものを選択して実行する。複数の目 標が衝突する場合や不確実性下での微妙な意思決定に有用である。 金融取引システム、複数の 好みを最適化する旅行計画 アシスタント、など • 過去の経験から継続的に学習し、結果を改善する。経験を通じて特 定の基準を満たすように学習要素を経時的に適応させて動作する。 相互作用履歴から学習する チャット, フィードバックで 改善する推奨システム, 等 • 複雑なタスクを小さなタスクに分解し下位に割り当てる。各自は独 立して動作する。上位エージェントは結果を収集し、集合的に目標 を達成できるように調整する。 複雑なワークフロー管理、 企業オートメーションプ ラットフォーム、など 学習エージェント 階層型エージェント 事例 33

34.

最終まとめ 1. エージェントAIシステムのデータに基づく分析が登場し出だした。 2. MAS失敗率の算定や失敗の原因の障害モード分類などが提示された。 3. 結果は、MASは、単に開発が困難なだけでなく、それ以降の運用において も、目標の一貫性の保持など多くの課題があることが示された。 4. それにもかかわらず、生成AIからエージェントAIへの移行は確実に進み、 エージェントAI時代の到来はますます確実なものになろうとしている。 5. この状況は、リスクは多いものの、ある企業が特定分野でエージェントAI 活用に先行し確実に生産性向上を達成したら、同業他社への競争優位性が 確立されるのではないかとの認識の存在も予想させる。 6. このようなことが想定されるので、多くの企業は組織改革などまで含めて エージェントAIへの取組み開始を検討せざるを得ないのだろう。 7. 自らのビジョン再考まで含めて戦略的検討が求められている。 34

35.

編集後記 • 今回はMert Cemri et al. 論文「何故マルチエージェントAIシステムは失 敗するのか?」を中心にしてまとめてみた。 • この種の研究は市場からのニーズが極めて高いようである。それに答え る意気込みで、著者は実作業者6名に加えて、UC, Berkeleyの教授連が 5名も共著者に名前を連ねていた(右写真は教授達)。 • それにも関わらず、論文の内容はそれほど画期的なものでも無かった。 実データに基づく障害モード特定、障害分類法の提示などはあったが。 • と言うことは、この種の研究は初歩段階で、そもそもこの種の研究は難 しいのだろうなという印象を持った。 • このような認識の下に、それ以外の分野(前半やまとめ)は、本論文と 整合が取れそうな内容を探索して、全体を物語風にまとめてみた。 • エージェントAIシステム、なかんずくMASの開発は、組織変革や社会 課題(雇用ほか)対応も含め、長期間続いていくものと思われる。 • 幅広い対応への認識を適切に持ち、着実に対応して行けたらと思う。 UC, Berkeley教授 Kurt Keutzer UC, Berkeley教授 Kannan Ramchandran UC, Berkeley教授 Matei Zaharia UC, Berkeley教授 Joseph E. Gonzalez UC, Berkeley教授 Ion Stoica 35

36.

文献 前半 後半 36