184 Views
May 01, 25
スライド概要
◾️ 3/26開催 LLMATCH [Season1] 最終成果発表会
2024年12月にスタートしたLLMATCHでは、約4ヶ月にわたり30名の学生がLLMの研究開発に挑戦し、最先端の研究に取り組みました。3/26にオンラインにて、 “LLMATCH [Season1]” の最終成果発表会を行いました。
▼発表者
・石田憲太郎 「診療録からの構造化抽出〜自由記載データからの効率的な情報検索システムを目指して〜」
・渡辺悠介 「問診AI- 再現性の高いドメイン特化LLMの提案」
・吉田馨「ロボコンに向けたバスケットボールシミュレーションの分析と戦略の生成〜紆余曲折」
・tom11111111 「Gemini-2.0-Flash-Thinkingを用いたLLMエージェントによるマインクラフト建築」
▼発表資料はこちら
https://www.docswell.com/user/matsuo-lab_llm
▼発表動画はこちら
https://youtu.be/7Ik3LTcdks0
----
◾️ LLMATCHとは
「LLMATCH」という名称は、“Large Language Model Advanced Training & Challenging Hub” に由来し、学生の皆さんが持つLLM(大規模言語モデル)に関するアイデアを、研究として発展させることを目的としたプログラムです。
本プログラムでは、東京大学 松尾・岩澤研究室の研究員が、最大1年を目安に、参加者一人ひとりの関心やスキルに応じて、次のキャリアや挑戦につながる支援を行っています。
また、研究メンバーの活動を支える「アシスタント」ポジションも設けており、学生・社会人を問わず、コミュニティの一員として研究の進行をサポートしてくださる方を広く募集しています。
▼LLMATCHへの参加方法:
下記のリンクから「松尾研LLMコミュニティ」 Slackに入り、# llmatch_01_general チャンネルよりご参加ください。
https://linktr.ee/matsuolab_community
----
東京大学松尾・研究室が運営する「松尾研LLMコミュニティ」でのイベント資料などを公開します。 ◾️ 松尾研LLMコミュニティとは 松尾研LLMコミュニティは、「大規模言語モデルについて知って学べるオンライン空間」として、東京大学松尾・岩澤研究室が運営するコミュニティです。 現在、学生を中心とした7800名以上が、原則無償で参加しています。 また、本コミュニティでは様々なイベント等を定期的に開催しております。 是非下記のリンクより参加申し込みをお待ちしております。 ◾️ 松尾研LLMコミュニティの各種リンク ・今後のイベント開催情報/参加申込;https://tr.ee/7d_W4DsImD ・松尾研LLMコミュニティ参加フォーム;https://tr.ee/RyDfuRzS55 ・過去イベントアーカイブ;https://tr.ee/wqdbFJJZ25
ロボコンに向けたバスケットボールシミュレーション の分析と戦略の⽣成〜紆余曲折 ppj-05世界モデル 吉⽥馨 1
ロボコンに向けたバスケットボールシミュレーション の分析と戦略の⽣成〜紆余曲折 ppj-05世界モデル 吉⽥馨 2
背景‧⽬的 私が所属するロボコンサークルで、2対2の「ロボットバスケットボール」がテー マのNHKロボコン(6/8)に参加することがきっかけ。 LLMが⾔語を通して世界モデルを構築しているというアイデアを活かして、バス ケットボールの環境でLLMがどの程度状況を理解し、どんな戦略をたてるのかを 明らかにする。 3
取り組み エージェント リアルタイムでの 戦略判断 アナライザー&コーチ アナライザー&コーチ 強化学習を分析 1シーンを分析 4
1.エージェントとしてのLLM(リアルタイム戦略判断) 【⼿法】 LLM 「リアルタイム」 + 「⾃律的に判断できる」 + 「ロボットに搭載する」 プロンプト 移動先座標 座標‧センサ情報等 Agent (13, -5) 5
1.エージェントとしてのLLM(リアルタイム戦略判断) ● ● LLMとリアルタイムの不適合性(出⼒に根拠がない、正確でない) GPUをのせるハードウェアの問題 【プロンプト】 あなたはロボットバスケットボールのコーチです。 試合中に選⼿に指⽰を出す役割を担っています。 1. ⼊⼒として与えられたJSONファイルを解析し、 選⼿の位置、味⽅の位置、敵の位置、ボールの位置 を特定します。 2. ⾃分の機体がボールを持っている場合、次の⾏動 を決定します。移動するべきか、味⽅にパスをする べきかを判断してください。 3. 移動する場合は、⽬的の座標を具体的に指⽰して ください。味⽅にパスをする場合は、その旨を簡潔 に伝えてください。 4. 出⼒は簡潔で明確にし、余計なフォーマットを含 めないようにしてください。 【回答】 ● “ボールをid2にパス” ● “ボールを保持: いない\n移動: なし\nパス: id2へ” ● “敵陣に向かって移動” ● "⾃機へ: id1\n\n移動: x: 43, z: -143” ● ”id2にパスする” ● ”⾒⽅にパス” ● ”前進50” ● "移動: x = 50, z = -200” ※根拠がない、正確でない回答 6
2.アナライザー&コーチとしてのLLM(強化学習+分析) 【⼿法】 +ルールブック‧プロンプト 強化学習 分析と改善案 Gemini 1.5 Pro 録画 Agent ML-Agent 7
2.アナライザー&コーチとしてのLLM(強化学習+分析) UnityでML-Agentsを使い、バスケットボールの観察‧⾏動‧報酬を設計して学習させた ● 強化学習の過程では、LLMによってルールブックに基づいた報酬の設計ができた! 8
2.アナライザー&コーチとしてのLLM(強化学習+分析) ● ● 戦略を学ぶよりも、⾏動‧報酬などの改善点の指摘に終わってしまった 強化学習の実装に時間がかかった 【プロンプト】 添付した動画は、バスケットボー ルのシミュレーション上で強化学 習を⾏った結果です。 強化学習を ⾏った結果、エージェントがどの ような⾏動をするようになったの か、どう動けば点数につながるの かを教えてください。 不⾜する情 報やさらに必要な情報、疑問点が 有ればおしえてください。 【回答(抜粋)】 現状の課題 ● シュート精度の低さ: ゴール⽅向へのシュートはしていますが、成功率 が低い。これは、シュートの⼒加減や⾓度が固定されていること、適 切なシュートレンジを理解していないこと、そしてディフェンスの影 響がないことが原因と考えられます。 ● ドリブルの⾮効率: ● パスの⾮効率性: ● 協調性の⽋如: 改善提案 1. シュートメカニズムの改善: 2. ドリブルの改善: 3. パス戦略の改善: 4. チームワークの促進: 9
3.アナライザー&コーチとしてのLLM(分析‧戦略発案) 【⼿法】 +ルールブック‧プロンプト 1シーン 録画 Agent 1. 2. 3. 4. 試合状況 戦略分析 改善すべき点 代替戦略 Gemini 1.5 Pro 10
3.アナライザー&コーチとしてのLLM(分析‧戦略発案) 試合を想定して⼿打ちで実装した例 1. 2. 3. 4. ボールを保持したオフェンス (⾚)が相⼿陣地に⼊る オフェンスが⻘(ディフェン ス)に囲まれる もう⽚⽅のオフェンスにパス ディフェンスされながらゴー ルに向かう 11
3.アナライザー&コーチとしてのLLM(分析‧戦略発案) 【プロンプト(抜粋)】 1. 状況の説明 2. 戦略分析 3. 改善すべき点の指摘 4. 代替戦略の提案 前提条件 ● 相⼿チーム(オフェンス‧⾚チーム)の特徴: ○ どの距離からでも⾼確率でシュートを決 められる⾼精度オフェンスを持つ ● ⾃チーム(ディフェンス‧⻘チーム)の特徴: ○ ディフェンス戦略を重視している ○ 機動⼒(⾜回りの速さ)が強み 出⼒フォーマット 試合状況を考慮し、各場⾯で適切なロボットの移動経路を 以下の形式で記述してください。 動画のXX秒: ロボットAは (X=3.5, Y=2.0) から (X=4.2, Y=2.0) に移動し、XX秒で停⽌ 動画の時間とともに、各ロボットの現在位置と⽬標位置を 記述し、移動⽅向(前進‧後退‧左右‧旋回など)と停⽌ 位置‧距離‧速度を指定してください。 試合状況とルールブックに基づいて説明してください。 【回答(抜粋)】 3. 改善すべき点の指摘 ● ● 改善点1 ○ ○ ○ 改善点2 ○ ○ ○ 動画の05秒: ⻘チームのロボットDが少しゴールから離れすぎです。 理由: パスカットの意識が強すぎるあまり、⾚チームのロボットAにドリブルで突破されるリス クを⾼めています。また、仮にパスカットに成功したとしても、その後のシュートが難しくな ります 代替案: ロボットDはペイントゾーン付近に留まり、シュートブロックに備えるべきです。 動画の15秒: ⾚チームのロボットAはドリブルの回数が少なすぎます。 理由: 6.6.1 シュートを⾏うためには、ロボットはボールを保持するたびに、少なくとも1回の ドリブルを⾏う必要があります。 代替案: シュートの前に必ずドリブルを⾏うべきです。 4. 代替戦略の提案 以下、各秒数ごとにロボットの適切な移動指⽰を⽣成します。 ● 動画の03秒: ロボットCは(X=6.5, Y=2.0)から(X=5.5, Y=2.0)に移動し、ロボットAへのプレッシャーを強める ● 動画の05秒: ロボットDは(X=3.0, Y=5.0)から(X=3.0, Y=3.5)に移動し、ペイントゾーンに侵⼊するロボット へのブロックに備える ● 動画の07秒: ロボットAは(X=3.5, Y=2.0)から(X=4.2, Y=2.0)に移動し、ドリブルで⻘チームのディフェンス を突破する ● 動画の10秒: ロボットBは(X=2.0, Y=4.5)から(X=3.0, Y=5.0)へ回転しながら前進し、リバウンドに備える ● 動画の15秒: ロボットAは(X=5.0, Y=2.0)で停⽌し、シュート態勢に⼊る ● 動画の15秒: ロボットAは(X=5.0, Y=2.0)でドリブルを⾏う ● 動画の16秒: ロボットAは(X=5.0, Y=2.0)からシュートを⾏う 12
3.アナライザー&コーチとしてのLLM(分析‧戦略発案) 【結論】 ● in-context-learningを⼯夫し具体性が得られた 例)“このように試合状況を考慮し、各場⾯で適切なロボットの移動経路を以下の形式で記述してください。 ● 動画のXX秒: ロボットAは (X=3.5, Y=2.0) から (X=4.2, Y=2.0) に移動し、XX秒で停⽌ ● 動画のXX秒: ロボットBは (X=5.0, Y=6.0) で停⽌し、シュートブロック態勢に⼊る ● 動画のXX秒: ロボットCは (X=2.0, Y=4.5) から (X=3.0, Y=5.0) へ回転しながら前進 動画の時間とともに、各ロボットの現在位置と⽬標位置を記述し、移動⽅向(前進‧後退‧左右‧旋回など)と停⽌位置‧ 距離‧速度を指定してください。” ● ハルシネーションを克服した 例)“嘘はつかず、観察事実に基づいた出⼒をする”, ”動画に確認できる事実のみに基づいて記述すること” ● 具体的な戦略を出⼒するコーチが得られた 課題:⾃動化すること / 信頼度が⾼い戦略を出⼒させること 13
まとめと提案 【理想】 「リアルタイム」 + × 「⾃律的に判断できる」 + 「ロボットに搭載する」 (①) × 【問題提起】報酬の⼯夫で強化学習 できない(②) アナライザー‧コーチが得 られた(③) 【提案】②と③を組み合わせれば、 ①の理想=最初にやりたかったこと に近づけるのではないか。 14
「バスケットボール特化Agentの開発」 【提案⼿法】 ①ローカルLLM(Gemma3 or Qwen2.5-VL)がバスケ の知識を⾝につける ① ②Unityで未熟なAI Agentがバスケットボールの試合 を⾏う ③ ④ ② ③ローカルLLMがAgentにフィードバック(代替戦 略‧改善点)を提供すると同時に、JSON形式で 蓄積しファインチューニング ④Agentがそのフィードバックをもとに⾏動修正 ⑤ ⑤ML-Agentの学習(バスケ特化Agentの成⻑) 15
「バスケットボール特化Agentの開発」 現在: ファインチューニングを除いた⼀連の流れを Qwen2.5-VLで実装済み 【今後の課題】 ● ● 信頼度が⾼い戦略を出⼒させること LLMからの指令をML-Agentsからの指令 より優先させるコードの書き⽅ 16
「バスケットボール特化Agentの開発」 【社会的意義】 ⾃律的に学び⾏動するAgentは⽣活空間や宇宙空間など 様々な領域に活⽤できる。 計画変更 LLM 視覚情報 環境の変化をLLMにフィードバックすることで計画を 変更し、これを強化学習モデルが学習することによっ て、ただ探索するよりはやく環境に適応できるように なる。 17