LLMATCH最終成果報告_tom11111111

671 Views

May 01, 25

#松尾研llmコミュニティ #llmatch #llmエージェント #LLM #マインクラフト #建築 #Gemini #Creative Agents

スライド概要

◾️ 3/26開催 LLMATCH [Season1] 最終成果発表会
2024年12月にスタートしたLLMATCHでは、約4ヶ月にわたり30名の学生がLLMの研究開発に挑戦し、最先端の研究に取り組みました。3/26にオンラインにて、 “LLMATCH [Season1]” の最終成果発表会を行いました。

▼発表者
・石田憲太郎「診療録からの構造化抽出〜自由記載データからの効率的な情報検索システムを目指して〜」
・渡辺悠介「問診AI- 再現性の高いドメイン特化LLMの提案」
・吉田馨「ロボコンに向けたバスケットボールシミュレーションの分析と戦略の生成〜紆余曲折」
・tom11111111 「Gemini-2.0-Flash-Thinkingを用いたLLMエージェントによるマインクラフト建築」

▼発表資料はこちら
https://www.docswell.com/user/matsuo-lab_llm

▼発表動画はこちら
https://youtu.be/7Ik3LTcdks0

----
◾️ LLMATCHとは
「LLMATCH」という名称は、“Large Language Model Advanced Training & Challenging Hub” に由来し、学生の皆さんが持つLLM（大規模言語モデル）に関するアイデアを、研究として発展させることを目的としたプログラムです。
本プログラムでは、東京大学松尾・岩澤研究室の研究員が、最大1年を目安に、参加者一人ひとりの関心やスキルに応じて、次のキャリアや挑戦につながる支援を行っています。
また、研究メンバーの活動を支える「アシスタント」ポジションも設けており、学生・社会人を問わず、コミュニティの一員として研究の進行をサポートしてくださる方を広く募集しています。

▼LLMATCHへの参加方法：
下記のリンクから「松尾研LLMコミュニティ」 Slackに入り、# llmatch_01_general チャンネルよりご参加ください。
https://linktr.ee/matsuolab_community
----

松尾研LLMコミュニティ

@matsuo-lab_llm

スライド一覧

東京大学松尾・研究室が運営する「松尾研LLMコミュニティ」でのイベント資料などを公開します。 ◾️ 松尾研LLMコミュニティとは松尾研LLMコミュニティは、「大規模言語モデルについて知って学べるオンライン空間」として、東京大学松尾・岩澤研究室が運営するコミュニティです。現在、学生を中心とした7800名以上が、原則無償で参加しています。また、本コミュニティでは様々なイベント等を定期的に開催しております。是非下記のリンクより参加申し込みをお待ちしております。 ◾️ 松尾研LLMコミュニティの各種リンク・今後のイベント開催情報/参加申込；https://tr.ee/7d_W4DsImD ・松尾研LLMコミュニティ参加フォーム；https://tr.ee/RyDfuRzS55 ・過去イベントアーカイブ；https://tr.ee/wqdbFJJZ25

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

2024Fall 大規模言語モデル(LLM)講座特別回：LLMの自己修正〜OpenAI o1 の関連研究〜

松尾研LLMコミュニティ 17.6K

松尾研LLM開発プロジェクト “Tanuki” 開発報告会 Vol.1

松尾研LLMコミュニティ 13.9K

松尾研LLM開発プロジェクト “Tanuki” 開発報告会 Vol.3

松尾研LLMコミュニティ 6.7K

松尾研LLM開発プロジェクト “Tanuki” 開発報告会 Vol.2

松尾研LLMコミュニティ 3.5K

LLMATCH [Season1] 最終成果報告_渡辺悠介

松尾研llmコミュニティ llmatch 医療

松尾研LLMコミュニティ 1K

LLMATCH [Season1] 最終成果報告_石田憲太郎

松尾研llmコミュニティ llmatch 医療

松尾研LLMコミュニティ 874

各ページのテキスト

Gemini-2.0-Flash-Thinkingを⽤いた LLMエージェントによるマインクラフト建築 tom11111111 1

Gemini-2.0-Flash-Thinkingを⽤いた LLMエージェントによるマインクラフト建築 tom11111111 2

pj-05(世界モデル) マイクラ建築タスクへのLLMの応用サバイバルタスク(アイテム収集) tom11111111 クリエイティブタスク(建築) https://arxiv.org/abs/2305.16291 ・LLMの事前知識に依存・シンプルなスキルのみ移動・探索インタラクション収集・クオリティが低い・性能向上のために有効な⼿法はまだ確⽴されていない⽬的 : マイクラエージェントを⽤いた建築タスクの性能向上 3

https://arxiv.org/abs/2305.16291

Voyager*(2023) GPT-4 Botを動かすためのJavascriptコードを⽣成 • https://github.com/MineDojo/Voyager 4

https://github.com/MineDojo/Voyager

LLMエージェントでやる必要があるのか最もシンプルな⽣成⽅法として 3Dモデル⽣成 + ボクセル化 https://www.meshy.ai/ja https://blendermarket.com/products/blockblender-2 https://www.tripo3d.ai/ https://objtoschematic.com/ 5

ボクセル化の特徴 • ⾊のサンプリングで不連続な⾊パターンができやすい • 材質を考慮せずに⾊だけでブロックを決めてしまう (窓の部分) • のっぺりした建築になる (凹凸がわからなくなる) 建築物には不向き 6

LLMエージェントの利点通常の学習 • 建築データが少ないため学習が難しい • バージョンによって使えるブロックが変わる LLMエージェント • ⼤規模な事前知識に頼ることで学習を⾏わない • コードベースのため規則的な配置が期待できる • ⼿続き型⽣成のアセットパーツのみを⽣成する 7

Creative Agents*(2023) Voyager GPT-4 Pix2Vox++ ResNet3D Stable diffusion ・Text to build ・Image to build • の両⽅に対応している https://github.com/PKU-RL/Creative-Agents?tab=readme-ov-file 8

https://github.com/PKU-RL/Creative-Agents?tab=readme-ov-file

Creative Agents における Voyager GPT-4 ⼈間による評価 9

10.

Creative Agentsで不⼗分な部分 • GPT4を使うためコストが⾼い • Code Genの部分で失敗すると修正する機能がない • 建築物のクオリティが不⼗分 • コマンドによる即時配置機能がない 10

11.

[機能]CreativeAgentsの修正点 • GPT4を使うためコストが⾼い →Gemini 2.0 Flash Thinking • Code Genの部分で失敗すると修正する機能がない →VoyagerのCriticを使えるように • 建築物のクオリティが不⼗分 →プリミティブ形状を作るための補助関数を実装 • コマンドによる即時配置機能がない →オプションの追加 11

12.

CreativeAgents + Gemini 12

13.

Creative Agentsでのマルチモーダル簡単な形状の特徴は捉えている 13

14.

⼈間がフィードバックを⼊れる ③ ①"create a big beautiful fractal” ②もっと複雑で⼤きなものを作って ③もっと複雑で⼤きなものを作って ① ② 14

15.

プリミティブ形状を作るための補助関数を実装 15

16.

⼿置きにかかる時間を短縮 16

17.

Gemini-2.5-pro-exp-03-25 17