LLMATCH最終成果報告_tom11111111

407 Views

May 01, 25

スライド概要

◾️ 3/26開催 LLMATCH [Season1] 最終成果発表会
2024年12月にスタートしたLLMATCHでは、約4ヶ月にわたり30名の学生がLLMの研究開発に挑戦し、最先端の研究に取り組みました。3/26にオンラインにて、 “LLMATCH [Season1]” の最終成果発表会を行いました。

▼発表者
・石田憲太郎 「診療録からの構造化抽出〜自由記載データからの効率的な情報検索システムを目指して〜」
・渡辺悠介 「問診AI- 再現性の高いドメイン特化LLMの提案」
・吉田馨「ロボコンに向けたバスケットボールシミュレーションの分析と戦略の生成〜紆余曲折」
・tom11111111 「Gemini-2.0-Flash-Thinkingを用いたLLMエージェントによるマインクラフト建築」

▼発表資料はこちら
https://www.docswell.com/user/matsuo-lab_llm

▼発表動画はこちら
https://youtu.be/7Ik3LTcdks0

----
◾️ LLMATCHとは
「LLMATCH」という名称は、“Large Language Model Advanced Training & Challenging Hub” に由来し、学生の皆さんが持つLLM(大規模言語モデル)に関するアイデアを、研究として発展させることを目的としたプログラムです。
本プログラムでは、東京大学 松尾・岩澤研究室の研究員が、最大1年を目安に、参加者一人ひとりの関心やスキルに応じて、次のキャリアや挑戦につながる支援を行っています。
また、研究メンバーの活動を支える「アシスタント」ポジションも設けており、学生・社会人を問わず、コミュニティの一員として研究の進行をサポートしてくださる方を広く募集しています。

▼LLMATCHへの参加方法:
下記のリンクから「松尾研LLMコミュニティ」 Slackに入り、# llmatch_01_general チャンネルよりご参加ください。
https://linktr.ee/matsuolab_community
----

profile-image

東京大学松尾・研究室が運営する「松尾研LLMコミュニティ」でのイベント資料などを公開します。 ◾️ 松尾研LLMコミュニティとは 松尾研LLMコミュニティは、「大規模言語モデルについて知って学べるオンライン空間」として、東京大学松尾・岩澤研究室が運営するコミュニティです。 現在、学生を中心とした7800名以上が、原則無償で参加しています。 また、本コミュニティでは様々なイベント等を定期的に開催しております。 是非下記のリンクより参加申し込みをお待ちしております。 ◾️ 松尾研LLMコミュニティの各種リンク ・今後のイベント開催情報/参加申込;https://tr.ee/7d_W4DsImD ・松尾研LLMコミュニティ参加フォーム;https://tr.ee/RyDfuRzS55 ・過去イベントアーカイブ;https://tr.ee/wqdbFJJZ25

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Gemini-2.0-Flash-Thinkingを⽤いた LLMエージェントによる マインクラフト建築 tom11111111 1

2.

Gemini-2.0-Flash-Thinkingを⽤いた LLMエージェントによる マインクラフト建築 tom11111111 2

3.

pj-05(世界モデル) マイクラ建築タスクへのLLMの応用 サバイバルタスク(アイテム収 集) tom11111111 クリエイティブタスク(建築) https://arxiv.org/abs/2305.16291 ・LLMの事前知識に依存 ・シンプル なスキルのみ 移動・探索 インタラクション 収集 ・クオリティが低い ・性能向上のために有効な⼿法 は まだ確⽴されていない ⽬的 : マイクラエージェントを⽤いた建築タスクの性能向上 3

4.

Voyager*(2023) GPT-4 Botを動かすためのJavascriptコードを⽣成 • https://github.com/MineDojo/Voyager 4

5.

LLMエージェントでやる必要があるのか 最もシンプルな⽣成⽅法として 3Dモデル⽣成 + ボクセル化 https://www.meshy.ai/ja https://blendermarket.com/products/blockblender-2 https://www.tripo3d.ai/ https://objtoschematic.com/ 5

6.

ボクセル化の特徴 • ⾊のサンプリングで不連続な⾊パターンができやすい • 材質を考慮せずに⾊だけでブロックを決めてしまう (窓の部分) • のっぺりした建築になる (凹凸がわからなくなる) 建築物には不向き 6

7.

LLMエージェントの利点 通常の学習 • 建築データが少ないため学習が難しい • バージョンによって使えるブロックが変わる LLMエージェント • ⼤規模な事前知識に頼ることで学習を⾏わない • コードベースのため規則的な配置が期待できる • ⼿続き型⽣成のアセットパーツのみを⽣成する 7

8.

Creative Agents*(2023) Voyager GPT-4 Pix2Vox++ ResNet3D Stable diffusion ・Text to build ・Image to build • の両⽅に対応している https://github.com/PKU-RL/Creative-Agents?tab=readme-ov-file 8

9.

Creative Agents における Voyager GPT-4 ⼈間による評価 9

10.

Creative Agentsで不⼗分な部分 • GPT4を使うためコストが⾼い • Code Genの部分で失敗すると修正する機能がない • 建築物のクオリティが不⼗分 • コマンドによる即時配置機能がない 10

11.

[機能]CreativeAgentsの修正点 • GPT4を使うためコストが⾼い →Gemini 2.0 Flash Thinking • Code Genの部分で失敗すると修正する機能がない →VoyagerのCriticを使えるように • 建築物のクオリティが不⼗分 →プリミティブ形状を作るための補助関数を実装 • コマンドによる即時配置機能がない →オプションの追加 11

12.

CreativeAgents + Gemini 12

13.

Creative Agentsでのマルチモーダル 簡単な形状の特徴は捉えている 13

14.

⼈間がフィードバックを⼊れる ③ ①"create a big beautiful fractal” ②もっと複雑で⼤きなものを作って ③もっと複雑で⼤きなものを作って ① ② 14

15.

プリミティブ形状を作るための補助関数を実装 15

16.

⼿置きにかかる時間を短縮 16

17.

Gemini-2.5-pro-exp-03-25 17

18.

さらなる発展 • ⼿続き型⽣成との連携 (Partsを作る) • 画像によるフィードバック (self refinement) • 評価指標の設定 GitHub 18

19.

謝辞 • ⼩橋さん • 研究員の⽅ • コミュニティメンバーの⽅ GitHub 19