>100 Views
October 17, 25
スライド概要
■ 9/26(金)開催 LLMATCH [Season2] 最終成果発表会
2025年4月にスタートした第二期では、約6ヶ月にわたり39名の学生がLLMの研究開発に挑戦し、最先端の技術に取り組んできました。9/26(金)にオンラインにて、 "LLMATCH [Season2]" の最終成果発表会を行いました。
▼発表者(7名)
・石田憲太郎 「LLMを使ったカルテの構造化〜実臨床への応用〜」
・渡辺悠介 「医療診療ガイドラインエージェント」
・神楽坂やちま 「AGIに向けたLLMエージェントのための大規模Kaggleコンペを準備してみた」
・酒井ビルゲハン、ハーカン 「LLMの知識探索性能の言語間の一貫性を高める」
・牛尾久美 「日本語行政文書におけるGraphRAGの応用と評価」
・Mikey0130 「Laughing Across Cultures: Culturally Sensitive Robotic Stand-up Comedian with Multimodal Expressiveness」
・屋藤翔麻 「知識グラフで強化する生成エージェントの構造化記憶」
▼発表資料はこちら
https://www.docswell.com/user/matsuo-lab_llm
----
■ LLMATCHとは
「LLMATCH」という名称は、"Large Language Model Advanced Training & Challenging Hub" に由来し、学生の皆さんが持つLLM(大規模言語モデル)に関するアイデアを、研究として発展させることを目的としたプログラムです。
本プログラムでは、東京大学 松尾・岩澤研究室の研究員が、最大1年を目安に、参加者一人ひとりの関心やスキルに応じて、次のキャリアや挑戦につながる支援を行っています。
また、研究メンバーの活動を支える「アシスタント」ポジションも設けており、学生・社会人を問わず、コミュニティの一員として研究の進行をサポートしてくださる方を広く募集しています。
▼LLMATCHにおけるこれまでの成果
・マインクラフトのクリエイティブタスクを行うエージェントのOSS公開
・電子カルテの変換を補助するOSS公開
・ロボット系の国際学会(ICSR+2025)での発表1名
・社会科学系の国際学会(ISWC2025)で発表1名
・医療系の国際学会(ASGO2025)で発表、かつ学会誌にて論文アクセプト
・日本最大のがん治療学会にてシンポジストに選出
・5名の研究員を松尾研インターンとして採用
▼LLMATCHへの参加方法: 下記のリンクから「松尾研LLMコミュニティ」 Slackに入り、# llmatch_01_general チャンネルよりご参加ください。
https://linktr.ee/matsuolab_community
----
東京大学松尾・研究室が運営する「松尾研LLMコミュニティ」でのイベント資料などを公開します。 ◾️ 松尾研LLMコミュニティとは 松尾研LLMコミュニティは、「大規模言語モデルについて知って学べるオンライン空間」として、東京大学松尾・岩澤研究室が運営するコミュニティです。 現在、学生を中心とした10,000名以上が、原則無償で参加しています。 また、本コミュニティでは様々なイベント等を定期的に開催しております。 是非下記のリンクより参加申し込みをお待ちしております。 ◾️ 松尾研LLMコミュニティの各種リンク ・今後のイベント開催情報/参加申込;https://tr.ee/7d_W4DsImD ・松尾研LLMコミュニティ参加フォーム;https://tr.ee/RyDfuRzS55 ・過去イベントアーカイブ;https://tr.ee/wqdbFJJZ25
[酒井 ビルゲハン、酒井 ハーカン] LLMの知識検索性能の 言語間の一貫性を高める ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 1
目次 ・関連研究 ・試した手法 ・結果 ・大きな性能向上が見られた翻訳学習のメカニズムを調査 ・試した手法 ・結果 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 2
関連研究 ・言語固有のニューロンがLLMの前半層と後半層に集中している(https://arxiv.org/abs/2404.02431, https://arxiv.org/abs/2410.11718)。 ・事前学習のコーパスに日本語を含めると、中間の層での日本語トークンの確率が上がる(https://arxiv.org/abs/2408.10811)。 ・LLMは前半の層で翻訳し、中間の層で概念空間を形成し、後半の層で出力言語に合わせて翻訳している。ただ、英語中心のコーパスで 学習されたLLMは概念空間が英語に偏っている可能性がある(https://arxiv.org/abs/2402.10588, https://arxiv.org/abs/2501.06346)。 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 3
試した手法 • 低リソース言語で継続事前学習する • 形式1:フルパラメータで学習 • 形式2:言語固有の層のみ学習 • SFTする • 形式1(翻訳学習):低リソース言語入力 → 高リソース言語出力 • 形式2(通常SFT):低リソース言語入力 → 低リソース言語出力 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 4
継続事前学習 形式1:フルパラメータで学習 Swallow(https://arxiv.org/abs/2404.17790)の取り組みを参考にreplay(https://arxiv.org/abs/2403.05175v1)を用いて学習を行う。 replayする割合は(https://arxiv.org/abs/2409.06624)を参考に10%〜15%とした。 形式2:言語固有の層のみ学習 多くの論文でLLMは前半の層で翻訳し、中間の層で概念空間または抽象言語空間を形成し、後半の層で出力言語に合わせて翻訳している ということが分かっている。 またSLAM(https://arxiv.org/abs/2501.03681)ではLLMの初期層内のSwiGLUのgate層のみを学習している。 この手法により、破滅的忘却を抑えて多言語性能を伸ばすことに成功している。 以上の知見から、LLMの初期層(5層まで)と最終層(28層)内ののSwiGLUのgate層のみの学習を行う。 更にこの手法では中間層のパラメータ固定により、言語非依存の性能低下を防いでいるので、replayは行わない。 ここだけ学習 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 5
データセット 形式1:フルパラメータで学習 トルコ語と日本語と英語のデータセットを用いる。 形式2:言語固有の層のみ学習 トルコ語のみのデータセットを用いる。 以下は今回用意したデータセットの一覧 トルコ語 日本語 英語 コーパス トークン コーパス トークン コーパス トークン wikipedia 0.12B wikipedia 0.35B wikipedia 0.41B CulturaX 2.82B CulturaX 0.10B ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 6
SFT 形式1:翻訳学習 QAlign(https://arxiv.org/abs/2401.07817)を参考に質問文の翻訳の学習を行う。 トルコ語の質問文を日本語または英語に翻訳する。 形式2:通常SFT トルコ語と日本語と英語の質問応答データセットを混ぜ合わせて学習する。 ・データセット 形式1:翻訳学習 トルコ語質問文:dolly(databricks-dolly-15k)の質問文をトルコ語に翻訳したデータ 日本語質問文:dollyの質問文を日本語に翻訳したデータ 英語質問文:dollyの質問文データ 事前学習の2つ目の学習手法は事後学習 でも同様に該当のパラメータを固定して 学習する。 形式2:通常SFT トルコ語質問応答:dollyをトルコ語に翻訳したデータ 日本語質問文:dollyを日本語に翻訳したデータ 英語質問文:dolly ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 7
ベンチマーク Rakuda Benchmark 概要:全40問の日本の知識について日本語で応答する能力を測るベンチマーク 質問例:日本の三権分立について説明し、それぞれの権力がどのように機能しているか述べてください。 形式:記述式 使用方法:トルコ語と英語に翻訳した評価セットを作成 評価方法:回答をgemini2.0-flashを使って0~10で評価 MMLU 概要:57科目からなる多分野の知識推論能力を測るベンチマーク 形式:選択式 使用方法:トルコ語版と日本語版のも用意し、ランダムに100サンプルを選んだ評価セットを作成 評価方法:4つの選択肢から選んだ回答が正解と一致しているかを評価 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 8
継続事前学習の結果(Rakuda) rakuda-Tr rakuda-Jp (オリジナル) rakuda-En Avg Tr-TinySwallow-Instruct-full 21.9% 70.05% 57.6% 49.85% Tr-TinySwallow-Instruct-full-TL 61.6% 71.15% 59.35% 64.03% Tr-TinySwallow-Instruct-full-SFT 21.3% 72.15% 60.45% 51.3% Tr-TinySwallow-Instruct-(layer-freeze) 27.35% 77.05% 63.85% 56.08% Tr-TinySwallow-Instruct-(layer-freeze)-TL 30.15% 75.45% 63.8% 56.47% Tr-TinySwallow-Instruct-(layer-freeze)-SFT 32.0% 75.75% 64.8% 57.52% TinySwallow 8.0% 5.45% 3.7% 5.72% TinySwallow-Instruct 37.4% 77.25% 63.9% 59.52% Qwen2.5-1.5B 8.95% 8.3% 3.5% 6.92% Qwen2.5-1.5B-Instruct 29.65% 45.1% 55.7% 43.48% ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 9
SFTの結果(Rakuda) rakuda-Tr rakuda-Jp (オリジナル) rakuda-En Avg TinySwallow-Instruct 37.4% 77.25% 63.9% 59.52% TinySwallow-Instruct-full-TL 67.15% 77.0% 64.1% 69.42% TinySwallow-Instruct-full-SFT 21.95% 70.1% 59.75% 50.6% TinySwallow-Instruct-(layer-freeze)-TL 39.95% 75.75% 64.5% 60.07% TinySwallow-Instruct-(layer-freeze)-SFT 37.3% 75.6% 63.0% 58.63% Qwen2.5-1.5B-Instruct 29.65% 45.1% 55.7% 43.48% ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 10
継続事前学習の結果(MMLU) MMLU-Tr MMLU-Jp MMLU-En Avg Tr-TinySwallow-Instruct-full 26.8% 41.6% 43.0% 37.13% Tr-TinySwallow-Instruct-full-TL 31.2% 39.8% 39.6% 36.86% Tr-TinySwallow-Instruct-full-SFT 25.8% 47.0% 45.0% 39.2% Tr-TinySwallow-Instruct-(layer-freeze) 27.2% 45.2% 44.6% 39.0% Tr-TinySwallow-Instruct-(layer-freeze)-TL 26.4% 46.2% 42.6% 38.4% Tr-TinySwallow-Instruct-(layer-freeze)-SFT 28.8% 47.4% 46.6% 40.93% TinySwallow-Instruct 25.0% 46.4% 47.2% 39.53% Qwen2.5-1.5B-Instruct 35.8% 49.2% 46.6% 43.86% ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 11
SFTの結果(MMLU) MMLU-Tr MMLU-Jp MMLU-En Avg TinySwallow-Instruct 25.0% 46.4% 47.2% 39.53% TinySwallow-Instruct-full-TL 30.0% 42.4% 39.2% 37.2% TinySwallow-Instruct-full-SFT 23.0% 47.8% 40.2% 37.0% TinySwallow-Instruct-(layer-freeze)-TL 31.0% 46.2% 44.4% 40.53% TinySwallow-Instruct-(layer-freeze)-SFT 29.0% 45.2% 46.0% 40.06% Qwen2.5-1.5B-Instruct 35.8% 49.2% 46.6% 43.86% ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 12
結果 • 形式1と形式2の継続事前学習 • 効果があまり見られなかった → データ量の欠如、データの不潔が原因と考えられる • 形式1のSFT • Rakudaで大きく性能向上し、MMLUでは性能向上が見られなかった • 形式2のSFT • 言語追従の性能向上が見られた • 両方のベンチマークのスコア向上が少し見られた ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 13
大きな性能向上が見られた翻訳学習のメカニズムを調査 次のページからはRakudaで大きな性能向上が見られた翻訳学習について なぜ、このような性能向上が起こったのかを検証していきます rakuda-Tr Tr-TinySwallow-Instruct-full 21.9% Tr-TinySwallow-Instruct-full-TL 61.6% Tr-TinySwallow-Instruct-full-SFT 21.3% TinySwallow-Instruct 37.4% TinySwallow-Instruct-TL 67.15% TinySwallow-Instruct-SFT 21.95% +39.7% up +29.75% up ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 14
大きな性能向上が見られた翻訳学習のメカニズムを調査 <試した検証> • 出力言語の割合を評価 • Rakuda • Alpaca • LLMの内部解釈 • t-SNE • logit lens • 出力言語制御 • プロンプト ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 15
Rakudaの出力言語の割合を評価 手法:fastText(https://github.com/facebookresearch/fastText)を使って出力言語を判定 結果 - 翻訳学習したモデル(-TL)が他のモデルとは異なり、トルコ語入力時に日本語出力になっている 上記以外は入力言語と出力言語が一致している割合が大きい rakuda-Tr rakuda-Jp rakuda-En Tr-TinySwallow-Instruct-full スコア:21.9% 出力言語:Tr: 97.5%, Ja: 1.5%, En: 0.5% スコア:70.05% 出力言語:Tr: 0.0%, Ja: 100.0%, En: 0.0% スコア:57.6% 出力言語:Tr: 0.0%, Ja: 0.5%, En: 99.5% Tr-TinySwallow-Instruct-full -TL スコア:61.6% 出力言語:Tr: 0.0%, Ja: 89.0%, En: 8.5% スコア:71.15% 出力言語:Tr: 0.0%, Ja: 100.0%, En: 0.0% スコア:59.35% 出力言語:Tr: 0.0%, Ja: 10.0%, En: 90.0% Tr-TinySwallow-Instructfull-SFT スコア:21.3% 出力言語:Tr: 97.0%, Ja: 2.5%, En: 0.5% スコア:72.15% 出力言語:Tr: 0.0%, Ja: 100.0%, En: 0.0% スコア:60.45% 出力言語:Tr: 0.0%, Ja: 0.0%, En: 100.0% TinySwallow-Instruct スコア:37.4% 出力言語:Tr: 40.5%, Ja: 50.5%, En: 9.0% スコア:77.25% 出力言語:Tr: 0.0%, Ja: 100.0%, En: 0.0% スコア:63.9% 出力言語:Tr: 0.0%, Ja: 9.0%, En: 90.5% TinySwallow-Instruct-full -TL スコア:67.15% 出力言語:Tr: 0.0%, Ja: 97.0%, En: 3.0% スコア:77.0% 出力言語:Tr: 0.0%, Ja: 100.0%, En: 0.0% スコア:64.1% 出力言語:Tr: 0.0%, Ja: 32.5%, En: 67.5% TinySwallow-Instruct-full -SFT スコア:21.95% 出力言語:Tr: 89.0%, Ja: 11.0%, En: 0.0% スコア:70.1% 出力言語:Tr: 0.0%, Ja: 100.0%, En: 0.0% スコア:59.75% 出力言語:Tr: 0.0%, Ja: 0.0%, En: 100.0% Qwen2.5-1.5B-Instruct スコア:29.65% 出力言語:Tr: 96.5%, Ja: 3.0%, En: 0.0% スコア:45.1% 出力言語:Tr: 0.0%, Ja: 100.0%, En: 0.0% スコア:55.7% 出力言語:Tr: 0.0%, Ja: 0.0%, En: 100.0% ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 16
Alpacaの出力言語の割合を評価 目的:翻訳学習モデルがどんな場合に日本語出力になり、性能が上がるのか (日本に関連した知識を問わない、一般的な質問をトルコ語で入力したときに日本語で出力し、性能が上がるのか) 手法:Alpacaデータセットをトルコ語に翻訳したデータをベンチマークとし、スコアはgemini2.5-flashを使って0~10で評価 出力言語はfastTextを使って判定 結果 - rakudaと同様に、翻訳学習したモデルは日本語で出力する - rakudaとは違い、翻訳学習したモデルと通常SFTモデル間のスコアが同等 alpaca-Tr Tr-TinySwallow-Instruct-full-TL スコア:15.4% 出力言語:Tr: 2.0%, Ja: 74.0%, En: 17.0% Tr-TinySwallow-Instruct-full-SFT スコア:17.9% 出力言語:Tr: 97.0%, Ja: 1.0%, En: 2.0% TinySwallow-Instruct-full-TL スコア:10.0% 出力言語:Tr: 0.0%, Ja: 66.0%, En: 24.0% TinySwallow-Instruct-full-SFT スコア:11.8% 出力言語:Tr: 98.0%, Ja: 0.0%, En: 2.0% ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO Alpacaデータセット内の例文(日本語訳したもの) 指示:3つの基本色は何ですか。 正解:基本的な3色は赤、青、黄色です。 指示:6と2の積はいくらですか。 正解:6と2の積は12です。 翻訳学習したモデルは求められる知識に関わらず、 日本語で出力する 17
大きな性能向上が見られた翻訳学習のメカニズムを調査 <主な分かったこと> トルコ語→日本語に翻訳するSFTをすると、トルコ語で入力したときも日本語で回答するようになり、Rakudaのスコアが上がった <考えられるスコアが上がる要因> 1. 翻訳学習によりトルコ語の理解度が上がり、スコアが上がった 2. 日本語で出力することでスコアが上がった ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 18
t-SNE (1)の検証 目的:翻訳学習の前後でトルコ語の理解度は異なるのか 手法:3つの言語のRakudaを入力した際のLLMのノードを層毎に次元圧縮(t-SNE)する 結果 - 翻訳学習前と学習後で比較すると、両方のモデルも言語の扱い方が似ている 1層目 2層目 26層目 27層目 TinySwallow-Instruct TinySwallow-Instruct-TL ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 19
logit lens (1)の検証 目的:翻訳学習の前後でトルコ語の理解度は異なるのか 手法:日本に関連する知識を問う短い質問を入力する。その際にlogit lensを使い、モデル間で生起するトークンを比較する 結果 - 翻訳学習前と学習後で比較すると、両方のモデルもトルコ語を入力したときに中間層で同様の英語と日本語が混じっている プロンプト Japonya'nın başkenti (日本の首都は) → 学習の前後でトルコ語の理解度に変化がない可能性が大きい TinySwallow-Instruct TinySwallow-Instruct-TL ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 20
プロンプトによる出力言語制御 (2)の検証 目的:翻訳学習モデルの高スコアが出力言語によるものであるのか 手法:プロンプトに出力言語についての指示を追加する 結果 - プロンプトでは出力言語を制御できなかった TinySwallow-Instruct TinySwallow-Instruct-full-TL 出力言語設定 rakuda-Tr rakuda-Ja 制約なし スコア:33.5% 出力言語:Tr: 30.0%, Ja: 57.5%, En: 11.7% スコア:77.25% 出力言語:Tr: 0.0%, Ja: 100.0%, En: 0.0% 日本語で回答するよう指示 スコア:30.83% 出力言語:Tr: 41.7%, Ja: 45.8%, En: 11.7% ー 制約なし スコア:67.15% 出力言語:Tr: 0.0%, Ja: 97.0%, En: 3.0% スコア:77.0% 出力言語:Tr: 0.0%, Ja: 100.0%, En: 0.0% トルコ語で回答するよう指示 スコア:40.75% 出力言語:Tr: 0.8%, Ja: 64.2%, En: 32.5% スコア:56.16% 出力言語:Tr: 2.5%, Ja: 93.3%, En: 2.5% ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 21
まとめ・今後 まとめ • 低リソース言語では、エンコード(言語理解)はできるけど、上手くデコード(学習した知識を使った回答)ができないケースが ある 今後 • SAE等を使い、モデル介入による出力言語の制御をして翻訳学習により性能が上がったメカニズムを特定する ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 22
©︎MATSUO LAB, THE UNIVERSITY OF TOKYO