【DL輪読会】Synthetic continued pretraining

1.2K Views

March 05, 26

#継続事前学習 #EntiGraph #合成データ #知識グラフ #大規模言語モデル

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 70.1K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 53.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 50.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 48.8K

各ページのテキスト

DEEP LEARNING JP Synthetic continued pretraining EntiGraph手法の合成データによる少量高密度データからの継続事前学習 [DL Papers] Takayuki Yamamoto（LY Corporation. SB Innoventure Corp. Waseda University, Kawahara Lab., Ph.D. Student） http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル Synthetic continued pretraining EntiGraph手法の合成データによる少量高密度データからの継続事前学習著者リンク https://arxiv.org/pdf/2409.07431 会議 ICLR2025 Oral 発表日 2024/9/11 arxiv → 2025/4 ICLR(Oral)発表実装 https://github.com/zitongyang/synthetic_continued_pretraining ※「論文図表」と記載の図表は本論文からの引用 ※ 生成AIのサポートを借り説明用図表を作成している箇所があります 2

何が出来るようになる論文か？【解決する課題】ある分野のLLMを作りたいが学習データが少量しかない（事前学習のように膨大ではない） ✦ LLMの事前学習データは膨大 ✦ 学習効率は驚くほど低い ✦ 一つの事実を覚えるのに数千の多様な表現に触れる必要がある【出来ること】我々が扱うような専門領域の「少量・高密度」なデータセット（論文、社内文書、専門書など）から知識を効率的に学習させる手法の提案（完璧ではない） 3

先行研究と本論文の位置づけ先行研究のアプローチと限界本論文（EntiGraph）の新規性 ✦ リフレーズ（言い換え）による拡張 ✦ 小コーパスから「知識を内在化」 Maini+(2024), Ovadia+(2024) → 多様性不足ですぐ飽和 RAGと違い推論時に文書不要。モデル自体がドメイン知識を獲得する ✦ Knowledge Editing (ROME / MEMIT) ✦ 知識グラフの組合せ爆発で多様性確保 Meng+(2022,2023), Mitchell+(2022) → 1文単位の事実修正のみ。編集を重ねるとモデルが壊れる（catastrophic forgetting）リフレーズと違い、エンティティのnC2組合せで飽和しない合成データを大量生成 ✦ コーパス全体の知識をまるごと獲得 ✦ RAG（検索拡張生成） Lewis+(2020) → 推論時に文書が必要。知識は内在化しない Knowledge Editingの1文単位ではなく、 265冊分のドメイン知識をまるごと ✦ 既存LLMへの「継続事前学習」 ✦ 合成データ事前学習（Phi等） Textbooks Are All You Need (2023) → 大量合成データで「ゼロから」学習する手法既存LLMに小コーパスを後から追加学習する手法ではない Phiのようにゼロからではなく、学習済みLLMに小コーパスを後から追加学習 4

提案手法の概要 265冊（約5,000token/冊）の長文ドキュメントを提案手法で約350倍に拡張 QuALITYデータセット LLMによるデータ拡張 CPT学習用データ 5

トイモデルによる数理モデル文章をエンティティーの知識グラフとして見る果物甘いりんご赤い犬関係あり関係なし 6

エンティティー間の関係を行列Mで表す学習＝記憶という仮定と知識行列 ✦Mo(初期値)は、Dで「AはBである」と直接記載されている知識 ✦モデルはデータに書かれていることをそのまま暗記する前提 ✦ 学習データにない関係への汎化は行わない → 精度 = 学習データがカバーするエッジの割合で決まる ✦ 有向グラフ：LLMは「富士山の高さは3776m」を学んでも「3776mの山は富士山」を自動的には学ばない（Berglund et al., 2023）と論文では主張合成データDは Vxyから作る対角成分は除外 7

合成データDは２点間の起点と各点のペアの蓄積始点中間地点1 中間地点2 始点終点和集合始点 1ステップ前各ステップ t で、1つのエンティティペア(x,y)がサンプルされる BFSによるパスが見つかれば新しい関係ペアが Dt に追加される z はその経路点始点と各中間地点の経路というペアで合成データを作成していく Dt ＝ t回目までに集めた全ての関係ペアの集合が溜まっていく → つまり「前回の知識＋今回新たに見つけた関係」＝今の知識合成データを1回生成するたびに、知識行列の1が増えていく 8

x,y点間の合成データが存在する箇所Mxyを1にする tステップ時の行列M 1ステップ前行列のx,yの箇所を1にする除外 tステップ時の合成データ「のみ」について 9

10.

合成データ生成によって、知識はどれくらい埋まっていくのか？行列の中の “1” の個数 = 知っている関係の数 L1ノルム全要素の絶対値の合計 Mo(初期値)は、Dで「AはBである」と直接記載されている知識 𝒑 = 𝝀/𝑽 の確率で 1 の行列条件付き期待値知識100%となる母数で割る対角成分は除外した数 10

11.

精度の上界・下界式に登場する記号 V ＝ノード数（ソースコーパスのエンティティ数） λ ＝ Erdős–Rényiグラフの辺密度パラメータ ε ＝任意の正の数（C_UBのみに登場する余裕項）読み方 C_LB：V が大きいと 1/V(V−1) ≈ 0 → C_LB ≈ 1（ただし 1未満） C_UB：log項がある分 C_LB より小さい（C_UB < C_LB） → どちらも 0<C<1 なので、次スライドで C^t は t 乗で減衰する 11

12.

精度の上界・下界で挟むこの式の構造（下界）×(1−ε) ≤ Acc(M_t) ≤ （上界）×(1+ε) 精度 Acc(M_t) を上下から挟み撃ちにしている。各パーツの意味 p 初期精度（= |D_source| / V(V−1)） C_λ = (1−ρ(λ))² C_LB^t, C_UB^t 到達可能なペアの割合 0<C_UB<C_LB<1 なので t 乗で減衰（ただし→0 には t ∼ V(V−1) 回のオーダーが必要） (1±ε) 上下界に掛かる誤差の余裕（任意の正の数）直感的な読み方 → t を十分増やすと (1−C^t) → 1 となり、精度は p + C_λ に収束（＝到達可能な知識の上限） 12

13.

ポアソン近似式（Erdős-Rényi限定）式の全体構造 Acc(M_t) ∼ p（初期精度）＋ C_λ（到達上限）×（まだ埋まっていない割合）記号の意味 ∼ V→∞ で確率的に収束（漸近的に等しい） C_λ = (1−ρ(λ))² (λ−1)/λ^{ℓ+1} 到達可能なペアの割合 BFS探索木のレベル ℓ にある頂点の割合 p_ℓ(k) レベル ℓ の分岐過程で子孫が k 個になる確率 (1 − k/V(V−1))^t k本のエッジが t回で全て未発見の確率 → Erdős-Rényi グラフの構造を使い前ページの不等式を近似式化次スライドでこれを一般のグラフに拡張する 13

14.

一般化された式（混合指数関数）前スライドとの関係前スライドは Erdős-Rényi 限定だったが、この式は一般のグラフ構造に拡張した混合指数関数の形。記号の対応 C M で到達可能なペアの割合（前式の C_λ に対応） μ(k) 減衰率 a_k を持つペアの割合（確率分布） (1−a_k)^t a_k = k/V(V−1)、t回後に未発見の確率 → 速さの違う指数減衰の「混ぜ合わせ」＝混合指数関数実験ではΣ∞を3項で打ち切りフィッティングに使用 14

15.

3項近似でフィット x = EntiGraphトークン数（百万） y(x) = QA精度（QuALITY） 3項とも同じ形だが rᵢ の値が違う（0<r <r <r <1）→ 消える速さが違う ✦ 序盤：線形成長 ✦ 中盤：対数成長 ✦ 終盤：プラトー r ≈0（最速）が一瞬で消え r （中速）もほぼ消えたが r も最終的に→0 → 精度が急上昇 r ≈1（最遅）がまだ残る 3項すべて消えy→a（飽和） Poisson分岐過程近似 + 3項で打ち切り + 非線形最小二乗法でフィット (SciPy) 15

16.

理論がデータに一致：混合指数関数フィッティング実験が先、数式は後からフィット x = EntiGraphトークン数（百万） y(x) = QA精度（QuALITY） ✦実験でデータ点を取得 ✦理論式 y=a-b r ˣ-b r ˣ-b r ˣ のパラメータ(a,bᵢ,rᵢ)を非線形最小二乗法でデータ点にフィット右端が「まだ伸びている」理由理論上はいずれプラトーだが、実験のデータ範囲ではまだ対数成長期の途中。 r =0.9989≈1 なのでゆっくり減衰中。 → 点と曲線がよく一致＝理論の正しさの証拠出典：論文図表 16

17.

理論パートまとめ EntiGraphがうまくいく理由を、シンプルなグラフ理論で説明 1 2 3 知識を元データ Dsource は EntiGraphがエンティティ間のスパースなグラフエッジを生成関係グラフで表現（不完全） → グラフを埋める 4 学習 ≈ クーポンコレクター問題 5 精度の伸びは混合指数分布のスケーリング則に従う結論：スパースなグラフ（②）にEntiGraphがエッジを追加し（③）、クーポンコレクター的にカバレッジが進む（④）結果、混合指数分布に従い精度が向上する（⑤） 17

18.

実験 EntiGraph手法長文ドキュメントから Entity を抽出し、ドキュメントにおける Entity 間の関係を説明する文章を生成出典：論文図表 18

19.

実験設定 QuALITYデータセット＋ EntiGraph合成データ → Llama 3 8B で継続事前学習項目設定 Train データ QuALITYデータセット：265冊（SF〜ジャーナリズム）、1冊あたり約5,000token、合計1.3Mトークン Test データ 4,609問の4択QA（各記事10〜20問）、5-shot CoTで評価合成データ生成 gpt-4-turboでEntiGraph適用 → 455Mトークンの合成コーパス生成学習モデル Llama 3 8B Base（Meta, 2024） CPTハイパラ LR: 5e-6 / Epoch: 2 / Batch Size: 16 / Weight Decay: 0.01 / Warmup: 5% / cosine decay 破滅的忘却防止 RedPajama replay rate 10%（各バッチで10%の確率でRedPajamaを混入）ベースライン① Raw CPT：生の1.3Mトークンで直接CPT（4 epoch）→ ベースより悪化ベースライン② Rephrase CPT：記事リフレーズで1.8M生成 → 43%で飽和結果：Base 39.49% → EntiGraph CPT 56.22%（+16.73pt）。RAGの改善幅（+20.86pt）の80%を、文書参照なしで達成 19

20.

学習データの規模感（関連研究との比較）一般的なドメインアダプテーション用学習データより **１万倍** 少ない量のデータ出典：論文図表 20

21.

実験結果 56.42% ✦ 単純な言い換えより高い精度 RephraseCPT ✦ GPT-3.5やGPT-4の closed book を超える ✦ 単なるCPTはむしろ下がる Raw CPT 出典：論文図表 21

22.

実験結果 RAGと提案手法の両方を使うことでより精度が高まる Open-Book（RAG）設定での比較 ✦ 項目 ✦ 主な発見 Accuracy: QuALITY QAの正答率 EntiGraph + RAG（62.60%）は Recall@8: 上位8チャンクに正解 Base + RAG（60.35%）を上回る文書が含まれる割合 → CPTで獲得した知識はRAGと相補的 22

23.

まとめ ✦ 提案手法：小コーパスをEntiGraphで合成拡張し、継続事前学習 ✦ スケーリング：QA精度は合成トークン数に対してlog-linearに向上。単なるリフレーズ（言い換え）手法は早期飽和 ✦ RAGと相補的：CPTで得た知識とRAGを組合せると更に精度向上 ✦ 数理モデル：合成データが知識を「再配置」する仕組みを理論的に説明 ✦ 今後の課題：ニッチ領域以外の一般的な事前学習データにも有効か？ 23

24.

感想 ✦ 理論曲線と学習曲線が一致しているのはとても興味深い ✦ 理論の前提は、LLMは学習すれば必ず記憶するという前提だが、LLMの継続学習の難しいところは実際はそうではない（思ったとおりにそもそも学習されない）ところではないか（raw cpt が精度が悪化しているのがその証左） ✦ ドキュメントが実在するパブリックドメインの長文テキスト（フィクション・ノンフィクション混在）である為、最新のLLMだと何もしなくても高精度を達成出来る可能性がある。 ✦ 論文実装を見ると、グラフノード探索はしておらず、単にnC2全組み合わせなどから合成データ化している。理論と実装は乖離しているが、学習曲線は一致している ✦ 未知の新知識や、既存知識の変更（例えば大統領の変更）、個々人のパーソナルな情報などの目的でのLLMの継続学習手法としても活用できるか ✦ SFT+RLHF(DPO)といったアラインメント（強化学習）部分は、学習をトイモデル化して、このように数学的モデル化できるか？ 24

25.

Thank you. 25