【DL輪読会】Synthetic continued pretraining

>100 Views

March 05, 26

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP Synthetic continued pretraining EntiGraph手法の合成データによる少量高密度データからの継続事前学習 [DL Papers] Takayuki Yamamoto(LY Corporation. SB Innoventure Corp. Waseda University, Kawahara Lab., Ph.D. Student) http://deeplearning.jp/ 1

2.

書誌情報 タイトル Synthetic continued pretraining EntiGraph手法の合成データによる少量高密度データからの継続事前学習 著者 リンク https://arxiv.org/pdf/2409.07431 会議 ICLR2025 Oral 発表日 2024/9/11 arxiv → 2025/4 ICLR(Oral)発表 実装 https://github.com/zitongyang/synthetic_continued_pretraining ※「論文図表」と記載の図表は本論文からの引用 ※ 生成AIのサポートを借り説明用図表を作成している箇所があります 2

3.

何が出来るようになる論文か? 【解決する課題】ある分野のLLMを作りたいが学習データが少量しかない(事前学習のように膨大ではない) ✦ LLMの事前学習データは膨大 ✦ 学習効率は驚くほど低い ✦ 一つの事実を覚えるのに数千の多様な表現に触れる必要がある 【出来ること】我々が扱うような専門領域の「少量・高密度」なデータセット(論文、社内文書、専門書など) から知識を効率的に学習させる手法の提案(完璧ではない) 3

4.

先行研究と本論文の位置づけ 先行研究のアプローチと限界 本論文(EntiGraph)の新規性 ✦ リフレーズ(言い換え)による拡張 ✦ 小コーパスから「知識を内在化」 Maini+(2024), Ovadia+(2024) → 多様性不足ですぐ飽和 RAGと違い推論時に文書不要。モデル自体が ドメイン知識を獲得する ✦ Knowledge Editing (ROME / MEMIT) ✦ 知識グラフの組合せ爆発で多様性確保 Meng+(2022,2023), Mitchell+(2022) → 1文単位の事実修正のみ。編集を重ねると モデルが壊れる(catastrophic forgetting) リフレーズと違い、エンティティのnC2組合せで 飽和しない合成データを大量生成 ✦ コーパス全体の知識をまるごと獲得 ✦ RAG(検索拡張生成) Lewis+(2020) → 推論時に文書が必要。知識は内在化しない Knowledge Editingの1文単位ではなく、 265冊分のドメイン知識をまるごと ✦ 既存LLMへの「継続事前学習」 ✦ 合成データ事前学習(Phi等) Textbooks Are All You Need (2023) → 大量合成データで「ゼロから」学習する手法 既存LLMに小コーパスを後から追加学習する手法ではない Phiのようにゼロからではなく、学習済みLLMに 小コーパスを後から追加学習 4

5.

提案手法の概要 265冊(約5,000token/冊)の長文ドキュメントを提案手法で約350倍に拡張 QuALITYデータセット LLMによるデータ拡張 CPT学習用データ 5

6.

トイモデルによる数理モデル 文章をエンティティーの知識グラフとして見る 果物 甘い りんご 赤い 犬 関係あり 関係なし 6

7.

エンティティー間の関係を行列Mで表す 学習 = 記憶 という仮定と知識行列 ✦Mo(初期値)は、Dで「AはBである」と直接記載されている知識 ✦モデルはデータに書かれていることをそのまま暗記する前提 ✦ 学習データにない関係への汎化は行わない → 精度 = 学習データがカバーするエッジの割合で決まる ✦ 有向グラフ:LLMは「富士山の高さは3776m」を学んでも 「3776mの山は富士山」を自動的には学ばない(Berglund et al., 2023)と論文では主張 合成データDは Vxyから作る 対角成分は除外 7

8.

合成データDは2点間の起点と各点のペアの蓄積 始点 中間地点1 中間地点2 始点 終点 和集合 始点 1ステップ前 各ステップ t で、1つのエンティティペア(x,y)がサンプルされる BFSによるパスが見つかれば新しい関係ペアが Dt に追加される z はその経路点 始点と各中間地点の経路というペアで合成データを作成していく Dt = t回目までに集めた全ての関係ペアの集合が溜まっていく → つまり「前回の知識 + 今回新たに見つけた関係」= 今の知識 合成データを1回生成するたびに、知識行列の1が増えていく 8

9.

x,y点間の合成データが存在する箇所Mxyを1にする tステップ時の 行列M 1ステップ前 行列のx,yの箇所 を1にする 除外 tステップ時の合成データ 「のみ」について 9

10.

合成データ生成によって、知識はどれくらい埋まっていくのか? 行列の中の “1” の個数 = 知っている関係の数 L1ノルム 全要素の絶対値の合計 Mo(初期値)は、Dで「AはBである」と直 接記載されている知識 𝒑 = 𝝀/𝑽 の確率で 1 の行列 条件付き期待値 知識100%となる母数で割る 対角成分は除外した数 10

11.

精度の上界・下界 式に登場する記号 V = ノード数(ソースコーパスのエンティティ数) λ = Erdős–Rényiグラフの辺密度パラメータ ε = 任意の正の数(C_UBのみに登場する余裕項) 読み方 C_LB:V が大きいと 1/V(V−1) ≈ 0 → C_LB ≈ 1(ただし 1未満) C_UB:log項がある分 C_LB より小さい(C_UB < C_LB) → どちらも 0<C<1 なので、次スライドで C^t は t 乗で減衰する 11

12.

精度の上界・下界で挟む この式の構造 (下界)×(1−ε) ≤ Acc(M_t) ≤ (上界)×(1+ε) 精度 Acc(M_t) を上下から挟み撃ちにしている。 各パーツの意味 p 初期精度(= |D_source| / V(V−1)) C_λ = (1−ρ(λ))² C_LB^t, C_UB^t 到達可能なペアの割合 0<C_UB<C_LB<1 なので t 乗で減衰 (ただし→0 には t ∼ V(V−1) 回のオーダーが必要) (1±ε) 上下界に掛かる誤差の余裕(任意の正の数) 直感的な読み方 → t を十分増やすと (1−C^t) → 1 となり、 精度は p + C_λ に収束(=到達可能な知識の上限) 12

13.

ポアソン近似式(Erdős-Rényi限定) 式の全体構造 Acc(M_t) ∼ p(初期精度)+ C_λ(到達上限)×(まだ埋まっていない割合) 記号の意味 ∼ V→∞ で確率的に収束(漸近的に等しい) C_λ = (1−ρ(λ))² (λ−1)/λ^{ℓ+1} 到達可能なペアの割合 BFS探索木のレベル ℓ にある頂点の割合 p_ℓ(k) レベル ℓ の分岐過程で子孫が k 個になる確率 (1 − k/V(V−1))^t k本のエッジが t回で全て未発見の確率 → Erdős-Rényi グラフの構造を使い前ページの不等式を近似式化 次スライドでこれを一般のグラフに拡張する 13

14.

一般化された式(混合指数関数) 前スライドとの関係 前スライドは Erdős-Rényi 限定だったが、この式は一般のグラフ構造に拡張した混合指数関数の形。 記号の対応 C M で到達可能なペアの割合(前式の C_λ に対応) μ(k) 減衰率 a_k を持つペアの割合(確率分布) (1−a_k)^t a_k = k/V(V−1)、t回後に未発見の確率 → 速さの違う指数減衰の「混ぜ合わせ」=混合指数関数 実験ではΣ∞を3項で打ち切りフィッティングに使用 14

15.

3項近似でフィット x = EntiGraphトークン数(百万) y(x) = QA精度(QuALITY) 3項とも同じ形だが rᵢ の値が違う(0<r <r <r <1)→ 消える速さが違う ✦ 序盤:線形成長 ✦ 中盤:対数成長 ✦ 終盤:プラトー r ≈0(最速)が一瞬で消え r (中速)もほぼ消えたが r も最終的に→0 → 精度が急上昇 r ≈1(最遅)がまだ残る 3項すべて消えy→a(飽和) Poisson分岐過程近似 + 3項で打ち切り + 非線形最小二乗法でフィット (SciPy) 15

16.

理論がデータに一致:混合指数関数フィッティング 実験が先、数式は後からフィット x = EntiGraphトークン数(百万) y(x) = QA精度(QuALITY) ✦実験でデータ点を取得 ✦理論式 y=a-b r ˣ-b r ˣ-b r ˣ のパラメータ(a,bᵢ,rᵢ)を非線形 最小二乗法でデータ点にフィット 右端が「まだ伸びている」理由 理論上はいずれプラトーだが、実験の データ範囲ではまだ対数成長期の途中。 r =0.9989≈1 なのでゆっくり減衰中。 → 点と曲線がよく一致 = 理論の正しさの証拠 出典:論文図表 16

17.

理論パートまとめ EntiGraphがうまくいく理由を、シンプルなグラフ理論で説明 1 2 3 知識を 元データ Dsource は EntiGraphが エンティティ間の スパースなグラフ エッジを生成 関係グラフで表現 (不完全) → グラフを埋める 4 学習 ≈ クーポンコレ クター問題 5 精度の伸びは 混合指数分布の スケーリング則に従う 結論:スパースなグラフ(②)にEntiGraphがエッジを追加し(③)、 クーポンコレクター的にカバレッジが進む(④)結果、混合指数分布に従い精度が向上する(⑤) 17

18.

実験 EntiGraph手法 長文ドキュメントから Entity を抽出し、ドキュメントにおける Entity 間の関係を説明する文章を生成 出典:論文図表 18

19.

実験設定 QuALITYデータセット + EntiGraph合成データ → Llama 3 8B で継続事前学習 項目 設定 Train データ QuALITYデータセット:265冊(SF〜ジャーナリズム)、1冊あたり約5,000token、合計1.3Mトークン Test データ 4,609問の4択QA(各記事10〜20問)、5-shot CoTで評価 合成データ生成 gpt-4-turboでEntiGraph適用 → 455Mトークンの合成コーパス生成 学習モデル Llama 3 8B Base(Meta, 2024) CPTハイパラ LR: 5e-6 / Epoch: 2 / Batch Size: 16 / Weight Decay: 0.01 / Warmup: 5% / cosine decay 破滅的忘却防止 RedPajama replay rate 10%(各バッチで10%の確率でRedPajamaを混入) ベースライン① Raw CPT:生の1.3Mトークンで直接CPT(4 epoch)→ ベースより悪化 ベースライン② Rephrase CPT:記事リフレーズで1.8M生成 → 43%で飽和 結果:Base 39.49% → EntiGraph CPT 56.22%(+16.73pt)。RAGの改善幅(+20.86pt)の80%を、文書参照なしで達成 19

20.

学習データの規模感 (関連研究との比較) 一般的なドメインアダプテーション用学習データより **1万倍** 少ない量のデータ 出典:論文図表 20

21.

実験結果 56.42% ✦ 単純な言い換えより高い精度 RephraseCPT ✦ GPT-3.5やGPT-4の closed book を超える ✦ 単なるCPTはむしろ下がる Raw CPT 出典:論文図表 21

22.

実験結果 RAGと提案手法の両方を使うことでより精度が高まる Open-Book(RAG)設定での比較 ✦ 項目 ✦ 主な発見 Accuracy: QuALITY QAの正答率 EntiGraph + RAG(62.60%)は Recall@8: 上位8チャンクに正解 Base + RAG(60.35%)を上回る 文書が含まれる割合 → CPTで獲得した知識はRAGと相補的 22

23.

まとめ ✦ 提案手法:小コーパスをEntiGraphで合成拡張し、継続事前学習 ✦ スケーリング:QA精度は合成トークン数に対してlog-linearに向上。 単なるリフレーズ(言い換え)手法は早期飽和 ✦ RAGと相補的:CPTで得た知識とRAGを組合せると更に精度向上 ✦ 数理モデル:合成データが知識を「再配置」する仕組みを理論的に説明 ✦ 今後の課題:ニッチ領域以外の一般的な事前学習データにも有効か? 23

24.

感想 ✦ 理論曲線と学習曲線が一致しているのはとても興味深い ✦ 理論の前提は、LLMは学習すれば必ず記憶するという前提だが、LLMの継続学習の難しいところ は実際はそうではない(思ったとおりにそもそも学習されない)ところではないか(raw cpt が精 度が悪化しているのがその証左) ✦ ドキュメントが実在するパブリックドメインの長文テキスト(フィクション・ノンフィクション混 在)である為、最新のLLMだと何もしなくても高精度を達成出来る可能性がある。 ✦ 論文実装を見ると、グラフノード探索はしておらず、単にnC2全組み合わせなどから合成データ化 している。理論と実装は乖離しているが、学習曲線は一致している ✦ 未知の新知識や、既存知識の変更(例えば大統領の変更)、個々人のパーソナルな情報などの目的 でのLLMの継続学習手法としても活用できるか ✦ SFT+RLHF(DPO)といったアラインメント(強化学習)部分は、学習をトイモデル化して、この ように数学的モデル化できるか? 24

25.

Thank you. 25