【論文読み会】Efficiently Learning at Test-Time: Active Fine-Tuning of LLMs

>100 Views

June 28, 25

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

2025年度 第2回 論文読会 Efficiently Learning at Test‑Time: Active Fine‑Tuning of LLMs(SIFT) LLM向けSIFTメソッド:情報量最大化による推論時ファインチューニング Jonas Hübotter, Sascha Bongni, Ido Hakimi, Andreas Krause(ETHチューリッヒ) NeurIPS 2024(口頭発表)/ arXiv 2410.08020v2(2024年12月) KaiRA社会人メンバー 柴田 たけお 0

2.

目次 ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ 論文概要(ABSTRACT) 背景と問題設定(INTRODUCTION) 推論時ファインチューニング (TTFT) 概要 不確実性の定量化 SIFTの「選ぶ根拠」 SIFT - 不確実性を最速で削るデータ選択手法 Bits-per-Byte(bpb)指標の概要 結果 計算コスト比例型TTFT 議論と今後の展望 デモ:簡単な概念をなぞった実験

3.

ABSTRACT - 論文概要 1 課題 2 従来のNN取得は冗長データを選択し性能低下 3 検証結果 SIFTはNNより一貫してperplexity改善、計算コスト増加は微 小 結論:TTFTにはNN取得よりSIFTを推奨、情報効率と性能向上を両立 perplexity(PPT): 言語モデルがテスト文をどれだけ「当てやすい」かを示す指標。 SIFT手法 不確実性最小化と情報ゲイン最大化の貪欲選択 4 実用化 Adaptive SIFTで計算量調整可能、activeftライブラリで実装

4.

INTRODUCTION - 背景と問題設定 現状の課題 SIFT手法 実証結果 LLMのファインチューニングでは一般的に RetrievalとActive Learningを統合し、不 The Pileデータセットでの検証でSIFTが 使用されるNearest-Neighbor取得法が 確実性を最小化するサブセットを貪欲に選 NNより一貫してperplexityを改善。計算コ 冗長データを選びやすく、モデル性能を阻 択。情報の重複を考慮して総情報ゲインを ストはわずかな増加のみ。不確実性推定に 害している。 最大化する。 より計算量を適応的に調整可能。 ● 主要貢献 1. NN 検索の冗長性を理論的に証明 2. 応答不確実性を測る新指標を導出 3. SIFT が統計的に不確実性を収束させることを証明 4. 実験で NN を一貫して上回る性能・頑健性を実証 5. **Adaptive SIFT**: 計算コストを性能ゲインに比例配分 ● TTFT の鍵は「*どのデータを学習するか*」。 SIFT は情報利得を最大化し、NN 手法の冗長性問題を解消する。。

5.

推論時ファインチューニング (TTFT) 概要 定義と基本概念 TTFT vs 他手法 TTFTは自然言語処理モデルの新手法である。特定プロンプトに対 計算量はトークン長Tに対して線形O(T)であり、ICL(O(T²))より効率 し、極少数の例を用いて1ステップの微調整を行う。 的である。 ドメインXはトークン列で、事前学習済みARLMがp(·|x)を出力する。 重み更新により外部知識を永続的に反映できる点がRAGと異なる。 1 中心課題: データ選択 2 NNの限界点 3 SIFTの提案 自動アルゴリズムによるデータ選択 冗長性と偏りにより学習効率が低 関連性と多様性を両立させ、情報利 が必須。現状は近傍検索(NN)が主 下。類似情報の重複や負の類似度 得を最大化する選択戦略。理論的保 流だが限界がある。 の有用例を見逃す。 証と実験的優位性を持つ。 手法 主要コスト 計算量のスケール TTFT 1 ステップの順伝播+逆伝播 O(T)(トークン数に線形) ICL(few-shot / prompt engineering) Transformer の自己注意 O(T²)(注意行列が T×T)

6.

不確実性の定量化: SIFTの「選ぶ根拠」 なぜ不確実性か? サロゲート (代理)線形モデル 微調整するデータの価値を数値で測定するた 事前学習LLMの埋め込み ϕ(x) 上で線形近似 正則化付き損失で Wₙを推 定 F robeniusノルムで「元モデルからのずれ」を抑 め、「まだ何を知らないか」を表す 不確実性 σₙ を行い、全パラメータを動かすのではなく情報 制する。命題3.3によれば、1ステップ微調整は という概念を導入した。これにより、追加学習の 指標を計算しやすくする工夫を実装した。これ 正則化解とほぼ等価であり、理論と実装の整 必要性を定量的に評価できる。 により計算効率が向上する。 合性が保証される。 不確実性メトリクス σₙ(x) は、選択済みデータ Xₙ がプロンプト x をどれだけ「説明」したかの残差を表す。この値が大きいほど、まだ学習の余地があることを 意味する。定理 3.2により、任意の n において「真の分布」との距離を σₙ × βₙ(δ) で上から抑えられることが保証されている。 SIFTの核心的発想は「 σₙ(x⋆) を最速で下げるデータを貪欲に選ぶ」ことにある。この方法論によって、重複サンプルは自動的に排除され、多様かつ有用なデー タのサブセットが構築される。不確実性を可視化できるからこそ、「次に学習すべきデータ」が理論的根拠に基づいて決定できるのである。

7.

SIFT - 不確実性を最速で削るデータ選択手法 目的 手順 プロンプト x⋆ に対する不確実性 σn(x⋆) を最 1. 既選択データと候補で不確実性を計算 情報が十分あれば不確実性はO(1/√n)で消 小化する 2. 不確実性を最大に削減する例をgreedy 失する(n:TTFTで使用したデータ数) 追加 NN取得はこの保証を持たず、重複データで 追加分だけモデルを1ステップ微調整 停滞する 3. 理論的保証 パラメータλでRelevanceとDiversityのバランスを制御する。大きいと近い例に集中し、小さいと多様な例を選択する。 実装上の工夫として、シーケンス単位選択、RoBERTa埋め込み、二段階選択プロセスにより、計算オーバーヘッドを1.05倍未満に抑えている。

8.

結果: Bits-per-Byte(bpb)指標の概要 bpbは1バイトあたりの2進交差エントロピー を測定する指標である。 パープレキシティとの関係 モデルの予測誤差を圧縮可能な情報量としてビット単位で定量化する。 計算式 トークン長・語彙サイズに依存せず、データセット間の比較が容易 である。 基本特性 • 低値ほど優れている(予測精度が高い) • 0.0 bpb:理論上の完全予測 • 圧縮率に直結(例:0.8 bpbなら20%圧縮可能) Pileベンチマークでの実績 GPT-2 124M 1.241(基準) Phi-3 3.8B 0.679(45%改善) SIFT + GPT-2 0.862(31%改善) 本研究では、モデル選択アルゴリズムの評価指標として採用し、適応的SIFTの 停止判定に活用している。

9.

結果:実験設定 & 評価指標 テスト時ファインチューニング(TTFT)によるモデル性能向上の実験結果 1 実験モデル 2 データ選択指標 3 評価指標: Bits-per-Byte (bpb) GPT-2(124M) Nearest Neighbor (NN) NLL を 1 バイトあたりのビット数に正規化 GPT-2-Large(774M) SIFT(本論文提案) 低いほど良い(=モデルが次トークンを高確率で予測) Phi-3(3.8B、LoRA 1%) Base(TTFTなし) / Context (ICL) 90 % CI: ブートストラップ 1000 回

10.

結果:bpb 改善 — SIFT は NN を大幅に上回る **US:Uncertainty Sampling(不確実性サンプリング ) Active Learning 系で定番のベースラインで、 「モデルが最も予測に自信がない(=𝜎ₙ が大きい)データ」 を上位 K 件選んで微調整する手法。 λ Fine-TuningはSIFTを採用 NN:プロンプトと コサイン類似度が最も高い (=内容が最も近い)順に K 件を取得し,そのまま TTFT。 NN-F: あえて 類似度が最も低い(遠い) サンプル K 件を取得し TTFT

11.

結果: 不確実性推定と計算効率 Adaptive-SIFT の強み σ̂ₙ(不確実性推定) ↔ bpb Adaptive-SIFT 計算効率 -実測でほぼ線形相関 → -しきい値σ̂ₙ < (α n)⁻¹で自動停止 -Faiss で 200 候補取得後、 性能改善を事前に予測 -性能ゲイン ∝ 使用計算量 を実証 SIFT で 50 件絞り込み - 「reliability diagram」で キャリブレーション良好 -RTX 4090 で NN 比 ≈ 1.05× の 軽微なオーバーヘッド => Adaptive SIFTでSIFTは高精度に加え低計算コスト・自己停止機能を兼ね備え、TTFTの実用化に貢献

12.

計算コスト比例型TTFT 課題 洞察 1:不確実性 ↔ 性能ゲイン • • 既存 TTFT は全プロンプトで固定回数微調整 ⇒ 簡単な入力にも余 分な計算コスト • 応答不確実性 σₙ(x★) と誤差指標 Bits-per-Byte (bpbₙ) が ほ ぼ線形相関 "Hello" に GPU を回すのはムダ、一方で難しい質問にはもっと計算を • 相関係数 ≈ 0.4(正規化済み) 割きたい • 補正値 σ̂ₙ = σₙ·bpb₀ では ≳ 0.5 • 誤差 ≃ 1 / σₙ と近似でき、残り伸びしろ が推定可能 洞察 2:Adaptive SIFT の早期停止規則 停止条件: σₙ(x★) > (α · n)⁻¹ (n = 現在のステップ数)α は 結果と意義 • α を変えても 性能ゲイン ∝ 使用計算量 の関係を実証 • GPT2 では平均 ≈ 15 step で、固定 50 step とほぼ同等の bpb 改 「1ステップ当たり欲しい性能向上量」を表す係数 • 難しいプロンプト ⇒ 条件満たさず続行 • 易しい/情報不足プロンプト ⇒ 早期停止で計算節約 善 • 「支払った計算分だけ賢くなる」TTFT を実現 • レイテンシ・電力制約の実アプリに好適 • 将来的には TTFT のスケーリング則、モデルサイズ依存、検索系推 論との統合が課題

13.

議論と今後の展望 SIFTの本質 主要成果 計算効率と将来性 検索(NN)とアクティブ学習を統合したデータ データ取得を「検索」から「学習」へと一般化 不確実性が性能向上を予測し、Adaptive 選択アルゴリズム。推論前に不確実性を推定 し、常に情報価値を最大化。The Pileにおい SIFTにより必要なプロンプトのみに計算資源 し、最も情報量の高い例をgreedy選択するこ て一貫してNNを上回り、ICLよりも局所的な を投入。TTFTにより限られたコンテキスト長 とでNNの冗長性問題を解消する。 微調整が有効であることを実証。 という制約を回避し、「外部メモリ」を動的活 用。 今後の研究方向 • 信頼データによるグラウンディング、バイアス緩和、プライベートデータの動的注入 • コード生成・生命科学などの非パープレキシティ系タスクへの適用拡大 • 拡散モデルやポストトレーニング指示チューニングへの応用 • モデルサイズ・推論計算量と性能の関係を体系化するTTFTのスケーリング則の解明

14.

デモ:簡単な概念をなぞった実験 項目 論文 (Hubotter et al.) 実験スクリプト 1 (Vanilla SIFT) 実験スクリプト 2(Adaptive SIFT 疑似版 ) データ選択 SIFT (候補200→50) SIFT (TOP 8) SIFT (TOP 8) 微調整ステップ 1 step / doc × 50 doc = 50 step 固定 10 step 固定 最大50 step だが σ 条件で可変 (早ければ数 step で停止) Early-Stopping ルール σₙ > (α n)⁻¹ (論文提案) なし 実装:・bpb を σₙ の代替とみなす ・α=0.25 で停止判定 Compute–Perfor mance 比 (α) 0.15–0.5 を実験 固定コンピュート α=0.25 に固定(変更可) 評価指標 bpb(Pile 上) bpb(質問 1 文)loss も表示 同左 停止判定に使う σₙ カーネル式で厳密計算 未実装 bpb を直接 σₙ 近似(簡易) 最大ステップ 50 10 50 実行時間 /VRAM RTX 4090 ≈ 数秒/prompt 16 GB GPU で数十秒 早期停止でさらに短縮 コード差分の要点 – Vanilla • ALPHA, STEPS_MAX の ハイパパラ• bpb 計算関数をループ内で 毎回呼出• 停止条件 if σₙ > 1/(α·n)• 停止時に break & レポート https://github.com/takeofuture/TTFT-SIFT