【論文読み会】Efficiently Learning at Test-Time: Active Fine-Tuning of LLMs

134 Views

June 28, 25

#sift #test-time fine-tuning #大規模言語モデル #推論時ファインチューニング #機械学習 #Active Learning #データ選択

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 29.1K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 18.1K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 16.5K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 12.5K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 11.9K

各ページのテキスト

2025年度第2回論文読会 Efﬁciently Learning at Test‑Time: Active Fine‑Tuning of LLMs（SIFT） LLM向けSIFTメソッド：情報量最大化による推論時ファインチューニング Jonas Hübotter, Sascha Bongni, Ido Hakimi, Andreas Krause（ETHチューリッヒ） NeurIPS 2024（口頭発表）/ arXiv 2410.08020v2（2024年12月） KaiRA社会人メンバー柴田たけお 0

目次 ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ 論文概要(ABSTRACT) 背景と問題設定(INTRODUCTION) 推論時ファインチューニング (TTFT) 概要不確実性の定量化 SIFTの「選ぶ根拠」 SIFT - 不確実性を最速で削るデータ選択手法 Bits-per-Byte（bpb）指標の概要結果計算コスト比例型TTFT 議論と今後の展望デモ：簡単な概念をなぞった実験

ABSTRACT - 論文概要 1 課題 2 従来のNN取得は冗長データを選択し性能低下 3 検証結果 SIFTはNNより一貫してperplexity改善、計算コスト増加は微小結論：TTFTにはNN取得よりSIFTを推奨、情報効率と性能向上を両立 perplexity(PPT): 言語モデルがテスト文をどれだけ「当てやすい」かを示す指標。 SIFT手法不確実性最小化と情報ゲイン最大化の貪欲選択 4 実用化 Adaptive SIFTで計算量調整可能、activeftライブラリで実装

INTRODUCTION - 背景と問題設定現状の課題 SIFT手法実証結果 LLMのファインチューニングでは一般的に RetrievalとActive Learningを統合し、不 The Pileデータセットでの検証でSIFTが使用されるNearest-Neighbor取得法が確実性を最小化するサブセットを貪欲に選 NNより一貫してperplexityを改善。計算コ冗長データを選びやすく、モデル性能を阻択。情報の重複を考慮して総情報ゲインをストはわずかな増加のみ。不確実性推定に害している。最大化する。より計算量を適応的に調整可能。 ● 主要貢献 1. NN 検索の冗長性を理論的に証明 2. 応答不確実性を測る新指標を導出 3. SIFT が統計的に不確実性を収束させることを証明 4. 実験で NN を一貫して上回る性能・頑健性を実証 5. **Adaptive SIFT**: 計算コストを性能ゲインに比例配分 ● TTFT の鍵は「*どのデータを学習するか*」。 SIFT は情報利得を最大化し、NN 手法の冗長性問題を解消する。。

推論時ファインチューニング (TTFT) 概要定義と基本概念 TTFT vs 他手法 TTFTは自然言語処理モデルの新手法である。特定プロンプトに対計算量はトークン長Tに対して線形O(T)であり、ICL(O(T²))より効率し、極少数の例を用いて1ステップの微調整を行う。的である。ドメインXはトークン列で、事前学習済みARLMがp(·|x)を出力する。重み更新により外部知識を永続的に反映できる点がRAGと異なる。 1 中心課題: データ選択 2 NNの限界点 3 SIFTの提案自動アルゴリズムによるデータ選択冗長性と偏りにより学習効率が低関連性と多様性を両立させ、情報利が必須。現状は近傍検索(NN)が主下。類似情報の重複や負の類似度得を最大化する選択戦略。理論的保流だが限界がある。の有用例を見逃す。証と実験的優位性を持つ。手法主要コスト計算量のスケール TTFT 1 ステップの順伝播＋逆伝播 O(T)（トークン数に線形） ICL（few-shot / prompt engineering） Transformer の自己注意 O(T²)（注意行列が T×T）

不確実性の定量化： SIFTの「選ぶ根拠」なぜ不確実性か？サロゲート (代理）線形モデル微調整するデータの価値を数値で測定するた事前学習LLMの埋め込み ϕ(x) 上で線形近似正則化付き損失で Wₙを推定 F robeniusノルムで「元モデルからのずれ」を抑め、「まだ何を知らないか」を表す不確実性 σₙ を行い、全パラメータを動かすのではなく情報制する。命題3.3によれば、1ステップ微調整はという概念を導入した。これにより、追加学習の指標を計算しやすくする工夫を実装した。これ正則化解とほぼ等価であり、理論と実装の整必要性を定量的に評価できる。により計算効率が向上する。合性が保証される。不確実性メトリクス σₙ(x) は、選択済みデータ Xₙ がプロンプト x をどれだけ「説明」したかの残差を表す。この値が大きいほど、まだ学習の余地があることを意味する。定理 3.2により、任意の n において「真の分布」との距離を σₙ × βₙ(δ) で上から抑えられることが保証されている。 SIFTの核心的発想は「 σₙ(x⋆) を最速で下げるデータを貪欲に選ぶ」ことにある。この方法論によって、重複サンプルは自動的に排除され、多様かつ有用なデータのサブセットが構築される。不確実性を可視化できるからこそ、「次に学習すべきデータ」が理論的根拠に基づいて決定できるのである。

SIFT - 不確実性を最速で削るデータ選択手法目的手順プロンプト x⋆ に対する不確実性 σn(x⋆) を最 1. 既選択データと候補で不確実性を計算情報が十分あれば不確実性はO(1/√n)で消小化する 2. 不確実性を最大に削減する例をgreedy 失する(n:TTFTで使用したデータ数) 追加 NN取得はこの保証を持たず、重複データで追加分だけモデルを1ステップ微調整停滞する 3. 理論的保証パラメータλでRelevanceとDiversityのバランスを制御する。大きいと近い例に集中し、小さいと多様な例を選択する。実装上の工夫として、シーケンス単位選択、RoBERTa埋め込み、二段階選択プロセスにより、計算オーバーヘッドを1.05倍未満に抑えている。

結果: Bits-per-Byte（bpb）指標の概要 bpbは1バイトあたりの2進交差エントロピーを測定する指標である。パープレキシティとの関係モデルの予測誤差を圧縮可能な情報量としてビット単位で定量化する。計算式トークン長・語彙サイズに依存せず、データセット間の比較が容易である。基本特性 • 低値ほど優れている（予測精度が高い） • 0.0 bpb：理論上の完全予測 • 圧縮率に直結（例：0.8 bpbなら20%圧縮可能） Pileベンチマークでの実績 GPT-2 124M 1.241（基準） Phi-3 3.8B 0.679（45%改善） SIFT + GPT-2 0.862（31%改善）本研究では、モデル選択アルゴリズムの評価指標として採用し、適応的SIFTの停止判定に活用している。

結果：実験設定 & 評価指標テスト時ファインチューニング（TTFT）によるモデル性能向上の実験結果 1 実験モデル 2 データ選択指標 3 評価指標: Bits-per-Byte (bpb) GPT-2（124M） Nearest Neighbor (NN) NLL を 1 バイトあたりのビット数に正規化 GPT-2-Large（774M） SIFT（本論文提案）低いほど良い（＝モデルが次トークンを高確率で予測） Phi-3（3.8B、LoRA 1%） Base（TTFTなし） / Context (ICL) 90 % CI: ブートストラップ 1000 回

10.

結果：bpb 改善 — SIFT は NN を大幅に上回る **US:Uncertainty Sampling（不確実性サンプリング ) Active Learning 系で定番のベースラインで、「モデルが最も予測に自信がない（＝𝜎ₙ が大きい）データ」を上位 K 件選んで微調整する手法。 λ Fine-TuningはSIFTを採用 NN:プロンプトとコサイン類似度が最も高い（＝内容が最も近い）順に K 件を取得し，そのまま TTFT。 NN-F: あえて類似度が最も低い（遠い）サンプル K 件を取得し TTFT

11.

結果: 不確実性推定と計算効率 Adaptive-SIFT の強み σ̂ₙ(不確実性推定） ↔ bpb Adaptive-SIFT 計算効率 -実測でほぼ線形相関 → -しきい値σ̂ₙ < (α n)⁻¹で自動停止 -Faiss で 200 候補取得後、性能改善を事前に予測 -性能ゲイン ∝ 使用計算量を実証 SIFT で 50 件絞り込み - 「reliability diagram」でキャリブレーション良好 -RTX 4090 で NN 比 ≈ 1.05× の軽微なオーバーヘッド => Adaptive SIFTでSIFTは高精度に加え低計算コスト・自己停止機能を兼ね備え、TTFTの実用化に貢献

12.

計算コスト比例型TTFT 課題洞察 1：不確実性 ↔ 性能ゲイン • • 既存 TTFT は全プロンプトで固定回数微調整 ⇒ 簡単な入力にも余分な計算コスト • 応答不確実性 σₙ(x★) と誤差指標 Bits-per-Byte (bpbₙ) がほぼ線形相関 "Hello" に GPU を回すのはムダ、一方で難しい質問にはもっと計算を • 相関係数 ≈ 0.4（正規化済み）割きたい • 補正値 σ̂ₙ = σₙ·bpb₀ では ≳ 0.5 • 誤差 ≃ 1 / σₙ と近似でき、残り伸びしろが推定可能洞察 2：Adaptive SIFT の早期停止規則停止条件: σₙ(x★) > (α · n)⁻¹ （n = 現在のステップ数）α は結果と意義 • α を変えても性能ゲイン ∝ 使用計算量の関係を実証 • GPT2 では平均 ≈ 15 step で、固定 50 step とほぼ同等の bpb 改「1ステップ当たり欲しい性能向上量」を表す係数 • 難しいプロンプト ⇒ 条件満たさず続行 • 易しい／情報不足プロンプト ⇒ 早期停止で計算節約善 • 「支払った計算分だけ賢くなる」TTFT を実現 • レイテンシ・電力制約の実アプリに好適 • 将来的には TTFT のスケーリング則、モデルサイズ依存、検索系推論との統合が課題

13.

議論と今後の展望 SIFTの本質主要成果計算効率と将来性検索（NN）とアクティブ学習を統合したデータデータ取得を「検索」から「学習」へと一般化不確実性が性能向上を予測し、Adaptive 選択アルゴリズム。推論前に不確実性を推定し、常に情報価値を最大化。The Pileにおい SIFTにより必要なプロンプトのみに計算資源し、最も情報量の高い例をgreedy選択するこて一貫してNNを上回り、ICLよりも局所的なを投入。TTFTにより限られたコンテキスト長とでNNの冗長性問題を解消する。微調整が有効であることを実証。という制約を回避し、「外部メモリ」を動的活用。今後の研究方向 • 信頼データによるグラウンディング、バイアス緩和、プライベートデータの動的注入 • コード生成・生命科学などの非パープレキシティ系タスクへの適用拡大 • 拡散モデルやポストトレーニング指示チューニングへの応用 • モデルサイズ・推論計算量と性能の関係を体系化するTTFTのスケーリング則の解明

14.

デモ：簡単な概念をなぞった実験項目論文 (Hubotter et al.) 実験スクリプト 1 (Vanilla SIFT) 実験スクリプト 2(Adaptive SIFT 疑似版 ) データ選択 SIFT (候補200→50) SIFT (TOP 8) SIFT (TOP 8) 微調整ステップ 1 step / doc × 50 doc = 50 step 固定 10 step 固定最大50 step だが σ 条件で可変（早ければ数 step で停止） Early-Stopping ルール σₙ > (α n)⁻¹ （論文提案）なし実装：・bpb を σₙ の代替とみなす・α=0.25 で停止判定 Compute–Perfor mance 比 (α) 0.15–0.5 を実験固定コンピュート α=0.25 に固定（変更可）評価指標 bpb（Pile 上） bpb（質問 1 文）loss も表示同左停止判定に使う σₙ カーネル式で厳密計算未実装 bpb を直接 σₙ 近似（簡易）最大ステップ 50 10 50 実行時間 /VRAM RTX 4090 ≈ 数秒／prompt 16 GB GPU で数十秒早期停止でさらに短縮コード差分の要点 – Vanilla • ALPHA, STEPS_MAX のハイパパラ• bpb 計算関数をループ内で毎回呼出• 停止条件 if σₙ > 1/(α·n)• 停止時に break & レポート https://github.com/takeofuture/TTFT-SIFT

https://github.com/takeofuture/TTFT-SIFT