【DL輪読会】Learning to Reason without External Rewards

-- Views

September 11, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers]

2.

タイトル Learning to Reason without External Rewards 外部報酬なしにモデル内部確信度のみでリーズニングモデルを学習する リンク ICML2025 Workshop https://icml.cc/virtual/2025/52447 著者 Xuandong Zhao¹, Zhewei Kang¹, Aosong Feng², Sergey Levine¹, Dawn Song¹ ¹UC Berkeley, ²Yale University 発表日 2025/5/26 arxiv 概要 GRPOは正解を用いるが、提案手法はLLM内部確信度のみで同程度の数学の精度達成 選定理由 LLMの内発的動機に興味があり、今後のLLM自己学習の一つの視点を提供しているため 実装 https://github.com/sunblaze-ucb/Intuitor ※出典記載の無い図表は本論文からの引用

3.

◼ GRPO(正解が必要)と数学で同程度の精度が、提案手法の RLIF (正解が不要)で出せる ◼ モチベーション:LLMが人間による直接評価が困難となる超人的能力まで及んだ場合、内在的メカニ ズムを通じた自己改善手法を切り開く必要がある 学習対象LLM 強化学習 評価 • Math Qwen2.5-1.5B • GRPO • Codeforces Qwen2.5-3B • RLIF 提案手法 • • • • データセット Self-certainty (自己自信) 筆者による作図 数学 コーディング 知識理解 指示追従

5.

- 人間が大量の正解データを準備 / シンプルだが大量のラベリング作業が必要 - 人間の好みを学習 → より自然な対話 / ChatGPT、GPT-4の基盤技術 - 問題:人間による評価が高コスト - 自動検証可能な報酬(数学の正答、コード実行結果) - DeepSeek-R1, OpenAI o1などで採用 / 問題:特定分野に限定、正解データ必須 - モデル内部の自己評価のみで学習 / 外部依存ゼロの完全自律学習

6.

• 人間ラベル RLHF 正解ラベル RLVR RLIF(提案手法) Self-certainty 自己自信

7.

• 学習対象LLM の初期状態 学習対象 LLM プロンプト データセットで 使用するのは 問題部分のみ LLM応答 リーズニング部分と 回答を応答 GRPOと全く同じ

8.

• Token Vocab Self-certaintyは下記論文によるが、上記数式は下記をもとに本論文が提示している式 Zhewei Kang, Xuandong Zhao, and Dawn Song. Scalable best-of-n selection for large language models via selfcertainty. arXiv preprint arXiv:2502.18581, 2025.

9.

10.

データ 内容例

11.

≤ データ 内容例 ≤ ⁵ ⁴≤ ≤ ⁴

12.

実験名 学習対象LLM 学習データセット 学習手法 評価ベンチマーク 目的 Base Qwen2.5-1.5B - 事前学習のみ 全ベンチマーク ベースライン Base Qwen2.5-3B - 事前学習のみ 全ベンチマーク ベースライン GRPO Qwen2.5-1.5B MATH (7,500問) GRPO 全ベンチマーク 従来手法(正解使用) GRPO Qwen2.5-3B MATH (7,500問) GRPO 全ベンチマーク 従来手法(正解使用) GRPO-PV Qwen2.5-3B MATH (7,500問) GRPO + 多数決 全ベンチマーク 正解近似手法 Intuitor Qwen2.5-1.5B MATH (7,500問) Intuitor 全ベンチマーク 本研究手法 Intuitor Qwen2.5-3B MATH (7,500問) Intuitor 全ベンチマーク 本研究手法 Intuitor-Code Qwen2.5-3B Codeforces (3,200問) Intuitor 全ベンチマーク ドメイン外汎化検証

13.

ベンチマーク 内容 評価コード 評価方法 目的 GSM8K 小学校レベルの数学問題 lightevalライブラリ 正解率 数学推論能力(ドメイン内) MATH500 数学競技レベルの難問 lightevalライブラリ 正解率 数学推論能力(ドメイン内) LiveCodeBench (LCB) 実用的なプログラミング問題 LCB独自システム コード実行テスト コード生成能力(ドメイン外) CRUXEval-O コード理解・推論タスク ZeroEvalフレームワーク 自動評価 コード推論能力(ドメイン外) MMLU-Pro 多分野の一般知識問題 標準評価プロトコル 正解率 一般知識・理解力 AlpacaEval 2.0 指示従事タスク GPT-4.1判定 長さ制御勝率 指示従事能力

14.

◼ ◼ 数学 コーディング 知識理解 指示追従

15.

• •

16.

17.

• GRPO INTUITOR(提案手法) 特徴 直接的にJSON形式で回答 会話的な前置き + JSON形式 推論 簡潔で効率的 より詳細で理解しやすい 自己確信度を高めるために、 外部報酬(正解マッチング) 理由 自分自身が理解できる説明を に最適化されているため 追加

18.

• 有効コード 推論なし 無効コード 有効コード 推論あり

19.

• 【オンライン】 学習Step毎に Self-Certaintyを計算する LLMを更新 【オフライン】 Self-Certaintyを計算する LLMは初期モデルで固定

20.

• Baseモデルで 生成&評価 Baseモデルで生成 INTUITORで評価 INTUITORモデルで 生成&評価 GRPOモデルで 生成&評価

21.

◼ ◼ ◼ ◼ ◼ ◼

22.

◼ ◼ ◼

23.

◼ ◼ ◼ ◼ ◼ ◼ 23

24.

Thank you.