2024Fall 大規模言語モデル(LLM)講座 特別回:LLMの自己修正〜OpenAI o1 の関連研究〜

-- Views

October 23, 24

スライド概要

2024/10/17(木)に開催した、東京大学松尾・岩澤研究室の大規模言語モデル(LLM)講座2024「LLMの自己修正〜OpenAI o1 の関連研究〜」を特別に松尾研YouTubeで公開することになりました。
本資料は、YouTube動画(https://youtu.be/rwtBR9ND1YI)で投影しているスライドとなります。

★鴨井講師プロフィール
2020年 慶應義塾大学理工学部数理科学科 卒業
2022年 テキサス大学オースティン校 修士号取得
2023年~ ペンシルベニア州立大学 博士課程所属

研究分野:LLMの信頼性向上、誤り検出、自己修正、評価、マルチモーダル
https://ryokamoi.github.io/
https://x.com/ryokamoi

------
本講義内容に興味を持たれた方は、次回2025年以降に開講予定の「大規模言語モデル」の事前登録を行いますので、ぜひお申し込みください。なお、深層学習の基礎から学びたい方には、来年開講予定の「深層学習 / Deep Learning基礎講座」の受講を併せてご検討ください。

東京大学松尾・岩澤研究室では様々なDeep Learningの講座を原則無償で提供しております。
次回の開催案内をご希望の方は下記のフォームよりお申し込みください。

◆東京大学松尾・岩澤研究室 Deep Learning 講座事前申し込み
https://forms.gle/JCyiA9aDogjx9Mn87

◆大規模言語モデル講座 2024 Fall 開催概要(現在は締め切っております)
https://weblab.t.u-tokyo.ac.jp/education/large-language-model/

profile-image

東京大学松尾・研究室が運営する「松尾研LLMコミュニティ」でのイベント資料などを公開します。各種リンクはLinktreeからご覧ください。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

LLMの⾃⼰修正 〜OpenAI o1の関連研究〜 ⼤規模⾔語モデル講座 2024 2024年10⽉17⽇ ペンシルベニア州⽴⼤学 鴨井遼 許諾なく撮影や第三者 への開⽰を禁⽌します LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室

2.

鴨井 遼 2020年 2022年 2023年〜 慶應義塾⼤学理⼯学部数理科学科 卒業 テキサス⼤学オースティン校 修⼠号取得 ペンシルベニア州⽴⼤学 博⼠課程所属 https://ryokamoi.github.io/ https://x.com/ryokamoi 研究分野︓LLMの信頼性向上、誤り検出、⾃⼰修正、評価、マルチモーダル LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 2

3.

OpenAI o1 • 2024年9⽉12⽇に公開 • 数学、コード⽣成、科学QAなどにおいて⼤きな改善 • • これまでの最強LLMだったGPT-4oを圧倒 Reasoningに特化したモデルなので、全てのタスクで最適なわけではない https://openai.com/index/learning-to-reason-with-llms/ LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 3

4.

OpenAI o1: MLE-bench • OpenAI o1はKaggleを解くデータセットにおいても⼤きな向上を実現 Chan et al. (2024) “MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering” LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 4

5.

OpenAI o1: MLE-bench • OpenAI o1はKaggleを解くデータセットにおいても⼤きな向上を実現 • 16.9%のタスクにおいて銅メダル以上を獲得できる性能を達成 Chan et al. (2024) “MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering” LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 5

6.

OpenAI o1: LLMの自己修正 GPT-4oなど既存のLLMにはなかった 新たな機能 • • 複数の異なる思考プロセスを試す ⾃分の思考プロセスに含まれる 誤りを検出して修正する (実は有料版のChatGPTではコード⽣成に おいて⾃⼰修正する機能は付いていた) https://platform.openai.com/docs/guides/reasoning/how-reasoning-works LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 6

7.

OpenAI o1: 出力例 • 競技プログラミングを解かせてみると、上⼿く⾏かなかったときに ⾊々な解き⽅を試しているのが分かる 2024年10月16日の ChatGPT o1-preview からの出力 入力した問題:https://codeforces.com/contest/546/problem/E LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 7

8.

OpenAI o1: Inference-time Scaling • • 学習をすればするほど、Inferenceに時間を掛ければ掛けるほど、 数学オリンピックの問題をうまく答えられるようになる Inference-time Scaling の時代の到来か︖と話題になった https://openai.com/index/learning-to-reason-with-llms/ LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 8

9.

OpenAI o1はどのくらい革新的なモデルなのか? • 最新のモデルに対して⾃⼰修正のための⼤規模な学習を⾏った初めての試み 最新のモデルが⾃分の出⼒を改善することで多くのタスクにおいて性能を向 上させた初めてのモデル • しかし、⾃⼰修正を含めInference時の出⼒改善は多く研究されてきた • 本⽇の⽬標︓OpenAI o1に⾄るまでの研究の歴史と、残っている課題を知る LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 9

10.

ちなみに・・・ 今回の講義は私の以下の論⽂を元に構成しています • • Ryo Kamoi, Sarkar Snigdha Sarathi Das, Renze Lou, Jihyun Janice Ahn, Yilun Zhao, Xiaoxin Lu, Nan Zhang, Yusen Zhang, Ranran Haoran Zhang, Sujeeth Reddy Vummanthala, Salika Dave, Shaobo Qin, Arman Cohan, Wenpeng Yin, Rui Zhang. (2024) ”Evaluating LLMs at Detecting Errors in LLM Responses” COLM 2024 Ryo Kamoi, Yusen Zhang, Nan Zhang, Jiawei Han, Rui Zhang. (2024) “When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs“ TACL 2024 (to appear) LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 10

11.

目次 • • • Inference時にLLMの出⼒を改善する研究(追加学習なし) Inference時にLLMの出⼒を改善する研究(追加学習あり) OpenAI o1は今までの⼿法と何が違うのか︖ LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 11

12.

Inference時にLLMの出力を改善する研究(追加学習なし) • Promptの改善(1個の出⼒) • • • Few-shot prompting • 数個〜数⼗個の学習データをプロンプトで与える • 出⼒に思考プロセスを含めるように指⽰する • 特定のタスクに特化したプロンプトを⼈⼿で、もしくは⾃動的に作る Chain-of-Thought Prompt Engineering, Prompt Optimization 既存のLLMの出⼒を更に改善することはできるか︖ LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 12

13.

Inference時にLLMの出力を改善する研究(追加学習なし) • Promptの改善(1個の出⼒) • • • • Few-shot prompting • 数個〜数⼗個の学習データをプロンプトで与える • 出⼒に思考プロセスを含めるように指⽰する • 特定のタスクに特化したプロンプトを⼈⼿で、もしくは⾃動的に作る Chain-of-Thought Prompt Engineering, Prompt Optimization LLMを複数回つかうことでInference時に出⼒を改善する • • • Self-Consistency Generate-and-Rank Self-Correction(⾃⼰修正) LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 13

14.

Self-Consistency (Wang et al., ICLR 2023) Wang et al. (ICLR 2023) “Self-Consistency Improves Chain of Thought Reasoning in Language Models” • 計算や選択肢のあるQAなど最後に1個の回答を出すタスクを対象とした⼿法 • • • 現在は様々なタスクに応⽤されている 少し⾼めの温度パラメーターで同じ⼊⼒に対して複数の出⼒を⽣成する 回答の多数決を取る LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 14

15.

Self-Consistency (Wang et al., ICLR 2023) • 複数の出⼒の多数決を取るだけで、計算や知識QAなどのタスクで性能向上 • シンプルで実装も簡単なので広く⽤いられている Wang et al. (ICLR 2023) “Self-Consistency Improves Chain of Thought Reasoning in Language Models” LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 15

16.

Generate-and-Rank: Motivation • • Self-Consistencyは正しい回答を出⼒する確率が⾼いことを仮定している しかし、必ずしもLLMが正しい回答を多く出⼒してくれるとは限らない • 既にLLMが上⼿く解ける課題において間違いを減らす⼿法と考えるのが良いかも • LLMが正しい回答を出⼒する確率が低くても性能を向上させたい • アイデア︓複数の出⼒から、LLM⾃⾝が正しい出⼒を選んでくれたら嬉しい LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 16

17.

Generate-and-Rank • 同じLLMからの同じ⼊⼒への複数の出⼒から、最も良いものを選択する • ここでは、出⼒の評価も同じLLMを使うことを考える Zhang et al. (ICML 2023) “Coder Reviewer Reranking for Code Generation” Weng et al. (EMNLP 2023 Findings) “Large Language Models are Better Reasoners with Self-Verification” • もちろん、他のモデルを使って評価する⼿法も研究されている(後述) LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 上図は鴨井が作成。 17

18.

Self-Correction: Motivation • Generate-and-Rankは低くない確率でLLMが正しい出⼒を⽣成できること を仮定している • • しかし、難しいタスクでは、そもそも正しい出⼒を⽣成できないことも • • そもそも正しい出⼒を⽣成できないと、正しい出⼒を選ぶことができない 例︓数学の証明問題、コード⽣成 アイデア︓LLMが⾃分⾃⾝の出⼒に含まれる誤りを検出して修正できる︖ LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 18

19.

Self-Correction • LLMの出⼒を、同じLLMに再び⼊⼒してフィードバックを⽣成させる • 同じLLMに元の出⼒とフィードバックを⼊⼒して、改善させる Kamoi et al. (TACL 2024) “When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs” LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 19

20.

Self-Correction:例 • 例︓コードの改善 Madaan et al. (NeurIPS 2023) ”Self-Refine: Iterative Refinement with Self-Feedback” LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 20

21.

本当に追加学習なしでLLMの出力をInference時に改善できるのか? Self-Consistency • タスクによって差はあるが、効果がある場合も多い Generate-and-Rank、Self-Correction • 多くのタスクでLLMが⾃分の誤りを検出するのは難しいと報告されている Tyen et al. (ACL 2024 Findings) “LLMs cannot find reasoning errors, but can correct them given the error location” Kamoi et al. (COLM 2024) ”Evaluating LLMs at Detecting Errors in LLM Responses” • 多くのタスクではGenerate-and-RankがSelf-Consistencyより悪かったり、 Self-Correctionによって性能が悪化するなどの結果が報告されている Wang et al. (ICLR 2023) “Self-Consistency Improves Chain of Thought Reasoning in Language Models” Gou et al. (ICLR 2024) “CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing” Huang et al. (ICLR 2024) “Large Language Models Cannot Self-Correct Reasoning Yet” LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 21

22.

本当に追加学習なしでLLMの出力をInference時に改善できるのか? • Self-Correctionによって性能が悪化する原因︓フィードバックの誤り • 元々の出⼒が正しかったのに、修正して答えを変えてしまうこともある Huang et al. (ICLR 2024) “Large Language Models Cannot Self-Correct Reasoning Yet” LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 22

23.

本当に追加学習なしでLLMの出力をInference時に改善できるのか? 追加学習なしで⾃⼰修正できると主張している論⽂はたくさんあるが・・・ LLMの外部の情報を利⽤している • コード⽣成(コンパイラーなど) • 知識を必要とするQA(検索エンジン、Wikipediaなど) Shinn et al. (NeurIPS 2023) “Reflexion: Language Agents with Verbal Reinforcement Learning” Gao et al. (ACL 2023) “RARR: Researching and Revising What Language Models Say, Using Language Models” LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 23

24.

本当に追加学習なしでLLMの出力をInference時に改善できるのか? 追加学習なしで⾃⼰修正できると主張している論⽂はたくさんあるが・・・ LLMの外部の情報を利⽤している • コード⽣成(コンパイラーなど) • 知識を必要とするQA(検索エンジン、Wikipediaなど) Generate-and-RankやSelf-Correctionが得意なタスクを対象としている • • 誤りを簡単に検出できるタスク 評価が出⼒より簡単にできるタスク Game of 24: 4個の数字から24を作るタスクなので、 ⽣成された式の答えが24になっているかを 確認するだけで誤りを検出できる Yao et al. (NeurIPS 2024) “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” Dhuliawala et al. (ACL 2024 Findings) “Chain-of-Verification Reduces Hallucination in Large Language Models” LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 24

25.

本当に追加学習なしでLLMの出力をInference時に改善できるのか? 追加学習なしで⾃⼰修正できると主張している論⽂はたくさんあるが・・・ LLMの外部の情報を利⽤している • コード⽣成(コンパイラーなど) • 知識を必要とするQA(検索エンジン、Wikipediaなど) Generate-and-RankやSelf-Correctionが得意なタスクを対象としている • • 誤りを簡単に検出できるタスク (e.g., Game of 24) 評価が出⼒より簡単にできるタスク (e.g., 分解できるタスク) 実験設定が現実的ではない • 最初の出⼒が弱いプロンプトから⽣成されている • ⾃⼰修正の際に正解が分かっているという条件下で実験している(︕) Huang et al. (ICLR 2024) “Large Language Models Cannot Self-Correct Reasoning Yet” Kamoi et al. (TACL 2024) “When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs” LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 25

26.

ここまでのまとめ • Generate-and-RankやSelf-Correctionは、 LLMを⾃分の出⼒の評価や誤りの検出に使っても上⼿くいかない場合が多い • • 逆に、誤りを⾒つける⼿段があれば出⼒を改善できることが多い • • LLMは⾃分の誤りを⾒つけることができない場合が多い 例︓コード⽣成 これまでに追加の学習なしでLLMのGenerate-and-RankやSelf-Correction を⾏なっている論⽂は多くあるが、提案⼿法に有利な実験設定を⽤いている 場合が多いので注意が必要 LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 26

27.

目次 • • • Inference時にLLMの出⼒を改善する研究(追加学習なし) Inference時にLLMの出⼒を改善する研究(追加学習あり) OpenAI o1は今までの⼿法と何が違うのか︖ LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 27

28.

Inference時にLLMの出力を改善する研究(追加学習あり) • • LLMをそのまま使うとGenerate-and-RankやSelf-Correctionは 上⼿くいかないことが多いと分かってきた Generate-and-RankやSelf-Correctionに特化した学習を⾏えば、 LLMが⾃分の出⼒を改善することはできるのか︖ LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 28

29.

Generate-and-Rank • • • 出⼒を評価するモデルを学習する 様々な⽅法があるが、性能を向上させたいLLMから出⼒を⽣成し、 正誤のラベルをつけて、出⼒を評価するモデルを学習する⼿法が多い ⼈⼿でアノテーションする場合はコストが⼤きい Cobbe et al. (2021) “Training Verifiers to Solve Math Word Problems” LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 29

30.

Self-Correction: 教師ありfine-tuning (SFT) • LLMの⾃⼰修正能⼒を向上するために学習を⾏う⽅法は⾊々とある • 最もシンプルな⼿法は教師ありfine-tuning 例︓⽂書要約タスクにおいてモデルの出⼒を改善するデータを⼈⼿で集める Saunders et al. (2022) “Self-critiquing models for assisting human evaluators” LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 30

31.

Self-Correction: 教師ありfine-tuning (SFT) • • • 誤った出⼒を改善するという学習データがあれば、教師ありfine-tuningで LLMに⾃⼰修正を学ばせることができることが報告されている しかし、⼈⼿で学習データを作るのはコストが⼤きいので、多くの研究では 弱いLLMを強いLLMで⽣成したデータで学習をして検証を⾏っていた SFTが有効であることは検証できたが、最新のモデルを改善できない Kamoi et al. (TACL 2024) “When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs” LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 31

32.

Self-Correction: 強化学習 • フィードバックを⽣成するモデルを強化学習で改善する • • もちろん、出⼒を改善するモデルも学習することもできる 教師ありfine-tuning では「正しいフィードバック」を学習データとして⽤ 意する必要があるが、強化学習では「修正した出⼒が正解かどうか」が分か れば学習することができる(報酬) Akyürek et al. (ACL 2023) “RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs” LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 32

33.

Self-Correction: 強化学習 課題 • 強化学習は⼀般的に学習が不安定である • 出⼒が正しいかどうかを判定する(報酬を定義もしくは学習する)のは多く のタスクで容易ではない • • 前のページで紹介したRL4Fでは、⽂書要約タスクなどの報酬としてROUGE を使⽤しているが、これは信頼できる報酬とは⾔えない 計算や選択肢のあるQAなど最後に1個の回答を出すタスクを対象にする場合 は、最後の答えが合っているかどうかを報酬とする場合もあるが、途中の思 考プロセスが合っているとは限らないので、やはり不完全な報酬である e.g., Kumar et al. (2024) “Training Language Models to Self-Correct via Reinforcement Learning” LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 33

34.

目次 • • • Inference時にLLMの出⼒を改善する研究(追加学習なし) Inference時にLLMの出⼒を改善する研究(追加学習あり) OpenAI o1は今までの⼿法と何が違うのか︖ LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 34

35.

OpenAI o1 学習やInferenceの詳細はほとんど公開されていない… 公開されている内容︓⼤規模な強化学習を⾏っている • ⾃分の思考プロセスを修正する(⾃⼰修正)ように学習されている • 幅広い思考プロセスを試すように学習されている 強化学習で⾃⼰修正を学習するというアイデア⾃体は既存研究と同じだが… 既存研究からの改善点は︖ • 思考プロセスの内容も評価できるような報酬を設計していると思われる LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 35

36.

思考プロセスの評価 • 最後の回答だけではなく思考プロセスも評価するために、 正しい思考プロセスと間違った思考プロセスが含まれるデータセットで 評価モデルを学習する研究もある Liang et al. (2024) “Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification” • • 教師ありfine-tuningよりはマシだが、学習データを集める⽅法が課題 OpenAI o1がどのような⽅法を使っているかは分からないが、 ⼤規模なアノテーションで解決した可能性もある︖ LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 36

37.

ここまでのまとめ • OpenAI o1はアイデアとして新しいことを提案しているわけではない︖ • • • 強化学習を⽤いて⾃⼰修正を学習するというアイデアは研究されてきた (今回の発表では触れていないが)多様な思考プロセスを試すという研究も多くある OpenAI o1の最も偉い点は、これらの既存アイデアを⽤いて最新のモデルに 対して⼤規模な学習を⾏なって実装したことだと思われる • 実は⾰新的なアイデアが使われているかもしれないが、 公開されている内容からだと分からない・・・ LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 37

38.

OpenAI o1: 残されている課題 • より公平な評価 • • OpenAI o1 を既存のLLMと⽐較する場合、既存のLLMを⽤いて⾃⼰修正する⼿法と⽐ 較する必要があるが、多くの場合はLLMからの1個の出⼒と性能を⽐較している 実際に、最新のLLMに既存の⾃⼰修正⼿法を使うとo1に近い性能を達成したと主張して いるブログ記事もある アメリカの⼊試問題における性能 • ⻩⾊︓そのままのLLM • ⻘⾊︓⾃⼰改善⼿法を⽤いたLLM ⾃⼰修正などの技術を使うと 既存のLLMでo1に近い性能を得られる︖ X Post by Schmid (2024) LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 38

39.

OpenAI o1: 残されている課題 • より公平な評価 • • OpenAI o1 を既存のLLMと⽐較する場合、既存のLLMを⽤いて⾃⼰修正する⼿法と⽐ 較する必要があるが、多くの場合はLLMからの1個の出⼒と性能を⽐較している 実際に、最新のLLMに既存の⾃⼰修正⼿法を使うとo1に近い性能を達成したと主張して いるブログ記事もある X Post by Schmid (2024) • 既に報告されている⽋点 • • ⾃⼰修正が必要ないような簡単なタスクでも間違えることがある (難易度の低い問題を複雑な⼿法で解こうとするなど) 難易度が⾼くなくても、⻑い思考プロセスを必要とする問題を苦⼿とする Zhong et al. (2024) “Evaluation of OpenAI o1: Opportunities and Challenges of AGI” LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 39

40.

OpenAI o1: 残されている課題 • より公平な評価 • • OpenAI o1 を既存のLLMと⽐較する場合、既存のLLMを⽤いて⾃⼰修正する⼿法と⽐ 較する必要があるが、多くの場合はLLMからの1個の出⼒と性能を⽐較している 実際に、最新のLLMに既存の⾃⼰修正⼿法を使うとo1に近い性能を達成したと主張して いるブログ記事もある X Post by Schmid (2024) • 既に報告されている⽋点 • • ⾃⼰修正が必要ないような簡単なタスクでも間違えることがある (難易度の低い問題を複雑な⼿法で解こうとするなど) 難易度が⾼くなくても、⻑い思考プロセスを必要とする問題を苦⼿とする Zhong et al. (2024) “Evaluation of OpenAI o1: Opportunities and Challenges of AGI” • アカデミアによる再現 • GPT-3.5が発表された後にRLHFをアカデミアが再現したように、 OpenAI o1を再現してソースを公開する⼈が出てくるとありがたい LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 40

41.

まとめ • • • これまでのLLMは追加の学習をしなければ⾃分の誤りを検出することができ ない場合が多いことが報告されてきた LLMの出⼒の誤りを検出したり修正する学習データを⽤意できれば、LLMが ⾃分の出⼒を評価したり改善するように学習できることが報告されてきた 学習データを作成することが難しいので、強化学習によって⾃⼰修正の学習 を⾏う⽅法が模索されてきた • • • • ただし、コストは減るものの、アノテーションが不要になるわけではない・・・ 強化学習を使うモチベーションは他にも⾊々とある OpenAI o1は公開されている情報を⾒る限りは新たなアイデアを提案してい るわけではないが、強化学習によって⾃⼰修正を学習する⼿法を改良し、 ⼤規模なLLMを学習することで強⼒な思考能⼒を獲得したと思われる ⾃⼰修正は実験設定が複雑で、公平な評価を設計するのも難しいので、 本当に性能が上がっているのかは慎重に評価を⾏う必要がある LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 41

42.

宣伝:NLPコロキウム • • ⾃然⾔語処理 (NLP) および 計算⾔語学 (CL) に関する最先端の研究・開発 に取り組んでいる⽅をお招きするトークイベント ⽉に1-2回、⽇本時間⽔曜12時〜13時にオンライン(zoom)で開催 株式会社松尾研究所様にスポンサーとしてご協⼒をいただいています メーリングリストに参加すると トークの情報が送られてきます (トーク情報以外の宣伝などはありません︕) LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 42

43.

References • OpenAI (2024) “Learning to Reason with LLMs” https://openai.com/index/learning-to-reason-with-llms/ アクセス日: 2024/10/11 • Chan et al. (2024) “MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering” • Codeforces Round 304 (Div. 2) E. Soldier and Traveling https://codeforces.com/contest/546/problem/E • OpenAI (2024) “How reasoning works” https://platform.openai.com/docs/guides/reasoning/how-reasoning-works アクセス日: 2024/10/11 • Kamoi et al. (TACL 2024) “When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs” • Kamoi et al. (COLM 2024) ”Evaluating LLMs at Detecting Errors in LLM Responses” • Wang et al. (ICLR 2023) “Self-Consistency Improves Chain of Thought Reasoning in Language Models” • Zhang et al. (ICML 2023) “Coder Reviewer Reranking for Code Generation” • Weng et al. (EMNLP 2023 Findings) “Large Language Models are Better Reasoners with Self-Verification” • Madaan et al. (NeurIPS 2023) ”Self-Refine: Iterative Refinement with Self-Feedback” • Tyen et al. (ACL 2024 Findings) “LLMs cannot find reasoning errors, but can correct them given the error location” • Huang et al. (ICLR 2024) “Large Language Models Cannot Self-Correct Reasoning Yet” • Shinn et al. (NeurIPS 2023) “Reflexion: Language Agents with Verbal Reinforcement Learning” • Gao et al. (ACL 2023) “RARR: Researching and Revising What Language Models Say, Using Language Models” • Yao et al. (NeurIPS 2024) “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” • Dhuliawala et al. (ACL 2024 Findings) “Chain-of-Verification Reduces Hallucination in Large Language Models” • Cobbe et al. (2021) “Training Verifiers to Solve Math Word Problems” • Akyürek et al. (ACL 2023) “RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs” • Kumar et al. (2024) “Training Language Models to Self-Correct via Reinforcement Learning” • Liang et al. (2024) “Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification” • X Post by Schmid (2024) アクセス日: 2024/10/13 • Zhong et al. (2024) “Evaluation of OpenAI o1: Opportunities and Challenges of AGI” LLM 大規模言語モデル講座 講義資料 © 2024 by 東京大学松尾・岩澤研究室 43 43