2024Fall 大規模言語モデル(LLM)講座特別回：LLMの自己修正〜OpenAI o1 の関連研究〜

18.4K Views

October 23, 24

#LLM #自己修正 #OpenAI o1 #Inference-time Scaling #大規模言語モデル

スライド概要

2024/10/17(木)に開催した、東京大学松尾・岩澤研究室の大規模言語モデル(LLM)講座2024「LLMの自己修正〜OpenAI o1 の関連研究〜」を特別に松尾研YouTubeで公開することになりました。
本資料は、YouTube動画（https://youtu.be/rwtBR9ND1YI）で投影しているスライドとなります。

★鴨井講師プロフィール
2020年　慶應義塾大学理工学部数理科学科卒業
2022年　テキサス大学オースティン校　修士号取得
2023年~ ペンシルベニア州立大学博士課程所属

研究分野：LLMの信頼性向上、誤り検出、自己修正、評価、マルチモーダル
https://ryokamoi.github.io/
https://x.com/ryokamoi

------
本講義内容に興味を持たれた方は、次回2025年以降に開講予定の「大規模言語モデル」の事前登録を行いますので、ぜひお申し込みください。なお、深層学習の基礎から学びたい方には、来年開講予定の「深層学習 / Deep Learning基礎講座」の受講を併せてご検討ください。

東京大学松尾・岩澤研究室では様々なDeep Learningの講座を原則無償で提供しております。
次回の開催案内をご希望の方は下記のフォームよりお申し込みください。

◆東京大学松尾・岩澤研究室 Deep Learning 講座事前申し込み
https://forms.gle/JCyiA9aDogjx9Mn87

◆大規模言語モデル講座 2024 Fall 開催概要（現在は締め切っております）
https://weblab.t.u-tokyo.ac.jp/education/large-language-model/

松尾研LLMコミュニティ

@matsuo-lab_llm

スライド一覧

東京大学松尾・研究室が運営する「松尾研LLMコミュニティ」でのイベント資料などを公開します。 ◾️ 松尾研LLMコミュニティとは松尾研LLMコミュニティは、「大規模言語モデルについて知って学べるオンライン空間」として、東京大学松尾・岩澤研究室が運営するコミュニティです。現在、学生を中心とした10,000名以上が、原則無償で参加しています。また、本コミュニティでは様々なイベント等を定期的に開催しております。是非下記のリンクより参加申し込みをお待ちしております。 ◾️ 松尾研LLMコミュニティの各種リンク・今後のイベント開催情報/参加申込；https://tr.ee/7d_W4DsImD ・松尾研LLMコミュニティ参加フォーム；https://tr.ee/RyDfuRzS55 ・過去イベントアーカイブ；https://tr.ee/wqdbFJJZ25

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

松尾研LLM開発プロジェクト “Tanuki” 開発報告会 Vol.1

松尾研LLMコミュニティ 14.7K

松尾研LLM開発プロジェクト “Tanuki” 開発報告会 Vol.3

松尾研LLMコミュニティ 7.8K

松尾研LLM開発プロジェクト “Tanuki” 開発報告会 Vol.2

松尾研LLMコミュニティ 3.6K

LLMATCH [Season1] 最終成果報告_石田憲太郎

松尾研llmコミュニティ llmatch 医療

松尾研LLMコミュニティ 1.6K

LLMATCH [Season1] 最終成果報告_渡辺悠介

松尾研llmコミュニティ llmatch 医療

松尾研LLMコミュニティ 1.5K

LLMATCH最終成果報告_tom11111111

松尾研llmコミュニティ llmatch llmエージェント

松尾研LLMコミュニティ 1.1K

各ページのテキスト

鴨井遼 2020年 2022年 2023年〜慶應義塾⼤学理⼯学部数理科学科卒業テキサス⼤学オースティン校修⼠号取得ペンシルベニア州⽴⼤学博⼠課程所属 https://ryokamoi.github.io/ https://x.com/ryokamoi 研究分野︓LLMの信頼性向上、誤り検出、⾃⼰修正、評価、マルチモーダル LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 2

OpenAI o1 • 2024年9⽉12⽇に公開 • 数学、コード⽣成、科学QAなどにおいて⼤きな改善 • • これまでの最強LLMだったGPT-4oを圧倒 Reasoningに特化したモデルなので、全てのタスクで最適なわけではない https://openai.com/index/learning-to-reason-with-llms/ LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 3

OpenAI o1: MLE-bench • OpenAI o1はKaggleを解くデータセットにおいても⼤きな向上を実現 Chan et al. (2024) “MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering” LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 4

OpenAI o1: MLE-bench • OpenAI o1はKaggleを解くデータセットにおいても⼤きな向上を実現 • 16.9%のタスクにおいて銅メダル以上を獲得できる性能を達成 Chan et al. (2024) “MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering” LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 5

OpenAI o1: LLMの自己修正 GPT-4oなど既存のLLMにはなかった新たな機能 • • 複数の異なる思考プロセスを試す⾃分の思考プロセスに含まれる誤りを検出して修正する（実は有料版のChatGPTではコード⽣成において⾃⼰修正する機能は付いていた） https://platform.openai.com/docs/guides/reasoning/how-reasoning-works LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 6

OpenAI o1: Inference-time Scaling • • 学習をすればするほど、Inferenceに時間を掛ければ掛けるほど、数学オリンピックの問題をうまく答えられるようになる Inference-time Scaling の時代の到来か︖と話題になった https://openai.com/index/learning-to-reason-with-llms/ LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 8

OpenAI o1はどのくらい革新的なモデルなのか？ • 最新のモデルに対して⾃⼰修正のための⼤規模な学習を⾏った初めての試み最新のモデルが⾃分の出⼒を改善することで多くのタスクにおいて性能を向上させた初めてのモデル • しかし、⾃⼰修正を含めInference時の出⼒改善は多く研究されてきた • 本⽇の⽬標︓OpenAI o1に⾄るまでの研究の歴史と、残っている課題を知る LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 9

10.

ちなみに・・・今回の講義は私の以下の論⽂を元に構成しています • • Ryo Kamoi, Sarkar Snigdha Sarathi Das, Renze Lou, Jihyun Janice Ahn, Yilun Zhao, Xiaoxin Lu, Nan Zhang, Yusen Zhang, Ranran Haoran Zhang, Sujeeth Reddy Vummanthala, Salika Dave, Shaobo Qin, Arman Cohan, Wenpeng Yin, Rui Zhang. (2024) ”Evaluating LLMs at Detecting Errors in LLM Responses” COLM 2024 Ryo Kamoi, Yusen Zhang, Nan Zhang, Jiawei Han, Rui Zhang. (2024) “When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs“ TACL 2024 (to appear) LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 10

11.

12.

Inference時にLLMの出力を改善する研究（追加学習なし） • Promptの改善（1個の出⼒） • • • Few-shot prompting • 数個〜数⼗個の学習データをプロンプトで与える • 出⼒に思考プロセスを含めるように指⽰する • 特定のタスクに特化したプロンプトを⼈⼿で、もしくは⾃動的に作る Chain-of-Thought Prompt Engineering, Prompt Optimization 既存のLLMの出⼒を更に改善することはできるか︖ LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 12

13.

Inference時にLLMの出力を改善する研究（追加学習なし） • Promptの改善（1個の出⼒） • • • • Few-shot prompting • 数個〜数⼗個の学習データをプロンプトで与える • 出⼒に思考プロセスを含めるように指⽰する • 特定のタスクに特化したプロンプトを⼈⼿で、もしくは⾃動的に作る Chain-of-Thought Prompt Engineering, Prompt Optimization LLMを複数回つかうことでInference時に出⼒を改善する • • • Self-Consistency Generate-and-Rank Self-Correction（⾃⼰修正） LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 13

14.

Self-Consistency (Wang et al., ICLR 2023) Wang et al. (ICLR 2023) “Self-Consistency Improves Chain of Thought Reasoning in Language Models” • 計算や選択肢のあるQAなど最後に1個の回答を出すタスクを対象とした⼿法 • • • 現在は様々なタスクに応⽤されている少し⾼めの温度パラメーターで同じ⼊⼒に対して複数の出⼒を⽣成する回答の多数決を取る LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 14

15.

Self-Consistency (Wang et al., ICLR 2023) • 複数の出⼒の多数決を取るだけで、計算や知識QAなどのタスクで性能向上 • シンプルで実装も簡単なので広く⽤いられている Wang et al. (ICLR 2023) “Self-Consistency Improves Chain of Thought Reasoning in Language Models” LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 15

16.

Generate-and-Rank: Motivation • • Self-Consistencyは正しい回答を出⼒する確率が⾼いことを仮定しているしかし、必ずしもLLMが正しい回答を多く出⼒してくれるとは限らない • 既にLLMが上⼿く解ける課題において間違いを減らす⼿法と考えるのが良いかも • LLMが正しい回答を出⼒する確率が低くても性能を向上させたい • アイデア︓複数の出⼒から、LLM⾃⾝が正しい出⼒を選んでくれたら嬉しい LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 16

17.

Generate-and-Rank • 同じLLMからの同じ⼊⼒への複数の出⼒から、最も良いものを選択する • ここでは、出⼒の評価も同じLLMを使うことを考える Zhang et al. (ICML 2023) “Coder Reviewer Reranking for Code Generation” Weng et al. (EMNLP 2023 Findings) “Large Language Models are Better Reasoners with Self-Verification” • もちろん、他のモデルを使って評価する⼿法も研究されている（後述） LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室上図は鴨井が作成。 17

18.

Self-Correction: Motivation • Generate-and-Rankは低くない確率でLLMが正しい出⼒を⽣成できることを仮定している • • しかし、難しいタスクでは、そもそも正しい出⼒を⽣成できないことも • • そもそも正しい出⼒を⽣成できないと、正しい出⼒を選ぶことができない例︓数学の証明問題、コード⽣成アイデア︓LLMが⾃分⾃⾝の出⼒に含まれる誤りを検出して修正できる︖ LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 18

19.

Self-Correction • LLMの出⼒を、同じLLMに再び⼊⼒してフィードバックを⽣成させる • 同じLLMに元の出⼒とフィードバックを⼊⼒して、改善させる Kamoi et al. (TACL 2024) “When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs” LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 19

20.

21.

本当に追加学習なしでLLMの出力をInference時に改善できるのか？ Self-Consistency • タスクによって差はあるが、効果がある場合も多い Generate-and-Rank、Self-Correction • 多くのタスクでLLMが⾃分の誤りを検出するのは難しいと報告されている Tyen et al. (ACL 2024 Findings) “LLMs cannot find reasoning errors, but can correct them given the error location” Kamoi et al. (COLM 2024) ”Evaluating LLMs at Detecting Errors in LLM Responses” • 多くのタスクではGenerate-and-RankがSelf-Consistencyより悪かったり、 Self-Correctionによって性能が悪化するなどの結果が報告されている Wang et al. (ICLR 2023) “Self-Consistency Improves Chain of Thought Reasoning in Language Models” Gou et al. (ICLR 2024) “CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing” Huang et al. (ICLR 2024) “Large Language Models Cannot Self-Correct Reasoning Yet” LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 21

22.

本当に追加学習なしでLLMの出力をInference時に改善できるのか？ • Self-Correctionによって性能が悪化する原因︓フィードバックの誤り • 元々の出⼒が正しかったのに、修正して答えを変えてしまうこともある Huang et al. (ICLR 2024) “Large Language Models Cannot Self-Correct Reasoning Yet” LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 22

23.

本当に追加学習なしでLLMの出力をInference時に改善できるのか？追加学習なしで⾃⼰修正できると主張している論⽂はたくさんあるが・・・ LLMの外部の情報を利⽤している • コード⽣成（コンパイラーなど） • 知識を必要とするQA（検索エンジン、Wikipediaなど） Shinn et al. (NeurIPS 2023) “Reflexion: Language Agents with Verbal Reinforcement Learning” Gao et al. (ACL 2023) “RARR: Researching and Revising What Language Models Say, Using Language Models” LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 23

24.

本当に追加学習なしでLLMの出力をInference時に改善できるのか？追加学習なしで⾃⼰修正できると主張している論⽂はたくさんあるが・・・ LLMの外部の情報を利⽤している • コード⽣成（コンパイラーなど） • 知識を必要とするQA（検索エンジン、Wikipediaなど） Generate-and-RankやSelf-Correctionが得意なタスクを対象としている • • 誤りを簡単に検出できるタスク評価が出⼒より簡単にできるタスク Game of 24: 4個の数字から24を作るタスクなので、⽣成された式の答えが24になっているかを確認するだけで誤りを検出できる Yao et al. (NeurIPS 2024) “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” Dhuliawala et al. (ACL 2024 Findings) “Chain-of-Verification Reduces Hallucination in Large Language Models” LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 24

25.

本当に追加学習なしでLLMの出力をInference時に改善できるのか？追加学習なしで⾃⼰修正できると主張している論⽂はたくさんあるが・・・ LLMの外部の情報を利⽤している • コード⽣成（コンパイラーなど） • 知識を必要とするQA（検索エンジン、Wikipediaなど） Generate-and-RankやSelf-Correctionが得意なタスクを対象としている • • 誤りを簡単に検出できるタスク (e.g., Game of 24) 評価が出⼒より簡単にできるタスク (e.g., 分解できるタスク) 実験設定が現実的ではない • 最初の出⼒が弱いプロンプトから⽣成されている • ⾃⼰修正の際に正解が分かっているという条件下で実験している（︕） Huang et al. (ICLR 2024) “Large Language Models Cannot Self-Correct Reasoning Yet” Kamoi et al. (TACL 2024) “When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs” LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 25

26.

ここまでのまとめ • Generate-and-RankやSelf-Correctionは、 LLMを⾃分の出⼒の評価や誤りの検出に使っても上⼿くいかない場合が多い • • 逆に、誤りを⾒つける⼿段があれば出⼒を改善できることが多い • • LLMは⾃分の誤りを⾒つけることができない場合が多い例︓コード⽣成これまでに追加の学習なしでLLMのGenerate-and-RankやSelf-Correction を⾏なっている論⽂は多くあるが、提案⼿法に有利な実験設定を⽤いている場合が多いので注意が必要 LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 26

27.

28.

Inference時にLLMの出力を改善する研究（追加学習あり） • • LLMをそのまま使うとGenerate-and-RankやSelf-Correctionは上⼿くいかないことが多いと分かってきた Generate-and-RankやSelf-Correctionに特化した学習を⾏えば、 LLMが⾃分の出⼒を改善することはできるのか︖ LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 28

29.

Generate-and-Rank • • • 出⼒を評価するモデルを学習する様々な⽅法があるが、性能を向上させたいLLMから出⼒を⽣成し、正誤のラベルをつけて、出⼒を評価するモデルを学習する⼿法が多い⼈⼿でアノテーションする場合はコストが⼤きい Cobbe et al. (2021) “Training Verifiers to Solve Math Word Problems” LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 29

30.

Self-Correction: 教師ありfine-tuning (SFT) • LLMの⾃⼰修正能⼒を向上するために学習を⾏う⽅法は⾊々とある • 最もシンプルな⼿法は教師ありﬁne-tuning 例︓⽂書要約タスクにおいてモデルの出⼒を改善するデータを⼈⼿で集める Saunders et al. (2022) “Self-critiquing models for assisting human evaluators” LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 30

31.

Self-Correction: 教師ありfine-tuning (SFT) • • • 誤った出⼒を改善するという学習データがあれば、教師ありfine-tuningで LLMに⾃⼰修正を学ばせることができることが報告されているしかし、⼈⼿で学習データを作るのはコストが⼤きいので、多くの研究では弱いLLMを強いLLMで⽣成したデータで学習をして検証を⾏っていた SFTが有効であることは検証できたが、最新のモデルを改善できない Kamoi et al. (TACL 2024) “When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs” LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 31

32.

Self-Correction: 強化学習 • フィードバックを⽣成するモデルを強化学習で改善する • • もちろん、出⼒を改善するモデルも学習することもできる教師ありfine-tuning では「正しいフィードバック」を学習データとして⽤意する必要があるが、強化学習では「修正した出⼒が正解かどうか」が分かれば学習することができる（報酬） Akyürek et al. (ACL 2023) “RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs” LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 32

33.

Self-Correction: 強化学習課題 • 強化学習は⼀般的に学習が不安定である • 出⼒が正しいかどうかを判定する（報酬を定義もしくは学習する）のは多くのタスクで容易ではない • • 前のページで紹介したRL4Fでは、⽂書要約タスクなどの報酬としてROUGE を使⽤しているが、これは信頼できる報酬とは⾔えない計算や選択肢のあるQAなど最後に1個の回答を出すタスクを対象にする場合は、最後の答えが合っているかどうかを報酬とする場合もあるが、途中の思考プロセスが合っているとは限らないので、やはり不完全な報酬である e.g., Kumar et al. (2024) “Training Language Models to Self-Correct via Reinforcement Learning” LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 33

34.

35.

OpenAI o1 学習やInferenceの詳細はほとんど公開されていない… 公開されている内容︓⼤規模な強化学習を⾏っている • ⾃分の思考プロセスを修正する（⾃⼰修正）ように学習されている • 幅広い思考プロセスを試すように学習されている強化学習で⾃⼰修正を学習するというアイデア⾃体は既存研究と同じだが… 既存研究からの改善点は︖ • 思考プロセスの内容も評価できるような報酬を設計していると思われる LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 35

36.

思考プロセスの評価 • 最後の回答だけではなく思考プロセスも評価するために、正しい思考プロセスと間違った思考プロセスが含まれるデータセットで評価モデルを学習する研究もある Liang et al. (2024) “Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification” • • 教師ありfine-tuningよりはマシだが、学習データを集める⽅法が課題 OpenAI o1がどのような⽅法を使っているかは分からないが、⼤規模なアノテーションで解決した可能性もある︖ LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 36

37.

ここまでのまとめ • OpenAI o1はアイデアとして新しいことを提案しているわけではない︖ • • • 強化学習を⽤いて⾃⼰修正を学習するというアイデアは研究されてきた（今回の発表では触れていないが）多様な思考プロセスを試すという研究も多くある OpenAI o1の最も偉い点は、これらの既存アイデアを⽤いて最新のモデルに対して⼤規模な学習を⾏なって実装したことだと思われる • 実は⾰新的なアイデアが使われているかもしれないが、公開されている内容からだと分からない・・・ LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 37

38.

OpenAI o1: 残されている課題 • より公平な評価 • • OpenAI o1 を既存のLLMと⽐較する場合、既存のLLMを⽤いて⾃⼰修正する⼿法と⽐較する必要があるが、多くの場合はLLMからの1個の出⼒と性能を⽐較している実際に、最新のLLMに既存の⾃⼰修正⼿法を使うとo1に近い性能を達成したと主張しているブログ記事もあるアメリカの⼊試問題における性能 • ⻩⾊︓そのままのLLM • ⻘⾊︓⾃⼰改善⼿法を⽤いたLLM ⾃⼰修正などの技術を使うと既存のLLMでo1に近い性能を得られる︖ X Post by Schmid (2024) LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 38

39.

OpenAI o1: 残されている課題 • より公平な評価 • • OpenAI o1 を既存のLLMと⽐較する場合、既存のLLMを⽤いて⾃⼰修正する⼿法と⽐較する必要があるが、多くの場合はLLMからの1個の出⼒と性能を⽐較している実際に、最新のLLMに既存の⾃⼰修正⼿法を使うとo1に近い性能を達成したと主張しているブログ記事もある X Post by Schmid (2024) • 既に報告されている⽋点 • • ⾃⼰修正が必要ないような簡単なタスクでも間違えることがある（難易度の低い問題を複雑な⼿法で解こうとするなど）難易度が⾼くなくても、⻑い思考プロセスを必要とする問題を苦⼿とする Zhong et al. (2024) “Evaluation of OpenAI o1: Opportunities and Challenges of AGI” LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 39

40.

OpenAI o1: 残されている課題 • より公平な評価 • • OpenAI o1 を既存のLLMと⽐較する場合、既存のLLMを⽤いて⾃⼰修正する⼿法と⽐較する必要があるが、多くの場合はLLMからの1個の出⼒と性能を⽐較している実際に、最新のLLMに既存の⾃⼰修正⼿法を使うとo1に近い性能を達成したと主張しているブログ記事もある X Post by Schmid (2024) • 既に報告されている⽋点 • • ⾃⼰修正が必要ないような簡単なタスクでも間違えることがある（難易度の低い問題を複雑な⼿法で解こうとするなど）難易度が⾼くなくても、⻑い思考プロセスを必要とする問題を苦⼿とする Zhong et al. (2024) “Evaluation of OpenAI o1: Opportunities and Challenges of AGI” • アカデミアによる再現 • GPT-3.5が発表された後にRLHFをアカデミアが再現したように、 OpenAI o1を再現してソースを公開する⼈が出てくるとありがたい LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 40

41.

まとめ • • • これまでのLLMは追加の学習をしなければ⾃分の誤りを検出することができない場合が多いことが報告されてきた LLMの出⼒の誤りを検出したり修正する学習データを⽤意できれば、LLMが⾃分の出⼒を評価したり改善するように学習できることが報告されてきた学習データを作成することが難しいので、強化学習によって⾃⼰修正の学習を⾏う⽅法が模索されてきた • • • • ただし、コストは減るものの、アノテーションが不要になるわけではない・・・強化学習を使うモチベーションは他にも⾊々とある OpenAI o1は公開されている情報を⾒る限りは新たなアイデアを提案しているわけではないが、強化学習によって⾃⼰修正を学習する⼿法を改良し、⼤規模なLLMを学習することで強⼒な思考能⼒を獲得したと思われる⾃⼰修正は実験設定が複雑で、公平な評価を設計するのも難しいので、本当に性能が上がっているのかは慎重に評価を⾏う必要がある LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 41

42.

宣伝：NLPコロキウム • • ⾃然⾔語処理 (NLP) および計算⾔語学 (CL) に関する最先端の研究・開発に取り組んでいる⽅をお招きするトークイベント⽉に1-2回、⽇本時間⽔曜12時〜13時にオンライン（zoom）で開催株式会社松尾研究所様にスポンサーとしてご協⼒をいただいていますメーリングリストに参加するとトークの情報が送られてきます（トーク情報以外の宣伝などはありません︕） LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 42

43.

References • OpenAI (2024) “Learning to Reason with LLMs” https://openai.com/index/learning-to-reason-with-llms/ アクセス日: 2024/10/11 • Chan et al. (2024) “MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering” • Codeforces Round 304 (Div. 2) E. Soldier and Traveling https://codeforces.com/contest/546/problem/E • OpenAI (2024) “How reasoning works” https://platform.openai.com/docs/guides/reasoning/how-reasoning-works アクセス日: 2024/10/11 • Kamoi et al. (TACL 2024) “When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs” • Kamoi et al. (COLM 2024) ”Evaluating LLMs at Detecting Errors in LLM Responses” • Wang et al. (ICLR 2023) “Self-Consistency Improves Chain of Thought Reasoning in Language Models” • Zhang et al. (ICML 2023) “Coder Reviewer Reranking for Code Generation” • Weng et al. (EMNLP 2023 Findings) “Large Language Models are Better Reasoners with Self-Verification” • Madaan et al. (NeurIPS 2023) ”Self-Refine: Iterative Refinement with Self-Feedback” • Tyen et al. (ACL 2024 Findings) “LLMs cannot find reasoning errors, but can correct them given the error location” • Huang et al. (ICLR 2024) “Large Language Models Cannot Self-Correct Reasoning Yet” • Shinn et al. (NeurIPS 2023) “Reflexion: Language Agents with Verbal Reinforcement Learning” • Gao et al. (ACL 2023) “RARR: Researching and Revising What Language Models Say, Using Language Models” • Yao et al. (NeurIPS 2024) “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” • Dhuliawala et al. (ACL 2024 Findings) “Chain-of-Verification Reduces Hallucination in Large Language Models” • Cobbe et al. (2021) “Training Verifiers to Solve Math Word Problems” • Akyürek et al. (ACL 2023) “RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs” • Kumar et al. (2024) “Training Language Models to Self-Correct via Reinforcement Learning” • Liang et al. (2024) “Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification” • X Post by Schmid (2024) アクセス日: 2024/10/13 • Zhong et al. (2024) “Evaluation of OpenAI o1: Opportunities and Challenges of AGI” LLM 大規模言語モデル講座講義資料 © 2024 by 東京大学松尾・岩澤研究室 43 43

2024Fall 大規模言語モデル(LLM)講座 特別回：LLMの自己修正〜OpenAI o1 の関連研究〜