5.1K Views
October 06, 23
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] 自然言語生成(Natural Language Generation)の 評価について Keno Harada, D1, the University of Tokyo http://deeplearning.jp/
背景 LLM講義の最終課題で生成タスクを扱う • 文章要約タスク • Instruction following • 皆さんがChatGPTを使うようにいろんなpromptが来る問題設定 生成文の評価について完全理解を目指します、具体的には • ROUGE scoreの算出 • RLHFのようなHuman preferenceのデータの取り方 について説明でき、実践できるようになる 2
実際に評価用のデータを集めてみましょう! • instructGPT的なテストデータ作成 • • 5択問題、要約問題も作成いただける方は以下のcolabで作成したデータを原 田宛に送っていただければと思います • • https://docs.google.com/forms/d/e/1FAIpQLSd-oQrwOP-D3mtBo9_aTi2fbvB7sfPV9URQBlwRSZhPI5kSg/viewform?usp=sf_link https://colab.research.google.com/drive/1u7NcA3nLGhUTibQqJpkYqz4DZOltjMgF?usp= drive_link Chatbot arena • https://chat.lmsys.org/ 3
参考文献 • 概観 • Evaluation of Text Generation: A Survey • • • • Stanford CS224N NLP with Deep Learning | 2023 | Lecture 11 - Natural Language Generation CS685 Spring 2023 Evaluating text generation 要約タスク • • Evaluation and Benchmarks (↑論文著者がEMNLP 2020で実施したTutorial) XL-Sum: Large-Scale Multilingual Abstractive Summarization for 44 Languages Human evaluation / preference 周り • • • Training language models to follow instructions with human feedback Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback PaLM 2 Technical Report • • • Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation Llama 2: Open Foundation and Fine-Tuned Chat Models Fine-Grained Human Feedback Gives Better Rewards for Language Model Training 4
自然言語生成(Natural Language Generation, NLG)とは 自然言語処理 (Natural Language Processing)の一部 NLP = NLG + NLU(Natural Language Understanding、自然言語理解) “ NLGは、流暢で、首尾一貫し、かつ人間が 消費(理解)しやすい有用な言語出力を生成 するシステムに焦点 ” Stanford CS224N NLP with Deep Learning | 2023 | Lecture 11 - Natural Language Generation より 5
NLG システムの例 機械翻訳システム 入力: 英語の文章 出力: 日本語に翻訳された文章 対話型アシストツール 入力: 対話履歴 出力: ユーザーへの返答 6
NLG システムの例 (developed by 髙城さん) 要約 + 翻訳 + QA 入力: ユーザーからの質問 + 論文中の記述 出力: 日本語での要約、返答 7
Open-endednessとNLGタスクの関係 Open-endedness低 機械翻訳 要約 Source text: DL輪読会は とても楽しいです Reference Translation: - The DL reading group is very enjoyable. - Participating in the DL reading group is very enjoyable. Open-endedness高 タスク志向型 対話 雑談対話 Input: よ!元気してる? Output: - あんまりやな - めっちゃ元気やで - おもろい話、聞きた い? ストーリー 生成 Input: 「ハリーポッター とLLM」の脚本書いて Output: (たくさんの可能性) Open-endednessが高い = 出力空間が多様 → 評価も難しくなる Stanford CS224N NLP with Deep Learning | 2023 | Lecture 11 - Natural Language Generation より日本語訳し一部改変 8
NLGの評価 • Human-centric evaluation metrics • • Untrained automatic metrics • • • • • 人間が生成文の評価を行う、タスクごとに評価基準が与えられることもある モデルの生成文と人間が作成した文(reference texts)を比べて評価 string overlap, content overlap, string distance, or lexical diversity 翻訳タスク: BLUE 要約タスク: ROUGE Machine-learned metrics • 人間の判断を模擬するように学習したモデルを使用して2つの文章の類似度を求めるな ど 9
Human-centric evaluation metrics • NLGの目的が「人間に役立つ出力をする」ことなので人間による評価は重要 • 大きく分けて2種の評価方法 • Intrinsic evaluation: 生成文に対して評価を行う • Fluency, coherence, factuality and correctness, adequacy, commonsense, style / formality, grammaticality, typicality, redundancy etc • 生成文1つに対してスコアづけを行う方法 • Inconsistentだしなぜそのようなやり方なのかjustificationがない、という報告も • 複数の文を提示してランクづけ/スコアづけを行ってもらう方法 • より高いlabeler間の一致、相対評価だけじゃなく絶対評価も得られるような工 夫も(RankME) • Extrinsic evaluation: システムとしてユーザーのためになったかどうかの評価を行う • ChatGPTの導入によって生産性がN%向上とかも? 課題 • お金もかかるし、時間もかかる、専門性が高いタスクはなおさら大変 • クラウドソースしてもquality control大変 • 研究によって手順がバラバラだったり、人間同士のブレもあるので再現が困難 • NLG系の研究論文のうち評価者の数を報告しているのはたった57%という報告も • 10
Intrinsic evaluationの例 RankME: Reliable Human Ratings for NLG より 11
Untrained automatic metrics Evaluation of Text Generation: A Survey より 12
ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 人手で作成した文章のどれくらいの割合が生成文に含まれるか? Recall-orientedとされているが、論文ではF値が報告されるので注意 ROUGE: A Package for Automatic Evaluation of Summaries より 13
ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 14
ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 15
Machine-learned metrics Evaluation and Benchmarksより 16
Machine-learned metrics: Reward modeling from human preference • ROUGEスコアの上 昇 != 人間にとって良 い要約 • SFT on human demonstration < optimizing for RM from human preference Learning to summarize from human feedbackより 17
Machine-learned metrics: Reward modeling from human preference データの集め方 • • Step 0: タスク理解 • 自分たちでsummaryの見比べ、labelerを少数雇ってdisagreementについて議論、instructionの叩き 台作り Step 1: labelerへのオンボーディング • タスクの説明とトレーニング、一定のスピードで一定の一致率(研究者との)を達成した人をその後 のlabelerとして本採用 • Step 2: データ収集 • 自作したアノテーションツールでデータ収集 • 要約を行う本文を見る前に要約文を読んでみての軽い解釈や気になりをメモしてもらう • 本文、2つの要約文を見比べて、9段階評価でどちらが優れているかの評価をする • Step 3: labelerへのフィードバック • 大体の比較は1lablerで行われるが、特定のデータ(全体の10%)は共通した要約文の比較を行う • Quality controlやlabeler間のdisagreementの調整のフィードバックに用いる Step 4: 研究者との認識すり合わせ • • • • Labelerとの一致率を測るために研究者自身も評価 研究者同士が80%以上一致するとされるデータに関してlabelerも判断が一致するようにlabelerご とに閾値を計算 One-on-one video callやoffice hour、chat roomなど 18
Machine-learned metrics: Reward modeling from human preference データの集め方 Learning to summarize from human feedbackより 19
Machine-learned metrics: Reward modeling from human preference データの集め方 Learning to summarize from human feedbackより 20
Intrinsic evaluation データ(4つの軸での7段階Likertスコア)の集め方 Learning to summarize from human feedbackより 21
Human preference/evaluationデータの集め方 論文名・blog名 データ数や集め方など Training language models to follow instructions with human feedback Playground interface経由で提出されたpromptをもとに評価(user_id をもとにtrain/val/test切っている、testのuserはtrainにはいない) 1userからは200promptまで 3196prompt、base policyに比べてどれ くらい好まれたかの割合 PaLM 2 Technical Report 翻訳タスクにおいてhuman evalを使用 sample数は不明だが、human rater2人のスコアを平均、general quality, gender agreementそれぞ れのスコアを0~3で評価してもらう labelerへのinstructionはAppendix D.9.2 MQMの指標も使用 Llama 2: Open Foundation and Fine-Tuned Chat Models 2つモデルの出力を提示され、どちらが優れているか答える(7つの選 択肢) 4000 prompt、1回の評価に対して3人のannotatorが評価 labelerの選 定に関してはA.5.4 Annotator Selection RLHF用のデータは1,418,091件 Judging LLM-as-a-judge with MT-Bench and Chatbot Arena 58人のhuman labeler、それぞれ最低20個のpromptに対するモデル A,Bの優劣に関して評価 80 prompts, 6 modelsなので 80 * 6C2 = 1200に評価しないといけない、集まったvote数は3000voteなので、 大体1つの評価には2人~3人ついている 評価に関する注意、prompt, モデルA, Bの出力が与えられてA is better, B is better, tieの三個の選 択肢から選ぶ、skipすることもできる(最大5回) 評価は5段階の絶対評価、1件の予測に対して、3人がそれぞれ独立に 評価し、その平均値を最終的な評価 AIエンジニア3名、データアノテーター7名(ELYZA内のData Factory というチームのメンバー)で手分けをして評価 ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」について 評価者にはELYZA-tasks-100 手動評価ガイドライン(5段階評価)に 従って作業 の解説 : (2) 評価編 22
Reward Modelやタスクの評価にLLMを使用する Judging LLM-as-a-judge with MT-Bench and Chatbot Arena https://arxiv.org/abs/2306.05685 Llama2論文でも少し言及 https://arxiv.org/abs/2307.09288 LLM輪読会(毎週木曜日 午前9:00-10:30)での過去発表資料 RLAIF Llama 2: Open Foundation and Fine-Tuned Chat Models LLMの評価について 参加希望者はご連絡ください(@KH_ls_ippon) 発表者ウルトラ激烈募集中 23
Judging LLM-as-a-judge with MT-Bench and Chatbot Arena 24
Judging LLM-as-a-judge with MT-Bench and Chatbot Arena 25
Judging LLM-as-a-judge with MT-Bench and Chatbot Arena 26
Llama 2: Open Foundation and Fine-Tuned Chat Models 27
Alignmentの際にLLMによるPreferenceデータで学習 事前学習後、Alignmentする際にHuman Preferenceデータ集めるの大変 → Preferenceデータを人間に頼らず行えないか? Palm 2 XSをbase modelとして、要約タスクにおいて SFT vs RLHF vs RLAIF で比較 SFTを上回り、RLHFと同等の性能を確認 (所感) デカいモデルの出力 SFT + RLAIFでタスク特化 モデルを小さくしていける? より大きいモデルサイズSFTとの比較見たかった (instruct GPTの最初の図みたいな) 28
RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback 29
実際に評価用のデータを集めてみましょう! • instructGPT的なテストデータ作成 • • 5択問題、要約問題も作成いただける方は以下のcolabで作成したデータを原 田宛に送っていただければと思います • • https://docs.google.com/forms/d/e/1FAIpQLSd-oQrwOP-D3mtBo9_aTi2fbvB7sfPV9URQBlwRSZhPI5kSg/viewform?usp=sf_link https://colab.research.google.com/drive/1u7NcA3nLGhUTibQqJpkYqz4DZOltjMgF?usp= drive_link Chatbot arena • https://chat.lmsys.org/ 30