【DL輪読会】Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

3.6K Views

June 20, 24

#NeurIPS #言語モデル #ハルシネーション #事実性 #Attention

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 36.9K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 36.7K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Inference-Time Intervention: Eliciting Truthful Answers from a Language Model” (NeurIPS 2023 ) Okimura Itsuki http://deeplearning.jp/ 1

http://deeplearning.jp/

アジェンダ 1. 書誌情報 2. 概要 3. 背景 4. 問題意識 5. 方法 6. 実験設定 7. 結果 8. 考察 2

１書誌情報タイトル： Inference-Time Intervention: Eliciting Truthful Answers from a Language Model 出典： NeurIPS 2023 (Spotlight) https://openreview.net/forum?id=aLLuYpn83y 著者： Kenneth Li, Oam Patel, Fernanda Viégas, Hanspeter Pfister, Martin Wattenberg (Havard University) 選んだ理由：文単位での推論介入にうまく成功していた 3

https://openreview.net/forum?id=aLLuYpn83y

2 概要 • 言語モデルにおいて、モデルの内部的には知識を持っているが、それを標準的な方法では引き出せない場合がある事が知られている。 • このギャップを埋めるため、事実性に関連しうるヘッドと方向を特定し、推論中に事実性を高める方向への介入を行う推論時介入（ITI）を提案。 • TruthfulQAにおける検証において、Alpacaと呼ばれるモデルでは、 ITIにより出力の事実性が32.5%から65.1%に向上するなど、介入の有効性が確認できた。 • 関連する分布の異なるデータセットでも事実性に関する性能の向上を確認 4

3 背景言語モデルにおけるハルシネーション • ハルシネーション(Hallucination)：モデルが一見正しく見えるが、実世界と比較すると全く事実では異なる事柄について記述してしまう現象 • 右図では赤のモデルがハルシネーションを含んだ生成を行ってしまっている 5

3 背景 Language Models (Mostly) Know What They Know（2022） • モデルの出力について自分で主張の妥当性を評価させた場合、正しい回答を出力した場合と誤った回答を出力をしたかを一定区別することができることを示す →モデルは出力の見た目以上に実世界の正誤を含む多くの知識についての能力を内部的に持つことができている 6

4 問題意識モデルの事実性に関して未だ不明な点は存在するモデル内部の能力はどのようにして発揮させる事ができるのか？本論文ではモデルのそれぞれのアテンションヘッドへの活性化介入*を通じて、モデルの事実性を高める事が可能かを検証する *活性化介入：モデル内部の活性化値を操作した上で出力を行う介入 7

5 方法それぞれのAttentionヘッドが埋め込みが真実をどの程度捉えるか確認 • プロービング：埋め込み表現の情報から目的のタスクについての分類器を訓練することで、その埋め込み中にタスクに関する情報が含まれるかを検証する手法 • 今回はそれぞれのAttentionヘッドで（入力）質問回答、（出力）真偽の分類器を訓練し、埋め込みがどの程度その事実性に関する情報をとらえているかを検証訓練 2値分類： True 線型分類器(プローブ) 埋め込み表現言語モデル Q: ~~~~ A: ~~~~ 8

5 方法事実性に寄与する上位のヘッドに対し介入を行い事実性の高い生成を促す • 推論時介入 (Inference-Time Intervention )：前述のプロービングを通じて、事実性に寄与する可能性が高いヘッドに対して、事実性を高める方向への介入方向 𝑣へ介入を行い、モデル全体の事実性を強化することを目指す • 実験においては介入を行うヘッド数𝐾とその介入の強さ 𝛼を変化させて性能変化を検証する 9

10.

5 方法介入の方向としては二種類を検証する • プローブ重み方向 (Probe Weight Direction)：各Attentionヘッドの線形プローブの重みベクトル𝑣を介入方向として使用する。この方法では、プローブが識別した真実な方向に活性化をシフトさせる。 • 質量平均シフト (Mass Mean Shift)：真なサンプルと偽サンプルの活性化の平均ベクトルを計算し、その差（真実サンプルの平均から偽サンプルの平均へのベクトル）を介入方向とする。この方法は、サンプルの分布全体に基づいて活性化をシフトさせる。 10

11.

6 実験設定データセット • TruthfulQA： – 人間が誤りがちな観念に関するQAデータセット – データセット中に質問に対しての、真となる回答と偽となる回答を含む – 介入の学習に全体の5%のデータを用い、評価に全体の5%のデータを用いるモデル • LLaMA-7B • Alpaca-7B、 Vicuna-7B... LlaMA-7B + Instruction-Tuning 評価項目 • True*Informative... 事実かつ情報量のある回答を生成した割合 • MC acc... 多肢選択肢中で比較し、最もPerplexityの高い回答が真だった割合 • (Cross Entropy, KL divergence... 前後でのモデルの動作の変化） 11

12.

7 結果一部の層においてのみ、事実性に関する情報が含まれる • それぞれの訓練されたプローブの精度を層の位置ごとに可視化したのが右図 • 多くのヘッドではプローブの精度は50%とほぼランダムと変わらない程度だが、一部の層では80%以上の性能となり事実性を一定とらえている事がわかる • 右図で紺色となるような上位の Attentionヘッドに介入を実施する 12

13.

7 結果様々なハイパラ設定において推論時介入における事実性の向上が確認 • LLaMA-7Bモデルにおいて、介入を行うヘッド数𝐾と介入の強さ 𝛼ごとに示したのが右図 • 多くの設定においてITIによる生成の事実性の向上を確認 • 多くのAttentionヘッドで強い介入を行うと”I have no comment.”のような情報量のない回答をしてしまう模様 13

14.

7 結果複数の実験設定でも一貫して有効性が発揮されることがわかる • LLaMA-7Bモデルの比較において、同量のデータでは SFT以上の効果を確認 • Few-shotの設定やInstructiontuning後のモデルにおいても有効性が発揮される 14

15.

7 結果介入方向は質量平均シフトの方が良好な結果を示す • 介入方向としては、プローブ重み方向、質量平均シフトいずれも向上があったが、質量平均シフトがより良好な結果を示す • 質量平均シフトの方が広範な真実性に関する情報をとらえられている？ 15

16.

8 考察他のデータセットでの評価でも推論時介入の有効性を確認 • TruthfulQAでの学習したのちに、分布の異なる他のデータセットでの性能についても追加実験を実施 • NaturalQA、Trivia QA、MMLU において性能の向上が得られた • 他の事実性が必要なデータセットでも一貫して有益な役割を担った可能性 16

17.

8 考察推論時介入では一定事実性と有益性でのトレードオフが存在する • 訓練データセットの割合と介入する強さを変化させてプロットしたのが右図 • データセットに関しては比較的少量で性能についてプラトーになる • 強い介入では事実性の向上と、回答の情報量の低下が得られ、トレードオフの存在を確認 17

18.

8 考察推論時介入はプローブの精度上位のヘッドごとの介入が最も効果的であった • 介入するヘッドについて複数の設定で比較を行う • 全てのヘッドに介入する場合 (Without selection)やプローブの重みの絶対値を基準に介入した場合(Point-wise selection)は t提案手法に性能が劣る • ヘッドごとに介入するスパースな介入が有益だった可能性 18

19.

まとめ • 言語モデルにおいて、モデルの内部的には知識を持っているが、それを標準的な方法では引き出せない場合がある事が知られている。 • このギャップを埋めるため、事実性に関連しうるヘッドと方向を特定し、推論中に事実性を高める方向への介入を行う推論時介入（ITI）を提案。 • TruthfulQAにおける検証において、Alpacaと呼ばれるモデルでは、 ITIにより出力の事実性が32.5%から65.1%に向上するなど、介入の有効性が確認できた。 • 関連する分布の異なるデータセットでも事実性に関する性能の向上を確認 19

20.

感想ヘッドごとの介入は確かにいいアイディアと感じた反面、なぜヘッドごとにプローブの精度含めて違いが大きく出るのかの謎は深まる印象。層ごとの分布をみると、モデルの中間層の関連が高そう →言語間の違いがモデルの序盤、終盤での関連が高かったのとは対照的かも言語的な内容だとヘッドごとに違いが出るから、層ごとのプローブだと中間層があまりピックアップされない？考察が気になることをクリアに書いていてよかった 20

21.

DEEP LEARNING JP [DL Papers] “Inference-Time Intervention: Eliciting Truthful Answers from a Language Model” (NeurIPS 2023 ) Okimura Itsuki http://deeplearning.jp/

http://deeplearning.jp/