okimura_tadankai_slide

4.5K Views

October 23, 23

#言語モデル #多段階推論 #ニューロン活性化 #思考連鎖プロンプト #BLOOMモデル

スライド概要

事前学習済み言語モデルの性能を引き出す方法としてプロンプトが注目されており，その1つが思考連鎖プロンプトが存在する．思考連鎖プロンプトは，最終的な答えを導き出すために，途中の考えを明示的に表現することを促すプロンプトであり，モデルの多段階の推論能力を改善することが知られている．一方で，モデルが思考連鎖プロンプトからどのような影響を受け，多段階推論を可能になるのかについては，未だ不明な点が多い．
本研究では，言語モデル中のニューロンの活性化によりタスクの性能を解釈する既存研究を背景として，モデル中のニューロンが多段階推論のタスクにおいて内部的にどのような影響を及ぼされているかを検証した．その結果，多段階推論において，複数の思考連鎖プロンプトで共通して活性化するニューロンが存在することが明らかになった．また，これらのニューロンをの活性化を抑制することで，推論パフォーマンスが悪化することがわかった．この結果はモデルの推論能力の獲得のメカニズムに示唆を与える．

weblab

@weblab

スライド一覧

weblab

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

iwasawa_SLTH_slide

weblab 15.8K

yamatsuta_jsai_slide

weblab 9.6K

nakano_intrinsic_slide

weblab 8.6K

takashiro_daikibo_slide

weblab 8.1K

oshima_iterative

weblab 7.7K

KoheiHiraki_Transformer_slide_JSAI2023

weblab 7.7K

各ページのテキスト

事前学習済み言語モデル中の多段階推論に関与するニューロンに関する分析沖村樹1，岩澤有祐1，小島武1，松尾豊1 (1. 東京大学) 1

概要 ● 本研究では，言語モデル中のニューロンの活性化によりタスクの性能を解釈する既存研究を背景として，モデル中のニューロンが多段階推論のタスクにおいて内部的にどのような影響を及ぼされているかを検証した ● その結果，多段階推論において，複数の思考連鎖プロンプトで共通して活性化するニューロン「多段階推論ニューロン」が存在することが明らかになった． ● これらのニューロンをの活性化を抑制することで，多段階推論におけるパフォーマンスが悪化することが判明した． 2

背景思考連鎖プロンプトはモデルに多段階の推論を促すことができる「思考連鎖プロンプト(Chain of Thought Prompts)」は，最終的な解を導き出すために，中間で推論プロセスを明示することを促すプロンプトを入力することで，モデルの多段階推論能力を引き出すことができる． Few-shotの設定で540Bのパラメータを持つ PaLMの性能は，ファインチューニングされた GPT-3を凌駕した．一方で，思考連鎖プロンプトは，約100Bのパラメータがないと機能しなかった．出典：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models[Wei, et al. 2022] 3

背景様々な設定で思考連鎖プロンプトについて検証が行われているゼロショット思考連鎖プロンプト出典：Large Language Models are Zero-Shot Reasoners [Kojima, et al. 2023] 不適切な推論経路出典：Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters [Wang, et al. 2022] 4

問題意識依然として，思考連鎖プロンプトには不明な点が存在している • 思考連鎖プロンプトはモデルにどのような影響を及ぼしているのか？ • なぜサイズの大きなモデルのみで多段階の推論は可能になるのか? 5

関連研究 Self-conditioning Pre-Trained Language Models [Suau, et al. 2022] 入力から概念を検出し，その概念に基づくテキスト生成を担うエキスパートユニット（ニューロン）を特定し，生成された出力に概念を誘導する手法を提案した．その結果，驚くほど少ないユニットの活性化（345Mのパラメータを持つモデルでわずか 3ユニット）で，テキスト生成を制御できることを発見した．思考の連鎖を可能にするニューロンが大規模言語モデル中に存在するのではないか？ 6

[beta]

方法
多段階推論の有無を含んだテキストを用意し，実験に用いる
思考連鎖関連の研究で用いられるMultiArithという文章題のQAのデータセットを使用する．
本実験では，対象テキスト𝑥と，多段階推論を含んでいるか否かを示すバイナリフラグ𝑏を含む
データセット𝐷 = {(𝑥! , 𝑏! )}" 𝑁 = 𝑁 # + 𝑁 $ を用意する．
多段階推論を含むものとして，MultiArithの質問とZeroshot-cot（例. “A: Let‘s think step by step.”）を与えて，
Bloom-140Bで生成した結果を取得する．
!
これによって得られたテキストとバイナリフラグ𝑏 = 1の組のデータを𝐷 # = {(𝑥! , 𝑏! )}" とする．
多段階推論を含まないものとして，MuliArithの質問と回答“A: The numeric Answer (Arabic number) is
{gold}.”を単純に結合したものを取得する．
"
これによって得られたテキストとバイナリフラグ𝑏 = 0の組のデータを𝐷 $ = {(𝑥! , 𝑏! )}" とする．
7

方法モデル中の多段階推論の有無に高い予測性を持つニューロンを特定する " " 長さ𝑇のテキスト𝑥! = 𝑥!,& … 𝑥!,' を入力としたときにニューロン𝑧から得られる中間状態を𝑧!" = 𝑧!,& … 𝑧!,' とする．この場合，あるニューロン𝑁からの活性化出力𝑢!" は，トークン長𝑇に依存しない値として，以下の式で定義できる． " " 𝑢!" = max( 𝑧!,& … 𝑧!,' ) モデル全体は，テキストに多段推論があるかどうかをニューロンの出力から予測する二値分類器と見なすことができる．各ニューロン𝑁について，ニューロンの出力から多段推論の有無を予測する際の平均精度AP " は，以下の式で求められる． AP " = AP 𝑢!" , 𝑏 AP " >0.999のニューロンを他段階推論の存在で活性化が起こる多段階推論ニューロンと定義する． 8

実験設定モデル BLOOM-140Bを実験モデルとして使用した．また，BLOOM-560M，BLOOM-7.1Bを使用し，より低いパラメーターのモデルでも同様の現象が見られるかどうかについても検証した．プロンプト実験では，プロンプトの言葉の表面的な影響を軽減するため，複数のプロンプトから生成されたテキストを用いて比較した．思考連鎖プロンプトには， “Let‘s think step by step.”, “First”, “Let’s think about this logically. First”, “Let‘s think about this logically.”, “Let’s do it step by step.”, and “Let‘s do it a little at a time.”を用いたニューロン分析対象となるニューロンの層は，各TransformerブロックのSelf-Attention層とFeed-Forward層に限定した 9

10.

結果すべてのモデルサイズにおいて，多段階推論の有無に高い予測性を持つ「多段階推論ニューロン」の存在が確認された 10

11.

結果多段階推論ニューロンの活性化は，異なる思考ゼロショット思考連鎖プロンプトの間でも類似性が観察された 11

12.

考察多段階推論ニューロンの活性化が抑制した状態で生成を行った場合，多段階推論のパフォーマンスが低下した BLOOM-140Bでは，すべてのプロンプト設定で平均適合率が0.999以上だった2949個の多段階推論ニューロンについて，出力を多段階推論を含まないサンプルでの出力の中央値に固定した．この条件で，思考連鎖プロンプト “Let‘s think step by step. ”を使用した場合にMultiArithを用いた場合の性能を測定した． BLOOM-140BのMultiArithでの性能設定正解率(%) ニューロンの固定なし 33.0 ニューロンの固定あり 19.3 ニューロンを固定した場合，固定しなかった場合に比べて性能低下が観察された．多段階推論ニューロンの出力値は多段階推論の性能に影響を与える 12

13.

まとめ ● 本研究では，言語モデル中のニューロンの活性化によりタスクの性能を解釈する既存研究を背景として，モデル中のニューロンが多段階推論のタスクにおいて内部的にどのような影響を及ぼされているかを検証した ● その結果，多段階推論において，複数の思考連鎖プロンプトで共通して活性化するニューロン「多段階推論ニューロン」が存在することが明らかになった． ● これらのニューロンをの活性化を抑制することで，多段階推論におけるパフォーマンスが悪化することが判明した． 13