CausalText_presentation

113 Views

September 25, 23

#因果推論 #自然言語処理 #介入効果の推定 #計量経済学 #Amazonレビューデータ

スライド概要

野中賢也

@6031295630

スライド一覧

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

voyager_presentation

野中賢也 1.2K

in-context-learn-from-baysian-point-of-view

野中賢也 1.1K

word_rotator's_distance

野中賢也 0.9K

Deep reinforcement learning from human feedback

野中賢也 463

active clean slide

野中賢也 196

ヘフティングの不等式からデータセットのサイズ算出

野中賢也 180

各ページのテキスト

Causal Effect of Linguistic Properties Nonaka Kenya

Causal E ects of Linguistic Properties ff • テキストに表現された(読み取れる) Propertieの目的変数に対する因果効果の識別 • https://aclanthology.org/2021.naacl-main.323.pdf • 読んできたモチベーション • 計量経済学を齧ってみてる • 因果効果の識別の手法が多くて面白い • 回帰不連続デザイン、差分の差、操作変数法など • 自然言語データを使って因果効果の識別をやろうとしているヤツあるかな？ • https://github.com/causaltext/causal-text-papers • 1. 因果推論をテキストデータに応用する • 2. 因果推論を用いて、NLPの手法を改善する • 登場する変数が多く、説明しきれてないところが多いかもしれません

背景と目的

観察された自然言語の性質(propertie)の因果を推論したい • 例) プロダクトの不満へのオペレーターへの対応時間 • プロダクトへの自身の不満を早急に取り上げてもらうには、どう書いたらよいか？ • 丁寧にかけば対応時間が短くなるのだろうか？それとも変わらない？？

特に、自然言語の性質(property)の介入効果を推定する • テキストに対して介入を施したときの効果を推定する。 • 例) 製品に対する不満を早急に取り上げてもらうには？ • 他のproperty(トピック、感情)を固定して、書き方(manner)のみを丁寧にするように「介入」した際に、どれだけ反応速度が縮まるか。

特に、自然言語の性質(property)の介入効果を推定する • 自然言語の性質の介入効果推定を推定する際の3つの問題にチャレンジした • 1. 仮想的な介入をおこなって、興味のある性質の因果効果を定式化した • 2. 観察できない真の性質の代替になる推論された性質を使う方法を示した。 • 3. 上記定式化に沿って、アルゴリズムを作ってアマゾンのレビューデータセットと sales dataで検証した

前提 : 交絡因子の条件付けによるATEの推定

求めたい因果効果̲Average Treatment E ect(ATE) • 例) 薬品投与とその後の病状の進行度合いとの因果関係 ff '

平均アウトアムの単純差は求めたいATEとずれがある • 平均アウトカムの単純差(Simple Di erence in Mean Outcomes) • なぜずれるか？→交絡因子Cの存在 • 例) • 例えば、Cがクスリ投与前の病状だとして、投与前に病状が良ければ、クスリは投与されない(T=0)な確率が高く、 ff 投与後の病状(Y)も良い確率が高い。(選択バイアス)

10.

交絡因子Cを条件付けすることによって、ATEと一致する • 以下の式はATEである。

11.

求めたいATEを定式化する

12.

想定しているグラフィカルモデル(例：消費者の不満)

13.

最も知りたい介入効果̲書き手の意図 →しかし、書き手の意図は観察することができない。

14.

代わりに、読み手の知覚の介入効果に注目する。

15.

いくつかの仮定をおくと、書き手の意図と読み手の知覚の介入効果が一致することが確かめられる。(らしい) • 仮定 • 1. 書き手の意図と読み手の知覚の一致 • 2. テキストW以外に交絡因子が存在しない • 3. 他の知覚に興味ある知覚の手がかりがある

16.

直感的説明

17.

読み手の真の知覚も結局は手に入らないので、辞書によるマッチやモデルが出力するProxy Labelを代理で使用

18.

まとめ •ψ wri : 書き手の「丁寧に書く」という意図がどれだけ、対応時間を縮めるか？ •ψ rea : 読み手の「丁寧だな」という知覚がどれだけ、対応時間を縮めるか？ •ψ proxy : モデルに「丁寧だな」と判断されたとき、対応時間がどれぐらい縮まるか？

19.

介入効果を求めるアルゴリズム TEXTCAUSE

20.

得られているデータ(Input)と求めたい推定量(Output)

21.

2つのステップに分けて求める。 1. Proxy Labelの改善 2. 交絡因子であるテキストの調整

22.

1. Proxy Labelの改善本当に求めたいのは、ψ rea wri (= ψ )だが、手元で得られているデータでは、ψ れない。 ψ rea とψ proxy には、以下の関係がある →この誤差項の分を修正する必要性がある。 proxy しか求めら

23.

1. Proxy Labelの改善先行研究によると、辞書でルールベースでマッチングするのは、high-presitionだけれども、low-recallらしい(注：これが普遍的に当てはまるかは議論の余地ありそう) → よって、recallを上げるようにProxy Labelを改善すると良い。

24.

1. 交絡因子であるテキストの調整求めたい介入効果は以下。Yの期待値計算の部分を予測器Qで近似する論文だと予測器にDistill Bertを使用している

25.

1. 交絡因子であるテキストの調整予測器Qの学習は以下で行われる。ざっくり言うと、Distill BertにProxyLabelが1の場合のYとProxyLabelが0の場合のYを予測するための層を追加して、予測誤差損失ともともとBERTの損失関数を足したものを目的関数にして最適化している。

26.

1. 交絡因子であるテキストの調整学習後のQを用いて、欲しかった推定量が手に入る。

27.

実験: Amazon Review ポジティブなレビューは、どの程度売上に貢献するだろうか？

28.

Amazon Reviewを元にしたデータの生成 • Amazon Reviewをもとに、レビューがpositiveであればあるほど売れるようなデータを作った。 • テキストW • 商品に対するレビュー • テキスト以外の交絡因子C • 商品がCDか否か • 書き手の意図=読み手の知覚 T • レビューが5であればpositive(1) • レビューが1,2であればnegative(0) • Proxy Label̲2通り • 1. Tに対してノイズを全体の7%入れたもの(proxy-noised) • 2. ポジティブ辞書に対してマッチしたときに1,しなかったときに0をふった • Outcome(購入するか否か)

29.

結果 Oracle: T=1として生成したYとT=0として生成したYとの差 semi-Oracle: TからProxyLabelが生成される方程式が既知の場合の介入効果の推定量 Unadjusted: 辞書ベースのProxyLabelを使って期待値の差を計算 Proxy-lex:辞書ベースのProxyLabelを使って、テキスト以外の交絡因子を調整して期待値の差を計算 Proxy-noised: 真のTから7%ノイズをを入れたProxyLabelを使って、テキスト以外の交絡因子を調整して期待値の差を計算 T-boost: 辞書ベースのProxyLabelをモデルを使ってRelabelした後、テキスト以外の交絡因子を調整して期待値の差を計算 W-Adjust: 辞書ベースのProxyLabelを使って、テキストとテキスト以外の交絡因子を調整して期待値の差を計算 TextCause : T-boost + W-Adjust(提案手法)

30.

結果 • 各パラメータを調整して、それぞれの効果が強い場合とそうでない場合も実験している。

31.

どのパターンでもOracleに最も近いのは提案手法 Mean delta from oracleが提案手法だと0.11

32.

どのパターンでもOracleに最も近いのは提案手法 T-boostやW-Adjustだけでもnaiveに辞書ベースのProxy Labelを使うより良い

33.

所感

34.

所感 • 基本的に交絡因子が全部観察できることを前提にしている。 • 未観測の交絡因子の影響を防ぎきれないのが大半のケースでは？ • 計量経済学だと、交絡因子が未観測の場合、操作変数方とか回帰不連続デザインとか色々ありそうなので、みてみたい

35.

所感 • 辞書によるマッチングがhigh-precision,low-recallになる研究結果があるというのは、学だった • LLMによるzero-shotのラベリングも有力な選択肢になりそうなので、そことの比較とかもできそう。