[0204_ver.5]コンソーシアム

1.4K Views

February 08, 25

スライド概要

こんにちは!GASG(Generative AI Study Group)主催者の杉山です。
https://www.ai-tech-c.jp/generative-ai-study-group-gasg/
第40回となる今回は、画像データの視覚情報に基づく因果推論という研究に焦点を当てた研究会を開催いたします。

本研究は、慶應義塾大学の清水駿太氏によるご研究で "Causal Effects of Linguistic Properties" および "Adapting Text Embeddings for Causal Inference" の既研究より着想を得、画像分野に適用した因果推論研究です。
研究会では、清水氏のご研究の紹介とともに下記テーマについて論じていただきます。

因果推論の基礎:
処置(T)によるアウトカム(Y)の平均因果効果(ATE)の定義
共変量(C)の影響を考慮するためのバックドア調整公式の活用
視覚情報の因果関係への適用:
画像データの「高級感」が購買効果に与える影響を分析
代理ラベルを用いた撮影者の意図する特性の推定手法
提案手法:
T-boost: 代理ラベルの精度を向上させるための分類器の訓練
I-adjust: 事前学習済みのVision Transformer (ViT)を用いた視覚的特性の抽出とATEの計算
実験結果と考察:
共変量の影響が大きい場合に有効な手法であることを実証
データ拡張や再構成損失の導入によるモデルの汎化性能の向上
Vision Transformer (ViT) の紹介:
自然言語処理で成功を収めたTransformerを画像認識に応用したモデル
EVAとEfficientViTなど、最新のViTモデルの紹介
timmライブラリ:
事前学習済みのViTモデルを簡単に利用できるライブラリ

profile-image

Generative Ai Study Group Master

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

VITの紹介と 卒業論文 「画像データの視覚情報に基づく因果推論のための テキスト因果モデルの拡張と適用」 清水 駿太

2.

自己紹介 清水駿太 慶應義塾大学 理工学部情報工学科 4年 2025.4〜 東京科学大学 情報理工学院 篠田・本村研究室 昨年11月から産総研に 本村先生の元でデータ分析 その前はベンチャーでプロダクト開発, AI開発など [email protected] 資格: データベーススペシャリスト 統計検定準1級 TOEIC 925 受賞: ハッカソンでモバイル,webアプリ開発で 2,3回受賞

3.

目次 1. 卒業論文の内容紹介 2. Vision Transformerの説明 1. アーキテクチャ 2. 実際の利用方法

4.

卒業論文の内容紹介 画像データの視覚情報に基づく因果推論のための テキスト因果モデルの拡張と適用

5.

目次 1. 背景 2. 因果モデルの理論面 3. 推定モデル 4. 実験設定 5. 実験結果 6. 結論と今後の展望 7. 参考文献 5

6.

背景 状況設定 Ø 画像から得る視覚情報が購買効果へ与える影響を推定 因果推論の枠組みでその関係を捉える. 色味 高級感 形状 6

7.

背景 利用シナリオ Ø A/Bテストのような状況を想定 Ø 特定の特徴が購買にどのような影響をもたらすのか分析できる 画像データ 特徴 T クリックの有無 1.png 0 1 2.png 1 0 3.png 1 1 7

8.

背景 目的 1. ベース論文でテキストを対象とした因果推論を画像に対して適用 2. 対象のデータが異なるもので推定. 3. データ拡張や再構成損失の追加. Ø 実験条件を変更して推定精度の確認 8

9.

背景 因果推論の基本 Ø 処置𝑇(ex.明るさ) による𝑌 (購買効果) Average Treatment Effect (ATE) 𝜓 = 𝐸 𝑌 𝑇 = 1 − 𝐸[𝑌|𝑇 = 0] Ø 𝑇以外の要素(共変量 𝐶) による影響がある 𝐶の候補は様々で わからない バックドア調整公式 𝜓 = 𝐸! [𝐸 𝑌 𝑇 = 1, 𝐶 − 𝐸 𝑌 𝑇 = 0, 𝐶 ] 出典 : Pearl著 落海浩訳, 入門統計的因果推論, 朝倉書店, 2019. 𝐶をモデルの出力で代替しよう 10

10.

背景 バックドア調整公式 𝜓 = 𝐸 𝑌 𝑇 = 1 − 𝐸[𝑌|𝑇 = 0] 𝐸[𝑌|𝑇] 𝑇 = 1 𝑇 = 0 10 8 𝜓 = 10 − 8 = 2 𝜓 = 𝐸! [𝐸 𝑌 𝑇 = 1, 𝐶 − 𝐸 𝑌 𝑇 = 0, 𝐶 ] より正確 𝑇 = 1 𝑇 = 0 𝐶 = 1 10 8 10 – 8 = 2 𝐶 = 0 9 6 9 –6 = 3 𝜓 = 𝐸! 10 − 8 , 9 − 6 = 2.5 11

11.

背景 ベースの研究 Ø 2021年のPryzantらの研究 [1] 文章の言語特性による因果効果の推定 Amazonのレビュー文のネガポジが購買効果への影響を推定 レビュー文 問い合わせ ポジティブさ トピック 丁寧さ [1] 出典: Pryzant et al. ,Causal Effects of Linguistic Properties , NAACL 2021 対応速度 12

12.

背景 ベースの研究との比較 適用データ ベースの研究 本研究 テキスト 画像 ベースとほぼ同一 理論面 対象テーマ オンラインショッピング クレームデータ オンラインショッピング データサイズ 20000件程度 5000〜6000件 データ拡張 なし あり 補助ロス マスク損失 再構成損失 13

13.

因果モデルの理論面 因果関係の定式化 𝐼𝑚𝑔は撮影者が視覚的特性を想定して撮影 着目する特性「明るい(𝑇)」 結果(購買効果,𝑌)へ影響 他の視覚的特性(形状,鮮やかさなど,𝑍) 明るい 14

14.

因果関係の定式化 仮定として ) 「観測者が受け取った𝑇と 撮影者の意図する特性𝑇が一致」 「画像𝐼𝑚𝑔に基づいて適切に ) 他の特性𝑍を調整可」 撮影者視点の因果効果𝜓 $%&'&( 観測者視点の因果効果𝜓 !"# ATEの計算 明るい 明るい 15

15.

因果モデルの理論面 因果関係の定式化 $ 𝑍)は観測できない $ 撮影者の意図する特性(𝑇, 𝑍), 観測者が認識する特性(𝑇, * 代理ラベル(𝑇)を作成 𝑍はモデル𝑓によ る調整 𝜓 !"#$% = 𝐸&'( [𝐸 𝑌 𝑇* = 1, 𝑍 = 𝑓 𝐼𝑚𝑔 − 𝐸 𝑌 𝑇* = 0, 𝑍 = 𝑓 𝐼𝑚𝑔 ] 代理ラベルを生成する分類器の精度を高める 推定値𝜓 $!&)* の精度も向上. 明るい 明るい 16

16.

推定モデル 全体像 17

17.

推定モデル モデルの構成 Ø ATEの推定は大きく分けて2段階 𝑇 − 𝑏𝑜𝑜𝑠𝑡: , , Ø 代理ラベル𝑇の精度向上, 代理ラベル𝑇を𝑇に補正 𝐼 − 𝑎𝑑𝑗𝑢𝑠𝑡: , Ø 代理ラベル𝑇とアウトカム𝑌と共変量𝐶からATEを推定 18

18.

推定モデル ! 代理ラベル𝑇の作成と 𝑇 − 𝑏𝑜𝑜𝑠𝑡による補正 テキスト : ネガポジの辞書から作成 画像 : 𝑇に対して93%の精度 𝑇 − 𝑏𝑜𝑜𝑠𝑡 6 6 代理ラベル𝑇の精度向上, 代理ラベル𝑇をよりTに補正 種類 詳細 𝑇 − 𝑏𝑜𝑜𝑠𝑡!"# 6 代理ラベル𝑇の精度を向上させるために画像𝐼𝑚𝑔の特徴を入力に, 6 =∗ 代理ラベル 𝑇を予測する分類器を訓練. →𝑇 𝑇 − 𝑏𝑜𝑜𝑠𝑡%& 分類器の予測確率に基づいて一部の =∗ 𝑇6 = 0であっても𝑇> = 1に近いものを1と再割り当て→𝑇 19

19.

推定モデル 使用するデータ 家電製品, 腕時計 画像の明度→ 0,1 テキストを含むか否か, 画像の鮮度 → 0,1 20

20.

推定モデル I-adjust : 画像から視覚的特性の抽出と𝜓 !"#$% の計算 Ø 𝑉𝐼𝑇などの事前学習モデルを利用 > ベクトルb(𝐼𝑚𝑔)を取り出し、交絡因子𝑍を近似する 21

21.

推定モデル I-adjust : 画像から視覚的特性の抽出と𝜓 !"#$% の計算 A∗) 共変量𝐶 から, Ø 画像表現𝑏(𝐼𝑚𝑔)と代理ラベル(𝑇 アウトカム𝑌 を予測するモデル𝑄(𝑡, 𝑏(𝐼𝑚𝑔), 𝐶) を訓練. Ø 損失関数としてクロスエントロピー 22

22.

推定モデル I-adjust : 画像から視覚的特性の抽出と𝜓 !"#$% の計算 #$%&' Ø 訓練後𝜓 #$%&' の推定値𝜓D #$%&' = 𝐸 A∗ A∗ 𝜓D ()* [𝐸 𝑌 𝑇 = 1, 𝑏 𝐼𝑚𝑔 , 𝐶 − 𝐸 𝑌 𝑇 = 0, 𝑏 𝐼𝑚𝑔 , 𝐶 ] 23

23.

推定モデル データの全体像 Ø 実際のデータは真の因果関係が不明 Ø 半合成データを作成し 真の値を計算、モデルの出力と比較 24

24.

実験設定 半合成データの計算 Ø 𝛽+ , 𝛽' が共変量, 処置の結果への影響を調整 Ø パラメータを変更したデータで比較実験 25

25.

実験設定 比較対象 ベースライン (𝑈𝑛𝑎𝑑𝑗𝑢𝑠𝑡𝑒𝑑) , 𝑇と𝑜𝑢𝑡𝑐𝑜𝑚𝑒のみを用いて共変量を考慮していないATE 𝑈𝑛𝑎𝑑𝑗𝑢𝑠𝑡𝑒𝑑 = 𝐸 𝑜𝑢𝑡𝑐𝑜𝑚𝑒 𝑇, = 0 − 𝐸[𝑜𝑢𝑡𝑐𝑜𝑚𝑒|𝑇, = 1] 𝐺𝑟𝑜𝑢𝑛𝑑 𝑇𝑟𝑢𝑡ℎ 𝐶'!," , 𝑇'!," , 𝑜𝑢𝑡𝑐𝑜𝑚𝑒を用いて計算したATE 𝐺𝑟𝑜𝑢𝑛𝑑 𝑇𝑟𝑢𝑡ℎ = 𝐸- '!," [𝐸 𝑜𝑢𝑡𝑐𝑜𝑚𝑒 𝑇'!," = 0, 𝐶'!," − 𝐸 𝑜𝑢𝑡𝑐𝑜𝑚𝑒 𝑇'!," = 1, 𝐶'!," ] 比較の意味 本来は何が共変量なのかわからない → 𝐺𝑟𝑜𝑢𝑛𝑑 𝑇𝑟𝑢𝑡ℎの計算はできない モデルによる出力が𝐺𝑟𝑜𝑢𝑛𝑑 𝑇𝑟𝑢𝑡ℎに近いならば推定がうまくいっている 26

26.

実験設定 バックドア調整公式 ベースライン (𝑈𝑛𝑎𝑑𝑗𝑢𝑠𝑡𝑒𝑑) 𝐸[𝑌|𝑇] 𝑇6 = 1 𝑇6 = 0 10 8 モデル出力 2.3 2.0 𝐺𝑟𝑜𝑢𝑛𝑑 𝑇𝑟𝑢𝑡ℎ 𝑇𝒕𝒓𝒖𝒆 = 1 𝑇𝒕𝒓𝒖𝒆 = 0 𝐶%&'( = 1 10 8 𝐶%&'( = 0 9 6 0.5 0.2 2.5 27

27.

実験設定 実験設定 Ø 各データについて共変量の影響が大きい場合にHigh, 小さい場合にLow. パターン 抜粋して紹介 詳細 T-boostのみ T-boostのみ適用 I-adjustのみ + データ拡張あり timmのライブラリから使用できる以下のモデル • eva02_tiny_patch14_224.mim_in22k • vit_base_patch32_clip_224.laion2b_ft_in12k_in1k • efficientvit_m2.r224_in1k I-adjust + T-boost データ拡張ありのI-adjustとT-boostの組み合わせ I-adjustのみ + データ拡張なし データ拡張を行わない場合のI-adjust I-adjust + データ拡張あり + 再構成損失 再構成損失を加えたデータ拡張ありのI-adjust 28

28.

実験結果 表とモデルの対応 29

29.

実験結果 各モデルでの結果 Unadjusted と比較して I-adjust がGround Truth に近い結果を示す 特に共変量因子の影響が大きい場合には UnadjustedとGround Truthの 乖離が大きく I-adjustの有用性見て取れる 0.0191 0.001

30.

実験結果 データ拡張の実装 データ拡張によりモデルの𝑍の調整能力の向上を期待する 手法 パラメータ 適用確率 Random Brightness Contrast Brightness: -0.2 0.2,Contrast: -0.2 ~ 0.2 50% Motion Blur, Median Blur Gaussian Blur Gaussian Noise Variance: 5.0~30.0 50% Optical Distortion Grid Distortion Elastic Transform Steps: 5 Alpha:3 50% Shift Scale Rotate Shift:±10%, Scale:±10%,Rotate :±15° 50% Resize 224×224 Coarse Dropout Max 16, Size: 8~64 Normalize - 50% 31

31.

実験結果 データ拡張の有効性 データ拡張を行うことで, 行わなかった場合と比較して, 各モデルがGround Truthに近い結果を示していることがわかる. 32

32.

実験結果 再構成損失の実装 画像の再構成損失を実装 事前学習モデル自体の ファインチューニングを行う 33

33.

実験結果 再構成損失の有効性 追加した場合と追加しなかった場合では各データに対して大きな差はみられない 一部のデータに対してはI-adjust のみよりも精度が向上している. 34

34.

結論と今後の展望 結論 1. ベースの論文でテキストを対象とした因果推論を画像に対して適用 →画像に対してもベースラインよりも良い推定が可能 2. 対象のデータが異なるもので推定. →対象の物体によって一部差はあるものの ベースラインと比較して良い推定が可能 3. データ拡張や再構成損失の追加 → データ拡張は一般的に精度の向上 再構成損失はデータによる 35

35.

結論と今後の展望 今後の展望 1. データセット 現実のデータに適用して真正値との比較はできないが、直感に沿ってい るか検証 購買データ以外のSNSなどのインプレッションや広告を対象に行う 2. モデル自体の改善 I-adjustのg_classifierとQ_classifierはベースの論文のもの テキストから画像の変更で次元の増加に伴う改善余地 36

36.

参考文献 [1] Pryzant et al. ,Causal Effects of Linguistic Properties , NAACL 2021 [2] Pearl著 落海浩訳, 入門統計的因果推論, 朝倉書店, 2019. [3] Veitch et al. , Adapting Text Embeddings for Causal Inference , UAI 2020 37

37.

Vision Transformerの説明

38.

ViTについて Vision Transformer発表当時(2021)の状況 • • • 自然言語処理タスクで Transformerはデファクトスタンダートになっていた.(2021年時点) その成功に触発されて CNN + Self-Attentionの組合せを研究し始めていた. 効果的なスケーリングが行われず,未だResNetなどの古典的アーキテクチャが主流 標準的なTransformerを,少ない修正で画像に適用したい!

39.

ViTについて Transformerの何がいいの? 1. 計算効率の良さ 2. スケーラビリティ ○ モデルを大きくした時に学習が進まなくなる時があるが, Transformerは単純に大きくしても性能向上が見込める ○ データ内の分散表現を獲得し自己教師あり学習に利用できる CV分野適用への難しさも 1. Transformerは文章などのシーケンスデータが得意 ○ 繋がりのある要素同士の関係性を明らかにすることに強み 2. ピクセル単位でTransformerを利用すると計算量が多くなる . ○ 要素同士の関係性をとるためO(𝑛 )かかる

40.

ViTアーキテクチャ Vision Transformerのアーキテクチャ 1. 2. 3. 4. 5. Linear Projection of Flattened Patches Extra learnable [class] embedding Patch + Position Embedding Transformer Encoder MLPヘッドと接続 ⑤ ④ ② ① ③

41.

ViTアーキテクチャ Linear Projection of Flattened Patches 二次元の画像(𝐻×𝑊×𝐶)をN(𝑃! ・𝐶)に変換 パッチごとに一次元に変換 次元DのテンソルEに線形射影 P 𝑃) ・𝐶 Patch Embedding ・ ・ ・ ・ ・ ・ P H N C W ・ ・ ・

42.

ViTアーキテクチャ Extra Learnable [class] Embedding 画像分類をするために、シーケンスデータの先頭に学習可能なトークンの追加 BERTの[CLS]トークンと同じ効果を狙うもの [class] Embedding + ・ ・ ・ Patch Embedding

43.

ViTアーキテクチャ Patch + Position Embedding バッチの画像の位置を示す情報を付与する Position Embedding + 0 + 1 + 2 + + ・ ・ ・ ・ ・ ・ + 9

44.

ViTアーキテクチャ Transformer Encoder ブロックの前にLayer Normalization 後に残差接続が適用 オリジナルのTransformer とほぼ変わらない ViT Layer-Nomarlizationの位置で Transformerは2種に大別. Post-LNは性能が多層にした場合に 勾配消失により学習が進まない Pre-LNは安定するものの, 性能が低い https://www.slideshare.net/slideshow/transformer251349618/251349618 Original

45.

ViTアーキテクチャ Transformer Encoder MLPヘッドと接続して画像分類 ここの出力次元を変えて分類するクラス数を指定する

46.

ViT派生のモデル EVAやEfficientViTについて どちらもCVPR(コンピュータービジョン分野のトップカンファ) 2023年に発表されたもの EVA[3] はBAAI(北京人工知能学院) EfficientViT [4]はMicrosoft Researchから出ている.

47.

実際に利用する際 timm: PyTorch Image Models 実際に利用する場合、実装が難しい & 学習に時間がかかる→ 事前学習済みの重みとライブラリ を用意 出典 : logmiBusiness,「数百種類のモデルを備える最強画像認識ライブラリ 「timm」のお手軽な使い方」

48.

実際に利用する際 timm: PyTorch Image Models 実際に利用する場合、実装が難しい & 学習に時間がかかるので 事前学習済みの重みとライブラリ を用意 Ross Wightmanさんが作成 → 現在はHuggingfaceに移行 ● ● ● 700以上の事前学習済みモデル 最新のモデルもすぐ使える タスクごとにモデルが存在 https://github.com/huggingface/pytorch-image-models

49.

実際に利用する際 基本的な使い方 create_model() • • モデルを指定 : model_name = ??? 事前学習済みの重みの利用 : pretrained = True モデルの命名規則 vit_base_patch32_clip_224.laion2b_ft_in12k_in1k Vision transformer base:標準サイズのモデル patch32:32×32のパッチに分割 ImageNet-12kとImageNet-1k でファインチューニング 入力画像が224×224 CLIPフレームワーク使用 LAION-2B(約20億枚の画像 とテキストペア)で事前学習

50.

参考文献 [1] Alexey et al, An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, ICLR 2021 [2] Yuxin Fang et al, EVA: Exploring the Limits of Masked Visual Representation Learning at Scale, CVPR2023 [3] Xinyu Liu et al, EfficientViT: Memory Efficient Vision Transformer With Cascaded Group Attention, CVPR2023 [4] logmiBusiness, 「数百種類のモデルを備える最強画像認識ライブラリ 「timm」のお手軽な使い方」 (https://logmi.jp/main/technology/325674) [5]DeepSquare media, 画像認識の革新モデル!脱CNNを果たしたVision Transformer(ViT)を徹底解説! (https://deepsquare.jp/2020/10/vision-transformer/)