[0204_ver.5]コンソーシアム

4.5K Views

February 08, 25

#ai #generative ai #machine learning #deep learning #artificial intelligence #因果推論 #Vision Transformer #画像認識 #機械学習 #購買行動

スライド概要

こんにちは！GASG（Generative AI Study Group）主催者の杉山です。
https://www.ai-tech-c.jp/generative-ai-study-group-gasg/
第40回となる今回は、画像データの視覚情報に基づく因果推論という研究に焦点を当てた研究会を開催いたします。

本研究は、慶應義塾大学の清水駿太氏によるご研究で "Causal Effects of Linguistic Properties" および "Adapting Text Embeddings for Causal Inference" の既研究より着想を得、画像分野に適用した因果推論研究です。
研究会では、清水氏のご研究の紹介とともに下記テーマについて論じていただきます。

因果推論の基礎:
処置（T）によるアウトカム（Y）の平均因果効果（ATE）の定義
共変量（C）の影響を考慮するためのバックドア調整公式の活用
視覚情報の因果関係への適用:
画像データの「高級感」が購買効果に与える影響を分析
代理ラベルを用いた撮影者の意図する特性の推定手法
提案手法:
T-boost: 代理ラベルの精度を向上させるための分類器の訓練
I-adjust: 事前学習済みのVision Transformer (ViT)を用いた視覚的特性の抽出とATEの計算
実験結果と考察:
共変量の影響が大きい場合に有効な手法であることを実証
データ拡張や再構成損失の導入によるモデルの汎化性能の向上
Vision Transformer (ViT) の紹介:
自然言語処理で成功を収めたTransformerを画像認識に応用したモデル
EVAとEfficientViTなど、最新のViTモデルの紹介
timmライブラリ:
事前学習済みのViTモデルを簡単に利用できるライブラリ

Kunihiro Sugiyama

@KunihiroSugiyama

スライド一覧

Generative Ai Study Group Master

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

公開用のLangCore会社紹介資料

Kunihiro Sugiyama 19.8K

Generative AI Study Group_2ndSesssion_20230620

ai generative ai artificial intelligence machine learning deep learning

Kunihiro Sugiyama 13.9K

Generative AI Study Group_11thSesssion_20231114

ai generative ai machine learning deep learning artificial intelligence

Kunihiro Sugiyama 13K

Generative AI Study Group_FirstSesssion_20230606

ai generative ai artificial intelligence machine learning deep learning

Kunihiro Sugiyama 12.7K

Generative AI Study Group_振り返り会

ai generative ai machine learning deep learning artificial intelligence

Kunihiro Sugiyama 12.3K

Generative AI Study Group_3rdSesssion_20230704

ai generative ai machine learning deep learning

Kunihiro Sugiyama 12.1K

各ページのテキスト

VITの紹介と卒業論文「画像データの視覚情報に基づく因果推論のためのテキスト因果モデルの拡張と適用」清水駿太

自己紹介清水駿太慶應義塾大学理工学部情報工学科４年 2025.4〜東京科学大学情報理工学院篠田・本村研究室昨年11月から産総研に本村先生の元でデータ分析その前はベンチャーでプロダクト開発, AI開発など [email protected] 資格: データベーススペシャリスト統計検定準1級 TOEIC 925 受賞: ハッカソンでモバイル,webアプリ開発で 2,3回受賞

目次 1. 卒業論文の内容紹介 2. Vision Transformerの説明 1. アーキテクチャ 2. 実際の利用方法

卒業論文の内容紹介画像データの視覚情報に基づく因果推論のためのテキスト因果モデルの拡張と適用

目次 1. 背景 2. 因果モデルの理論面 3. 推定モデル 4. 実験設定 5. 実験結果 6. 結論と今後の展望 7. 参考文献 5

背景状況設定 Ø 画像から得る視覚情報が購買効果へ与える影響を推定因果推論の枠組みでその関係を捉える. 色味高級感形状 6

背景利用シナリオ Ø A/Bテストのような状況を想定 Ø 特定の特徴が購買にどのような影響をもたらすのか分析できる画像データ特徴 T クリックの有無 1.png 0 1 2.png 1 0 3.png 1 1 7

背景目的 1. ベース論文でテキストを対象とした因果推論を画像に対して適用 2. 対象のデータが異なるもので推定. 3. データ拡張や再構成損失の追加. Ø 実験条件を変更して推定精度の確認 8

背景因果推論の基本 Ø 処置𝑇(ex.明るさ) による𝑌 (購買効果) Average Treatment Effect (ATE) 𝜓 = 𝐸 𝑌 𝑇 = 1 − 𝐸[𝑌|𝑇 = 0] Ø 𝑇以外の要素(共変量 𝐶) による影響がある 𝐶の候補は様々でわからないバックドア調整公式 𝜓 = 𝐸! [𝐸 𝑌 𝑇 = 1, 𝐶 − 𝐸 𝑌 𝑇 = 0, 𝐶 ] 出典 : Pearl著落海浩訳, 入門統計的因果推論, 朝倉書店, 2019. 𝐶をモデルの出力で代替しよう 10

10.

背景バックドア調整公式 𝜓 = 𝐸 𝑌 𝑇 = 1 − 𝐸[𝑌|𝑇 = 0] 𝐸[𝑌|𝑇] 𝑇 = 1 𝑇 = 0 10 8 𝜓 = 10 − 8 = 2 𝜓 = 𝐸! [𝐸 𝑌 𝑇 = 1, 𝐶 − 𝐸 𝑌 𝑇 = 0, 𝐶 ] より正確 𝑇 = 1 𝑇 = 0 𝐶 = 1 10 8 10 – 8 = 2 𝐶 = 0 9 6 9 –6 = 3 𝜓 = 𝐸! 10 − 8 , 9 − 6 = 2.5 11

11.

背景ベースの研究 Ø 2021年のPryzantらの研究 [1] 文章の言語特性による因果効果の推定 Amazonのレビュー文のネガポジが購買効果への影響を推定レビュー文問い合わせポジティブさトピック丁寧さ [1] 出典: Pryzant et al. ,Causal Effects of Linguistic Properties , NAACL 2021 対応速度 12

12.

背景ベースの研究との比較適用データベースの研究本研究テキスト画像ベースとほぼ同一理論面対象テーマオンラインショッピングクレームデータオンラインショッピングデータサイズ 20000件程度 5000〜6000件データ拡張なしあり補助ロスマスク損失再構成損失 13

13.

因果モデルの理論面因果関係の定式化 𝐼𝑚𝑔は撮影者が視覚的特性を想定して撮影着目する特性「明るい(𝑇)」結果(購買効果,𝑌)へ影響他の視覚的特性(形状,鮮やかさなど,𝑍) 明るい 14

14.

因果関係の定式化仮定として ) 「観測者が受け取った𝑇と撮影者の意図する特性𝑇が一致」「画像𝐼𝑚𝑔に基づいて適切に ) 他の特性𝑍を調整可」撮影者視点の因果効果𝜓 $%&'&( 観測者視点の因果効果𝜓 !"# ATEの計算明るい明るい 15

15.

因果モデルの理論面因果関係の定式化 $ 𝑍)は観測できない $ 撮影者の意図する特性(𝑇, 𝑍), 観測者が認識する特性(𝑇, * 代理ラベル(𝑇)を作成 𝑍はモデル𝑓による調整 𝜓 !"#$% = 𝐸&'( [𝐸 𝑌 𝑇* = 1, 𝑍 = 𝑓 𝐼𝑚𝑔 − 𝐸 𝑌 𝑇* = 0, 𝑍 = 𝑓 𝐼𝑚𝑔 ] 代理ラベルを生成する分類器の精度を高める推定値𝜓 $!&)* の精度も向上. 明るい明るい 16

16.

推定モデル全体像 17

17.

推定モデルモデルの構成 Ø ATEの推定は大きく分けて２段階 𝑇 − 𝑏𝑜𝑜𝑠𝑡: , , Ø 代理ラベル𝑇の精度向上, 代理ラベル𝑇を𝑇に補正 𝐼 − 𝑎𝑑𝑗𝑢𝑠𝑡: , Ø 代理ラベル𝑇とアウトカム𝑌と共変量𝐶からATEを推定 18

18.

推定モデル ! 代理ラベル𝑇の作成と 𝑇 − 𝑏𝑜𝑜𝑠𝑡による補正テキスト : ネガポジの辞書から作成画像 : 𝑇に対して93%の精度 𝑇 − 𝑏𝑜𝑜𝑠𝑡 6 6 代理ラベル𝑇の精度向上, 代理ラベル𝑇をよりTに補正種類詳細 𝑇 − 𝑏𝑜𝑜𝑠𝑡!"# 6 代理ラベル𝑇の精度を向上させるために画像𝐼𝑚𝑔の特徴を入力に, 6 =∗ 代理ラベル 𝑇を予測する分類器を訓練. →𝑇 𝑇 − 𝑏𝑜𝑜𝑠𝑡%& 分類器の予測確率に基づいて一部の =∗ 𝑇6 = 0であっても𝑇> = 1に近いものを1と再割り当て→𝑇 19

19.

推定モデル使用するデータ家電製品, 腕時計画像の明度→ 0,1 テキストを含むか否か, 画像の鮮度 → 0,1 20

20.

推定モデル I-adjust : 画像から視覚的特性の抽出と𝜓 !"#$% の計算 Ø 𝑉𝐼𝑇などの事前学習モデルを利用 > ベクトルb(𝐼𝑚𝑔)を取り出し、交絡因子𝑍を近似する 21

21.

推定モデル I-adjust : 画像から視覚的特性の抽出と𝜓 !"#$% の計算 A∗) 共変量𝐶 から, Ø 画像表現𝑏(𝐼𝑚𝑔)と代理ラベル(𝑇 アウトカム𝑌 を予測するモデル𝑄(𝑡, 𝑏(𝐼𝑚𝑔), 𝐶) を訓練. Ø 損失関数としてクロスエントロピー 22

22.

推定モデル I-adjust : 画像から視覚的特性の抽出と𝜓 !"#$% の計算 #$%&' Ø 訓練後𝜓 #$%&' の推定値𝜓D #$%&' = 𝐸 A∗ A∗ 𝜓D ()* [𝐸 𝑌 𝑇 = 1, 𝑏 𝐼𝑚𝑔 , 𝐶 − 𝐸 𝑌 𝑇 = 0, 𝑏 𝐼𝑚𝑔 , 𝐶 ] 23

23.

推定モデルデータの全体像 Ø 実際のデータは真の因果関係が不明 Ø 半合成データを作成し真の値を計算、モデルの出力と比較 24

24.

実験設定半合成データの計算 Ø 𝛽+ , 𝛽' が共変量, 処置の結果への影響を調整 Ø パラメータを変更したデータで比較実験 25

25.

実験設定比較対象ベースライン (𝑈𝑛𝑎𝑑𝑗𝑢𝑠𝑡𝑒𝑑) , 𝑇と𝑜𝑢𝑡𝑐𝑜𝑚𝑒のみを用いて共変量を考慮していないATE 𝑈𝑛𝑎𝑑𝑗𝑢𝑠𝑡𝑒𝑑 = 𝐸 𝑜𝑢𝑡𝑐𝑜𝑚𝑒 𝑇, = 0 − 𝐸[𝑜𝑢𝑡𝑐𝑜𝑚𝑒|𝑇, = 1] 𝐺𝑟𝑜𝑢𝑛𝑑 𝑇𝑟𝑢𝑡ℎ 𝐶'!," , 𝑇'!," , 𝑜𝑢𝑡𝑐𝑜𝑚𝑒を用いて計算したATE 𝐺𝑟𝑜𝑢𝑛𝑑 𝑇𝑟𝑢𝑡ℎ = 𝐸- '!," [𝐸 𝑜𝑢𝑡𝑐𝑜𝑚𝑒 𝑇'!," = 0, 𝐶'!," − 𝐸 𝑜𝑢𝑡𝑐𝑜𝑚𝑒 𝑇'!," = 1, 𝐶'!," ] 比較の意味本来は何が共変量なのかわからない → 𝐺𝑟𝑜𝑢𝑛𝑑 𝑇𝑟𝑢𝑡ℎの計算はできないモデルによる出力が𝐺𝑟𝑜𝑢𝑛𝑑 𝑇𝑟𝑢𝑡ℎに近いならば推定がうまくいっている 26

26.

実験設定バックドア調整公式ベースライン (𝑈𝑛𝑎𝑑𝑗𝑢𝑠𝑡𝑒𝑑) 𝐸[𝑌|𝑇] 𝑇6 = 1 𝑇6 = 0 10 8 モデル出力 2.3 2.0 𝐺𝑟𝑜𝑢𝑛𝑑 𝑇𝑟𝑢𝑡ℎ 𝑇𝒕𝒓𝒖𝒆 = 1 𝑇𝒕𝒓𝒖𝒆 = 0 𝐶%&'( = 1 10 8 𝐶%&'( = 0 9 6 0.5 0.2 2.5 27

27.

実験設定実験設定 Ø 各データについて共変量の影響が大きい場合にHigh, 小さい場合にLow. パターン抜粋して紹介詳細 T-boostのみ T-boosｔのみ適用 I-adjustのみ + データ拡張あり timmのライブラリから使用できる以下のモデル • eva02_tiny_patch14_224.mim_in22k • vit_base_patch32_clip_224.laion2b_ft_in12k_in1k • efficientvit_m2.r224_in1k I-adjust + T-boost データ拡張ありのI-adjustとT-boostの組み合わせ I-adjustのみ + データ拡張なしデータ拡張を行わない場合のI-adjust I-adjust + データ拡張あり + 再構成損失再構成損失を加えたデータ拡張ありのI-adjust 28

28.

実験結果表とモデルの対応 29

29.

実験結果各モデルでの結果 Unadjusted と比較して I-adjust がGround Truth に近い結果を示す特に共変量因子の影響が大きい場合には UnadjustedとGround Truthの乖離が大きく I-adjustの有用性見て取れる 0.0191 0.001

30.

実験結果データ拡張の実装データ拡張によりモデルの𝑍の調整能力の向上を期待する手法パラメータ適用確率 Random Brightness Contrast Brightness: -0.2 0.2,Contrast: -0.2 ~ 0.2 50% Motion Blur, Median Blur Gaussian Blur Gaussian Noise Variance: 5.0~30.0 50% Optical Distortion Grid Distortion Elastic Transform Steps: 5 Alpha:3 50% Shift Scale Rotate Shift:±10%, Scale:±10%,Rotate :±15° 50% Resize 224×224 Coarse Dropout Max 16, Size: 8~64 Normalize - 50% 31

31.

実験結果データ拡張の有効性データ拡張を行うことで, 行わなかった場合と比較して, 各モデルがGround Truthに近い結果を示していることがわかる. 32

32.

実験結果再構成損失の実装画像の再構成損失を実装事前学習モデル自体のファインチューニングを行う 33

33.

実験結果再構成損失の有効性追加した場合と追加しなかった場合では各データに対して大きな差はみられない一部のデータに対してはI-adjust のみよりも精度が向上している. 34

34.

結論と今後の展望結論 1. ベースの論文でテキストを対象とした因果推論を画像に対して適用 →画像に対してもベースラインよりも良い推定が可能 2. 対象のデータが異なるもので推定. →対象の物体によって一部差はあるもののベースラインと比較して良い推定が可能 3. データ拡張や再構成損失の追加 → データ拡張は一般的に精度の向上再構成損失はデータによる 35

35.

結論と今後の展望今後の展望 1. データセット現実のデータに適用して真正値との比較はできないが、直感に沿っているか検証購買データ以外のSNSなどのインプレッションや広告を対象に行う 2. モデル自体の改善 I-adjustのg_classifierとQ_classifierはベースの論文のものテキストから画像の変更で次元の増加に伴う改善余地 36

36.

参考文献 [1] Pryzant et al. ,Causal Effects of Linguistic Properties , NAACL 2021 [2] Pearl著落海浩訳, 入門統計的因果推論, 朝倉書店, 2019. [3] Veitch et al. , Adapting Text Embeddings for Causal Inference , UAI 2020 37

37.

Vision Transformerの説明

38.

ViTについて Vision Transformer発表当時(2021)の状況 • • • 自然言語処理タスクで Transformerはデファクトスタンダートになっていた.(2021年時点) その成功に触発されて CNN + Self-Attentionの組合せを研究し始めていた. 効果的なスケーリングが行われず,未だResNetなどの古典的アーキテクチャが主流標準的なTransformerを,少ない修正で画像に適用したい!

39.

ViTについて Transformerの何がいいの? 1. 計算効率の良さ 2. スケーラビリティ ○ モデルを大きくした時に学習が進まなくなる時があるが, Transformerは単純に大きくしても性能向上が見込める ○ データ内の分散表現を獲得し自己教師あり学習に利用できる CV分野適用への難しさも 1. Transformerは文章などのシーケンスデータが得意 ○ 繋がりのある要素同士の関係性を明らかにすることに強み 2. ピクセル単位でTransformerを利用すると計算量が多くなる . ○ 要素同士の関係性をとるためO(𝑛 )かかる

40.

ViTアーキテクチャ Vision Transformerのアーキテクチャ 1. 2. 3. 4. 5. Linear Projection of Flattened Patches Extra learnable [class] embedding Patch + Position Embedding Transformer Encoder MLPヘッドと接続 ⑤ ④ ② ① ③

41.

ViTアーキテクチャ Linear Projection of Flattened Patches 二次元の画像(𝐻×𝑊×𝐶)をN(𝑃! ・𝐶）に変換パッチごとに一次元に変換次元DのテンソルEに線形射影 P 𝑃) ・𝐶 Patch Embedding ・・・・・・ P H N C W ・・・

42.

ViTアーキテクチャ Extra Learnable [class] Embedding 画像分類をするために、シーケンスデータの先頭に学習可能なトークンの追加 BERTの[CLS]トークンと同じ効果を狙うもの [class] Embedding + ・・・ Patch Embedding

43.

ViTアーキテクチャ Patch + Position Embedding バッチの画像の位置を示す情報を付与する Position Embedding + ０ + 1 + 2 + + ・・・・・・ + 9

44.

ViTアーキテクチャ Transformer Encoder ブロックの前にLayer Normalization 後に残差接続が適用オリジナルのTransformer とほぼ変わらない ViT Layer-Nomarlizationの位置で Transformerは2種に大別. Post-LNは性能が多層にした場合に勾配消失により学習が進まない Pre-LNは安定するものの, 性能が低い https://www.slideshare.net/slideshow/transformer251349618/251349618 Original

https://www.slideshare.net/slideshow/transformer-

45.

ViTアーキテクチャ Transformer Encoder MLPヘッドと接続して画像分類ここの出力次元を変えて分類するクラス数を指定する

46.

ViT派生のモデル EVAやEfficientViTについてどちらもCVPR(コンピュータービジョン分野のトップカンファ) 2023年に発表されたもの EVA[3] はBAAI(北京人工知能学院) EfficientViT [4]はMicrosoft Researchから出ている.

47.

実際に利用する際 timm: PyTorch Image Models 実際に利用する場合、実装が難しい & 学習に時間がかかる→ 事前学習済みの重みとライブラリを用意出典 : logmiBusiness,「数百種類のモデルを備える最強画像認識ライブラリ「timm」のお手軽な使い方」

48.

実際に利用する際 timm: PyTorch Image Models 実際に利用する場合、実装が難しい & 学習に時間がかかるので事前学習済みの重みとライブラリを用意 Ross Wightmanさんが作成 → 現在はHuggingfaceに移行 ● ● ● 700以上の事前学習済みモデル最新のモデルもすぐ使えるタスクごとにモデルが存在 https://github.com/huggingface/pytorch-image-models

https://github.com/huggingface/pytorch-image-models

49.

実際に利用する際基本的な使い方 create_model() • • モデルを指定 : model_name = ??? 事前学習済みの重みの利用 : pretrained = True モデルの命名規則 vit_base_patch32_clip_224.laion2b_ft_in12k_in1k Vision transformer base:標準サイズのモデル patch32:32×32のパッチに分割 ImageNet-12kとImageNet-1k でファインチューニング入力画像が224×224 CLIPフレームワーク使用 LAION-2B(約20億枚の画像とテキストペア)で事前学習

50.

参考文献 [1] Alexey et al, An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, ICLR 2021 [2] Yuxin Fang et al, EVA: Exploring the Limits of Masked Visual Representation Learning at Scale, CVPR2023 [3] Xinyu Liu et al, EfficientViT: Memory Efficient Vision Transformer With Cascaded Group Attention, CVPR2023 [4] logmiBusiness, 「数百種類のモデルを備える最強画像認識ライブラリ「timm」のお手軽な使い方」 (https://logmi.jp/main/technology/325674) [5]DeepSquare media, 画像認識の革新モデル！脱CNNを果たしたVision Transformer（ViT）を徹底解説！ (https://deepsquare.jp/2020/10/vision-transformer/)

https://logmi.jp/main/technology/325674