【DL輪読会】Visual Classification via Description from Large Language Models (ICLR2023)

0.9K Views

May 15, 23

#@deep learning jp #Deep Learning #Image Classification #Large Language Models #GPT-3 #CLIP

スライド概要

2023/5/12
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP Visual Classification via Description from Large Language Models 大規模言語モデルで画像の識別特徴を生成させ画像分類に活用する手法 [DL Papers] 山本貴之（ヤフー株式会社・早稲田大学河原研 D1） http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル： Visual Classification via Description from Large Language Models 大規模言語モデルで画像の識別特徴を生成させ画像分類に活用する手法 ICLR 2023 (notable top 5%) https://openreview.net/forum?id=jlAjNL8z5cs 著者： Sachit Menon, Carl Vondrick Department of Computer Science Columbia University 概要：大規模言語モデル(LLM)に埋め込まれた知識を画像分類に活用する手法。分類根拠が自然言語で分かる。選定理由：個人的にLLMの活用が多様な下流タスクをより良くするという仮説を持っており、正にそのような事を面白いアイディアかつシンプルに実現している論文で、応用範囲が広そう。公式実装： https://github.com/sachit-menon/classify_by_description_release ※出典記載の無い図表は本論文からの引用 2

背景 ▊ 課題 ▊ ▍ Hen（雌鶏）を見分ける事は出来るか？ ▍ 人間が使うような簡単な言語的手がかりに目を向けていない ▍ モデルが判断した根拠が分からない ▊ 現状 ▊ ▍ CLIPは（固定カテゴリでない）分類タスクで高性能 ▍ 未だに理不尽な間違えをする事がある（→次ページに具体例） 3

内容 ▊ 何をしているか論文か？ ▊ ▍ 画像分類タスクに大規模言語モデル（GPT-3）を活用し、ImageNetでベースライン比＋4～5%の成果 ▍ 分類の根拠を説明可能（言語で説明）既存手法（分類ミス）提案手法（正しく分類） ※赤棒グラフは、ミスした分類カテゴリのOursモデル値 Dalmatian 分類根拠 “足が２本”など ※横軸はcos類似度×100 体表の模様で分類した？ 4

新規性 ▊ 輪読者の考える新規性 ▊ ▍ GPT-3で、「分類カテゴリ」を見分けるのに有用な「識別特徴」を生成させるアイディア ▍ 「識別特徴」を使って、分類するロジック ▍ 分類根拠を「自然言語で説明」できる事分類カテゴリ自然言語で説明識別特徴の関与スコア識別特徴 ※横軸はcos類似度×100 5

手法全体概要右下図の赤色部分が相違点識別特徴との距離で分類既存手法（CLIP分類）分類画像表現ベクトル空間提案手法カテゴリ名識別特徴画CLIP 処理パイプライン ※輪読者解釈カテゴリ名文CLIP ベクトル分類画像 ImageNet なら1,000 ベクトルカテゴリ名画CLIP ベクトル距離分類画像距離 tiger に近い GPT-3 識別特徴識別特徴識別特徴文CLIP 文CLIP ベクトル文CLIP ベクトルベクトル ▍ 提案手法は、GPT-3が出力した「識別特徴」との距離を使って分類を行う。上図赤色部分が主な特徴 6

手法 GPT-3を活用し[識別特徴]を生成する部分処理パイプライン全体画CLIP ImageNet なら1,000 カテゴリ名ベクトル距離分類画像 GPT-3 識別特徴識別特徴識別特徴文CLIP 文CLIP ベクトル文CLIP ベクトルベクトル ▊ 左図赤色部分の処理 ▊ ▍ 1 のプロンプトを用いGPT-3に入力 ▍ GPT-3が列挙した複数の回答を識別特徴とする 2 1 Q：写真で{スクールバス}を見分けるのに有用な特徴は何ですか？ A： {スクールバス}を見分けるのに有用な特徴がいくつかあります ‐大型の黄色い車 ‐ 「スクールバス」と書いてある 2 ‐側面からストップサインが出る ⋮ 7

手法識別特徴とカテゴリの[相対スケール]を正しく認識する為の処理処理パイプライン全体画CLIP ImageNet なら1,000 カテゴリ名 GPT-3 識別特徴識別特徴識別特徴相対スケールの正しい認識象の短いしっぽ vs ねずみの長いしっぽ 1 2 ベクトル距離分類画像文CLIP 文CLIP ベクトル文CLIP ベクトルベクトル ▊ 左図赤色部分の処理 ▊ ▍ 象の短いしっぽと、ねずみの長いしっぽを正しく処理する為に ▍ 識別特徴は下記のプロンプトテンプレート 1 に従ってプロンプト化されCLIPに入力される 2 A： { 象 }を見分けるのに有用な特徴がいくつかあります ‐短いしっぽ A： { ねずみ }を見分けるのに有用な特徴がいくつかあります ‐長いしっぽプロンプトテンプレート文CLIPに入力される文字列・elephant which has short tail ・mouse which has long tail 8

手法距離算出と分類処理パイプライン全体画CLIP ベクトル距離分類画像 ImageNet なら1,000 カテゴリ名 GPT-3 識別特徴識別特徴識別特徴 ▊ 左図赤色部分の処理 ▊ ▍ 文CLIP 文CLIP ベクトル文CLIP ベクトルベクトル＝CLIP類似度（＝cos類似度） ▍ 分類画像と各識別特徴の類似度の和の正規化 ▍ 分類結果は、全Cの内モデルsが最大値のもの φ=cos類似度モデル x 最もモデル値が高いカテゴリを分類結果とする分類画像識別特徴ベクトル正規化識別特徴の数で割る各識別特徴 ImageNet なら1,000 9

10.

モデルアーキテクチャ ▊ 学習済GPT-3と学習済CLIPを活用するのみ。その他、モデルの学習等はしていない利用方法や種別など学習済GPT-3 APIで利用利用料金は$20以下 text-davinci-002 学習済CLIP VisionTransformer系４種で実験 10

11.

検証用データセット ▊ データセット一覧（８種）多様なタスクで成果が出るかを確認している ▊ ▍ ImageNet dataset (Russakovsky et al., 2015) for everyday object recognition ▍ ImageNetV2 (Kornblith et al., 2019) for distribution shift from ImageNet ▍ CUB for fine-grained classification of birds (Wah et al., 2011) ▍ EuroSAT (Helber et al., 2019) for satellite image recognition ▍ Places365 for scenes ▍ Food101 (Bossard et al., 2014) for food ▍ Oxford Pets (Parkhi et al., 2012) for common animals ▍ Describable Textures Cimpoi et al. (2014) for in-the-wild patterns 11

12.

結果 ▊ CLIPベースラインとの対比 ▊ ▍ 全てのデータセットでベースラインを上回る結果（Ours） ▍ 日常的な物体認識に限定されず、衛星画像（EuroSAT）で+7%、テクスチャ（Textures）で+2.5%、細かな鳥類（CUB）で+1～2%の改善 12

13.

結果（左が提案手法。右がベースラインのCLIP）アホウドリ旅客機菜種蜂渓谷 ※横軸はcos類似度×100 ※赤棒グラフは、ミスした分類カテゴリのOursモデル値 13

14.

考察 ▊ 言語モデルのサイズと分類性能の関係 ▊ ▍ LLMサイズが小さいとベースラインを超えない（≒LLMの賢さに性能が依存） OPTモデルサイズとベースラインとの相対性能 OPTモデル一覧 Zhang, S., Roller, S., Goyal, N., Artetxe, M., Chen, M., Chen, S., ... & Zettlemoyer, L. (2022). Opt: Open pre-trained transformer language models. arXiv preprint arXiv:2205.01068 . 14

15.

まとめ ▊ 結論 ▊ ▍ Vision&Languageモデルでのゼロショット分類の新しいフレームワークを提案 ▍ LLMの視覚カテゴリの言語知識を活用し、識別特徴を生成し、識別特徴と画像を比較する ▍ GPT-3とCLIPを使い、性能向上、根拠説明、新しい知識への適応、バイアスの軽減を実現 ▊ 感想 ▊ ▍ LLM内の知識を利用し、低計算リソースで下流タスク精度を上げ、説明性も実現、しかも手法がシンプル ▍ LLMが多様な下流タスクをより良くするという仮説を持っているが、それを体現した論文 ▍ CLIP部を高性能なマルチモーダルLLMにすれば、さらに精度が上がりそう 15

16.

Thank you. 16