CVPR 2024とImage Captioningと私

9.9K Views

July 07, 24

#コンピュータビジョン #text-to-image #生成ai #拡散モデル #aiアート #CVPR2024 #Image Captioning #Text-to-Image #LLaVA #Multimodal Learning

スライド概要

CVPR 2024で発表されたImage Captioningの論文を一部紹介し、私も紹介します。

あるふ

@alfredplpl

スライド一覧

サラリーマン研究員。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

フルスクラッチで作る画像生成AI

コンピュータビジョン text-to-image imagen

あるふ 76.9K

第11回全日本コンピュータビジョン勉強会前編 Imagenの紹介

コンピュータビジョン text-to-image imagen

あるふ 21K

0から作る動画生成AI

生成ai コンピュータビジョン

あるふ 17K

広告における「信号とシステム」（阪大の招待講演）

コンピュータビジョン信号処理

あるふ 15.2K

エンタメから見る生成AI

コンピュータビジョン生成ai エンタメ chatgpt

あるふ 9.9K

画像/動画生成のデータセット

text-to-image 生成ai コンピュータビジョン拡散モデル

あるふ 7.8K

各ページのテキスト

CVPR 2024と Image captioningと私あるふ

CVPR 2024とImage captioningと私 • CVPR 2024で⼀番投稿が多かった分野 • 画像/動画⽣成: 329本 • Image Captioningは画像⽣成と対になる概念 • Image-to-Text: Image Captioningの別称 • Text-to-Image: （テキストからの）画像⽣成 • 私は画像⽣成を作っている Image-to-Text 「空と芝⽣」テキスト • CommonArtという画像⽣成を作っている • CommonArtを作るにはImage Captioningが必要 Text-to-Image 画像

私とはなにか • 私はあるふ！⾃称・画像/動画⽣成AIエンジニアさ！ハハッ！ • AI Picassoっていう会社を宣伝するためにやってきたのさ！ • 代表作 • AIいらすとや • Emi

最近のImage Captioning • Text-to-Imageのための Image Captioning議論が国際的に活発 • めぼしいモデル • CogVLM: Stable Diffusion 3で使ってる • BLIP-2: CommonCanvasで使ってる • MoonDream2: AuraDiffusion でつかっている • LLaVA, Share-Captioner: PixArtで使っている • Florence-2: 俺と台湾の⼈が使っている • 最強のImage Captioningが求められている

CVPR 2024とImage captioning • ワークショップが１つ開催された • New frontiers for zero-shot Image Captioning Evaluation (NICE) • 論⽂はたくさんありすぎてわけがわからない • タイトルにImage captioningかVideo Captioningがついているのだけでもこれだけある • MeaCap: Memory-Augmented Zero-shot Image Captioning • Polos: Multimodal Metric Learning from Human Feedback for Image Captioning • Sieve: Multimodal Dataset Pruning using Image Captioning Models • EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World Comprehension • Streaming Dense Video Captioning • DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement • Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval • Retrieval-Augmented Egocentric Video Captioning • しかも、V&Lや画像⽣成を作ることを含むと本当にたくさんある • V&Lは152本 • そこで⼀部をClaude 3.5 Sonnetに全⽂読んでもらって紹介

Improved Baselines with Visual Instruction Tuning • 要約 • シンプルで効率的な⼤規模マルチモーダルモデル「LLaVA-1.5」を提案 • 特徴的な新規性 • 画像を分割してエンコードすることで⾼解像度対応 • １⽇で学習が終わるほど軽量 • 感想 • めちゃシンプルで強い。最近のモデルの基本形。

Polos: Multimodal Metric Learning from Human Feedback for Image Captioning • 要約 • ⼈間のフィードバックに基づく新しい画像キャプション評価⼿法を提案し、複数のベンチマークで最先端の性能を達成 • 特徴的な新規性 • 画像と複数の参照キャプションを同時に考慮 • 感想 • ⽇本⼈の論⽂なので⽇本語版を作ってほしい

Streaming Dense Video Captioning • 要約 • 任意の⻑さの動画に対応し、動画全体を処理する前に予測して Dense Captioningする⼿法を提案 • 特徴的な新規性 • ストリーミングデコーディングアルゴリズム • クラスタリングベースのメモリモジュール • 感想 • Googleの論⽂なのでYouTube全部使え！

Rich Human Feedback for Text-to-Image Generation • 要約 • Text-to-Imageの出⼒を評価・改善するための、⼈間のフィードバックデータセットとそれを予測するモデルを提案 • 特徴的な新規性 • フィードバックデータセットの中にある学習データを使⽤していない Text-to-Imageにも適⽤可能であることを⽰し、⼿法の汎⽤性を実証 • 感想 • ベストペーパーらしい

10.

まとめ • LLaVAはつよい • ⼿っ取り早くImage Captioningしたいひとは以下のモデルがおすすめ • 英語 • https://huggingface.co/microsoft/Florence-2-large • https://huggingface.co/microsoft/Phi-3-vision-128k-instruct • ⽇本語 • https://huggingface.co/cyberagent/llava-calm2-siglip • https://huggingface.co/toshi456/llava-jp-1.3b-v1.1-llava-jp-instruct-108k