CVPR 2024とImage Captioningと私

8.4K Views

July 07, 24

スライド概要

CVPR 2024で発表されたImage Captioningの論文を一部紹介し、私も紹介します。

profile-image

サラリーマン研究員。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

CVPR 2024と Image captioningと 私 あるふ

2.

CVPR 2024とImage captioningと私 • CVPR 2024で⼀番投稿が多かった分野 • 画像/動画⽣成: 329本 • Image Captioningは画像⽣成と対になる概念 • Image-to-Text: Image Captioningの別称 • Text-to-Image: (テキストからの)画像⽣成 • 私は画像⽣成を作っている Image-to-Text 「空と芝⽣」 テキスト • CommonArtという画像⽣成を作っている • CommonArtを作るにはImage Captioningが必要 Text-to-Image 画像

3.

私とはなにか • 私はあるふ!⾃称・画像/動画⽣成AIエンジニアさ!ハハッ! • AI Picassoっていう会社を宣伝するためにやってきたのさ! • 代表作 • AIいらすとや • Emi

4.

最近のImage Captioning • Text-to-Imageのための Image Captioning議論が国際的に活発 • めぼしいモデル • CogVLM: Stable Diffusion 3で使ってる • BLIP-2: CommonCanvasで使ってる • MoonDream2: AuraDiffusion でつかっている • LLaVA, Share-Captioner: PixArtで使っている • Florence-2: 俺と台湾の⼈が使っている • 最強のImage Captioningが求められている

5.

CVPR 2024とImage captioning • ワークショップが1つ開催された • New frontiers for zero-shot Image Captioning Evaluation (NICE) • 論⽂はたくさんありすぎてわけがわからない • タイトルにImage captioningかVideo Captioningがついているのだけ でもこれだけある • MeaCap: Memory-Augmented Zero-shot Image Captioning • Polos: Multimodal Metric Learning from Human Feedback for Image Captioning • Sieve: Multimodal Dataset Pruning using Image Captioning Models • EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World Comprehension • Streaming Dense Video Captioning • DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement • Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval • Retrieval-Augmented Egocentric Video Captioning • しかも、V&Lや画像⽣成を作ることを含むと本当にたくさんある • V&Lは152本 • そこで⼀部をClaude 3.5 Sonnetに全⽂読んでもらって紹介

6.

Improved Baselines with Visual Instruction Tuning • 要約 • シンプルで効率的な⼤規模マルチモーダルモデル 「LLaVA-1.5」を提案 • 特徴的な新規性 • 画像を分割してエンコードすることで⾼解像度対応 • 1⽇で学習が終わるほど軽量 • 感想 • めちゃシンプルで強い。最近のモデルの基本形。

7.

Polos: Multimodal Metric Learning from Human Feedback for Image Captioning • 要約 • ⼈間のフィードバックに基づく新しい画像キャプション評価⼿法を 提案し、複数のベンチマークで最先端の性能を達成 • 特徴的な新規性 • 画像と複数の参照キャプションを同時に考慮 • 感想 • ⽇本⼈の論⽂なので ⽇本語版を作ってほしい

8.

Streaming Dense Video Captioning • 要約 • 任意の⻑さの動画に対応し、動画全体を処理する前に予測して Dense Captioningする⼿法を提案 • 特徴的な新規性 • ストリーミングデコーディングアルゴリズム • クラスタリングベースのメモリモジュール • 感想 • Googleの論⽂なのでYouTube全部使え!

9.

Rich Human Feedback for Text-to-Image Generation • 要約 • Text-to-Imageの出⼒を評価・改善するための、 ⼈間のフィードバックデータセットとそれを予測するモデルを提案 • 特徴的な新規性 • フィードバックデータセットの中にある学習データを使⽤していない Text-to-Imageにも適⽤可能であることを⽰し、⼿法の汎⽤性を実証 • 感想 • ベストペーパーらしい

10.

まとめ • LLaVAはつよい • ⼿っ取り早くImage Captioningしたいひとは 以下のモデルがおすすめ • 英語 • https://huggingface.co/microsoft/Florence-2-large • https://huggingface.co/microsoft/Phi-3-vision-128k-instruct • ⽇本語 • https://huggingface.co/cyberagent/llava-calm2-siglip • https://huggingface.co/toshi456/llava-jp-1.3b-v1.1-llava-jp-instruct-108k