6.6K Views
March 03, 24
スライド概要
第12回 全日本コンピュータビジョン勉強会での発表資料です。現時点での画像/動画生成のデータセットについてまとめました。
サラリーマン研究員。
画像/動画生成の データセット 尾崎安範(あるふ)
自己紹介 ● 尾崎安範(あるふ) ○ ○ ○ AI PicassoにもいるAIエンジニア AIいらすとやなどの画像生成 AIなどを開発した ■ AIいらすとやは情報処理学会の学会誌にのった もともとはロボット屋さんだった (IROSとか通してた) ● 経歴 ○ ○ ○ ○ ○ 2014年 修士(情報理工学)取得 2014年 NTT研 2019年 CyberAgent AI Lab / 大阪大学 2023年 満期退学(😭) 2024年 AI Picasso ←いまここ https://note.com/ipsj/n/nff43097b0c76
AI Picassoについて ● 画像生成AIや動画生成AIを使って、 アプリやWebサービス、受託開発などを行っている会社 ○ みんなAI Picassoっていうアプリ使ってね
AI Picassoにいて思うこと 1. 2. 3. 4. 画像生成や動画生成ができないと社会課題が解決できない データセットがないと生成AIは作ることができない データセットがほしい! ということで、論文とそのデータの収集方法をつらつら紹介していって、 まとめセクションで全体の傾向をまとめる
LAION-5B ● ● ● Stable Diffusionのもとになった50億枚の画像テキストペアデータセット 下図のとおりの前処理をしている 最終的に得られたデータセットは画像リンク先とテキストであり、 画像は含まれていない Schuhmann et al., “LAION-5B: An open large-scale dataset for training next generation image-text models”, NeurIPS 2022
CommonCanvas ● ● Creative Commons の画像だけを7000万枚集めた 画像テキストデータセットとそれから作ったモデル CCの画像で画像生成する分には倫理的な問題が生じにくい ○ 「CCライセンスの画像は画像生成につかっていい」と CCの人は回答している Gokaslan et al., “CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images”, 2023, preprint
DALL-E 3 ● ● OpenAIが発表した画像生成 画像のテキストにはALT Textのようなメタデータを使わず、 機械的にテキストをつけ直すようにしている ○ ○ CLIPベースのイメージキャプション器を用意 まず、被写体にフォーカスするような短いキャプションで学習してから、 背景などを含めた長いキャプションでイメージキャプション器を微調整している Betker et al., “Improving Image Generation with Better Captions,” 2023, preprint
Sora ● ● OpenAIが発表した自称・世界シミュレータ 動画のテキストにはALT Textのようなメタデータを使わず、 機械的にテキストをつけ直すようにしている ○ ● DALL-E 3と同じ感じらしい データ量は不明だが、作者いわく制作に1年かかったらしい ○ Stable Diffusionを作った人は 1000万GPU hours かかったと見ている Brooks, Peebles, et al., “Video generation models as world simulators”, 2024, Website
Lumiere ● ● Googleが公開した動画生成 テキスト付きの3000万本の動画を使用して学習されている Bar-Tal et al., “Lumiere: A Space-Time Diffusion Model for Video Generation”, 2024, preprint
Genie ● ● ● Googleが公開した動画内のエージェントを操作できる動画生成 インターネットゲーム動画を20万時間使用 テキストはなし、行動のラベルは教師なしで学習 Bruce et al., “Genie: Generative Interactive Environments”, 2024, preprint
Panda-70M ● ● ● ● 7000万本以上/合計167時間以上の動画テキストペアが含まれている データセット ライセンスを読む限り、生成でも商用利用可能そう 長い動画を短く切って、Video-LLaVAなどのマルチモーダルモデルを 使いつつ、動画テキスト検索をかけてテキストを付けた 最終的に得られたデータセットは動画リンク先とテキストであり、 動画は含まれていない ○ 見た感じYouTubeの動画だが https://snap-research.github.io/ Panda-70M/
感想 ● ● ● なんかデータセットに関して詳しく書くと炎上要素になるのか、 全体的にデータの詳しい内訳は公開されていない ただし、前処理の工夫などは公開されており、 参考になるところは多い 動画について言うならばYouTubeを持つGoogleがデータ量で圧勝している ○ ○ ○ Panda-70Mが約200時間に対し、GoogleのGenieは200000時間 YouTubeすべては数百億時間を超えている可能性がある 日本で対抗できるのはニコニコ動画だろうか
おまけ: LLaVAによるテキスト付け ● マルチモーダルモデルを使ってテキスト付けする ○ ○ LLaVAはおおよそDALL-E 3のイメージキャプション器に似ている構造をしている バッチ処理用スクリプトを自分の Githubリポジトリに公開中 https://github.com/alfredplpl/LLaVA/blob/main/llava/serve/cli_batch.py