13.8K Views
February 23, 25
スライド概要
第63回 コンピュータビジョン勉強会@関東『コンピュータビジョンでこんなプログラム作りました大LT大会5』で話す予定の内容です。0から作る動画生成AIを作るにはどうしたらいいかを20分ぐらいで説明します。あくまで概略なので、詳細は別途作者に聞いて下さい。
サラリーマン研究員。
0から作る動画生成AI 尾崎安範
自己紹介 • あるふ(尾崎安範) • AIdeaLab株式会社 AIエンジニア (たまに主任研究員) • 過去にはNTT研究所とかサイバーエージェントAI Labとか阪大にいた • 最近作ったもの • Emi 3 (画像生成) • AIdeaLab VideoJP (動画生成)
会社紹介 • AIdeaLab株式会社ってなに? • AIdeaLabはAIとIdeaをかけ合わせ、革新的なプロダクトを連続的に 生み出すスタートアップスタジオです。 • そうですか。何作っていますか? • AI PicassoとかAIひろゆきとかつくってました • そうですか。なんでそんな会社が動画生成を作ることにしたん ですか? • 深いわけがあります。 https://aidealab.com/casestudy/QZOJFJ65
背景 • 2023年後半 • 社長「AIダンスとか作ったけど、アニメ用の動画生成作りたいよね」 • 俺「ファインチューニングで作ってみましたが、素質がないですね」 • 2024年前半 • 社長「じゃあ、予算取ってきて、0から動画生成作ろうか!」 • 俺「は!?」 https://prtimes.jp/main/html/rd/p/000000017.000113219.html
そもそも動画生成ってどう動くのか • 現在の一般的なアーキテクチャは以下の通り。 • プロンプトを入力すると、大規模言語モデルがよしなに値を吐き出し て、その値に基づいたノイズ除去を拡散トランスフォーマーを行い、 変分オートエンコーダ(VAE)を通じて動画が生成される プロンプト 大規模言語 モデル ノイズ 拡散トランス フォーマー VAE 動画生成AI
動画生成AIの作り方概要 拡散トランス フォーマー VAE 1. 大規模言語モデルなどのパーツを選定する 2. パーツを学習するのに必要なデータを集める 3. 拡散トランスフォーマー以外のパーツを別々に学習する 4. 拡散トランスフォーマーの 動画生成AI 学習アルゴリズムを考える 大規模言語 5. パーツをくっつけて モデル 拡散トランスフォーマーを学習する →割と簡単のように見える
パーツの選定 • 大規模言語モデルはわりとなんでもよさそうなため、 軽量で高性能、日本語と英語ができてApache 2.0なやつを選定 • https://huggingface.co/llm-jp/llm-jp-3-1.8b • 拡散トランスフォーマーはApache 2.0ならなんでもよい • VAEはApache 2.0ならなんでもよい • https://huggingface.co/ THUDM/CogVideoX-2b 動画生成AI 大規模言語 モデル 拡散トランス フォーマー VAE • https://github.com/a-r-r-o-w/finetrainers
パーツの選定と学習 • LLMを学習するのはメチャクチャ大変なのでスキップ • VAEは他の人がすごい研究してたのでスキップ • 拡散トランスフォーマーは著作権侵害とかに関わってくるので、 0から学習する 動画生成AI 大規模言語 モデル 拡散トランス フォーマー VAE • つまり、厳密に言うと、 フルスクラッチで学習したのは、 拡散トランスフォーマーだけになる
データの収集 • 今回は拡散トランスフォーマーだけでいいので、 テキストと動画のペアをたくさん集める • 今回は著作権やライセンスに配慮して、 PixabayとFineVideoデータセットから動画を集め、 その動画にQwen2 VLでテキストをつける • https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct Qwen2 VL チューリップや菜の花、色とりどりの花が果てしなく続く畑を 埋め尽くし、まるでパッチワークのようにカラフルに彩る。朝 の柔らかな光が花びらを透かし、淡いグラデーションが映える。 風に揺れる花々をスローモーションで捉え、花びらが優雅に舞 う姿を映画のような演出で撮影。背景には遠くに連なる山並み や青い空、浮かぶ白い雲が立体感を引き立てる。 テキストをつける想像例
拡散トランスフォーマーの目的関数 • ノイズから動画に変換するアルゴリズムとして、 Rectified Flowを今回は選択 • Stable Diffusion3やFLUXなど画像生成では最先端のアルゴリズム • 詳しくはChatGPT (o1) に聞いてね! https://arxiv.org/abs/2209.03003
拡散トランスフォーマーを学習 • たんたんと拡散モデルのように学習する • 経産省とNEDO、弊社の予算で借りたGPUで学習し続ける • 終わりのない長い旅が始まる • だいたい2ヶ月かかりました チューリップや菜の花、色とりどりの花が果てしなく続く畑を 埋め尽くし、まるでパッチワークのようにカラフルに彩る。朝 の柔らかな光が花びらを透かし、淡いグラデーションが映える。 風に揺れる花々をスローモーションで捉え、花びらが優雅に舞 う姿を映画のような演出で撮影。背景には遠くに連なる山並み や青い空、浮かぶ白い雲が立体感を引き立てる。 拡散トランス フォーマー
学習した結果 • なんかぼちぼちな品質の動画が出るようになった • 推論はオイラー法とCFGを組み合わせたシンプルな方法でやっている • 現在、性能を評価中
学習結果のデモ • https://huggingface.co/spaces/aidealab/AIdeaLab-VideoJP
まとめ • フルスクラッチで(0から)動画生成AIを作る方法を解説した。動 画データの収集や加工の方法、モデルのアーキテクチャ、学習 方法の概要、モデルのデモについて話した。 • 今後はアニメ生成モデルを開発していきます。 アニメ生成モデルの例による生成例
謝辞 • AIdeaLab VideoJPは経済産業省と国立研究開発法人新エネル ギー・産業技術総合開発機構(NEDO)が実施する、国内の 生成AIの開発力強化を目的としたプロジェクト「GENIAC (Generative AI Accelerator Challenge)」の成果をもとに作成さ れました。
ゴリ押しの宣伝 • 弊社がForbes JAPANの「日本発AIスタートアップ50選」に 選ばれました 『Forbes JAPAN(フォーブスジャパン)「インパクト100」2025年3月号』より引用