0から作る動画生成AI

13.8K Views

February 23, 25

スライド概要

第63回 コンピュータビジョン勉強会@関東『コンピュータビジョンでこんなプログラム作りました大LT大会5』で話す予定の内容です。0から作る動画生成AIを作るにはどうしたらいいかを20分ぐらいで説明します。あくまで概略なので、詳細は別途作者に聞いて下さい。

profile-image

サラリーマン研究員。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

0から作る動画生成AI 尾崎安範

2.

自己紹介 • あるふ(尾崎安範) • AIdeaLab株式会社 AIエンジニア (たまに主任研究員) • 過去にはNTT研究所とかサイバーエージェントAI Labとか阪大にいた • 最近作ったもの • Emi 3 (画像生成) • AIdeaLab VideoJP (動画生成)

3.

会社紹介 • AIdeaLab株式会社ってなに? • AIdeaLabはAIとIdeaをかけ合わせ、革新的なプロダクトを連続的に 生み出すスタートアップスタジオです。 • そうですか。何作っていますか? • AI PicassoとかAIひろゆきとかつくってました • そうですか。なんでそんな会社が動画生成を作ることにしたん ですか? • 深いわけがあります。 https://aidealab.com/casestudy/QZOJFJ65

4.

背景 • 2023年後半 • 社長「AIダンスとか作ったけど、アニメ用の動画生成作りたいよね」 • 俺「ファインチューニングで作ってみましたが、素質がないですね」 • 2024年前半 • 社長「じゃあ、予算取ってきて、0から動画生成作ろうか!」 • 俺「は!?」 https://prtimes.jp/main/html/rd/p/000000017.000113219.html

5.

そもそも動画生成ってどう動くのか • 現在の一般的なアーキテクチャは以下の通り。 • プロンプトを入力すると、大規模言語モデルがよしなに値を吐き出し て、その値に基づいたノイズ除去を拡散トランスフォーマーを行い、 変分オートエンコーダ(VAE)を通じて動画が生成される プロンプト 大規模言語 モデル ノイズ 拡散トランス フォーマー VAE 動画生成AI

6.

動画生成AIの作り方概要 拡散トランス フォーマー VAE 1. 大規模言語モデルなどのパーツを選定する 2. パーツを学習するのに必要なデータを集める 3. 拡散トランスフォーマー以外のパーツを別々に学習する 4. 拡散トランスフォーマーの 動画生成AI 学習アルゴリズムを考える 大規模言語 5. パーツをくっつけて モデル 拡散トランスフォーマーを学習する →割と簡単のように見える

7.

パーツの選定 • 大規模言語モデルはわりとなんでもよさそうなため、 軽量で高性能、日本語と英語ができてApache 2.0なやつを選定 • https://huggingface.co/llm-jp/llm-jp-3-1.8b • 拡散トランスフォーマーはApache 2.0ならなんでもよい • VAEはApache 2.0ならなんでもよい • https://huggingface.co/ THUDM/CogVideoX-2b 動画生成AI 大規模言語 モデル 拡散トランス フォーマー VAE • https://github.com/a-r-r-o-w/finetrainers

8.

パーツの選定と学習 • LLMを学習するのはメチャクチャ大変なのでスキップ • VAEは他の人がすごい研究してたのでスキップ • 拡散トランスフォーマーは著作権侵害とかに関わってくるので、 0から学習する 動画生成AI 大規模言語 モデル 拡散トランス フォーマー VAE • つまり、厳密に言うと、 フルスクラッチで学習したのは、 拡散トランスフォーマーだけになる

9.

データの収集 • 今回は拡散トランスフォーマーだけでいいので、 テキストと動画のペアをたくさん集める • 今回は著作権やライセンスに配慮して、 PixabayとFineVideoデータセットから動画を集め、 その動画にQwen2 VLでテキストをつける • https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct Qwen2 VL チューリップや菜の花、色とりどりの花が果てしなく続く畑を 埋め尽くし、まるでパッチワークのようにカラフルに彩る。朝 の柔らかな光が花びらを透かし、淡いグラデーションが映える。 風に揺れる花々をスローモーションで捉え、花びらが優雅に舞 う姿を映画のような演出で撮影。背景には遠くに連なる山並み や青い空、浮かぶ白い雲が立体感を引き立てる。 テキストをつける想像例

10.

拡散トランスフォーマーの目的関数 • ノイズから動画に変換するアルゴリズムとして、 Rectified Flowを今回は選択 • Stable Diffusion3やFLUXなど画像生成では最先端のアルゴリズム • 詳しくはChatGPT (o1) に聞いてね! https://arxiv.org/abs/2209.03003

11.

拡散トランスフォーマーを学習 • たんたんと拡散モデルのように学習する • 経産省とNEDO、弊社の予算で借りたGPUで学習し続ける • 終わりのない長い旅が始まる • だいたい2ヶ月かかりました チューリップや菜の花、色とりどりの花が果てしなく続く畑を 埋め尽くし、まるでパッチワークのようにカラフルに彩る。朝 の柔らかな光が花びらを透かし、淡いグラデーションが映える。 風に揺れる花々をスローモーションで捉え、花びらが優雅に舞 う姿を映画のような演出で撮影。背景には遠くに連なる山並み や青い空、浮かぶ白い雲が立体感を引き立てる。 拡散トランス フォーマー

12.

学習した結果 • なんかぼちぼちな品質の動画が出るようになった • 推論はオイラー法とCFGを組み合わせたシンプルな方法でやっている • 現在、性能を評価中

13.

学習結果のデモ • https://huggingface.co/spaces/aidealab/AIdeaLab-VideoJP

14.

まとめ • フルスクラッチで(0から)動画生成AIを作る方法を解説した。動 画データの収集や加工の方法、モデルのアーキテクチャ、学習 方法の概要、モデルのデモについて話した。 • 今後はアニメ生成モデルを開発していきます。 アニメ生成モデルの例による生成例

15.

謝辞 • AIdeaLab VideoJPは経済産業省と国立研究開発法人新エネル ギー・産業技術総合開発機構(NEDO)が実施する、国内の 生成AIの開発力強化を目的としたプロジェクト「GENIAC (Generative AI Accelerator Challenge)」の成果をもとに作成さ れました。

16.

ゴリ押しの宣伝 • 弊社がForbes JAPANの「日本発AIスタートアップ50選」に 選ばれました 『Forbes JAPAN(フォーブスジャパン)「インパクト100」2025年3月号』より引用