682 Views
May 01, 25
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Packing Input Frame Context in Next-Frame Prediction Models for Video Generation Masaki Otsuki, Matsuo-Iwasawa Lab, M1 http://deeplearning.jp/ 1
書誌情報 • Packing Input Frame Context in Next-Frame Prediction Models for Video Generation (2025) • 著者 – Lvmin Zhang, Maneesh Agrawala • リンク – https://lllyasviel.github.io/frame_pack_gitpage/ – https://github.com/lllyasviel/FramePack 2
概要 • 課題 – 動画生成拡散モデルには「forgetting」と「drifting」という二つの課題があり、 forgettingへのナイーブな対処はメモリ使用量の増大につながり、driftingへの 対処はエラーへの敏感さにつながる • 本研究の貢献 – Wan と Hunyuan Video (DiT系のモデル)に対して以下の工夫を施す 1. 「重要度」に従ってフレームを圧縮することでメモリ効率を向上しforgetting に対処、任意の長さの動画を一定のメモリで生成可能 - 13Bのモデルが6GBのGPUメモリで生成可能 2. 双方向からの生成によりdriftingに対処 3. (ツール化してレポジトリの公開) 3
概要 4
背景① 拡散モデル • 画像生成の分野でよく用いられる • データにノイズをかけていき完全なノイズにする操作を拡散過程 • 拡散過程の逆を辿ることで完全なノイズからデータを生成する • NNを用いて、データ𝑥𝑡 にかかっているノイズを𝑥𝑡 及び拡散時刻𝑡を入 力に予測することで𝑥𝑡−1 を求める Denoising Diffusion Probabilistic Models 5
背景② 動画生成モデル • 空間方向のみを捉えていた画像生成拡散モデルを時間方向に拡張 2D Unetの拡張 DiTの拡張 6
指摘されている動画生成モデルの課題 • Forgetting – モデルが過去のフレームの情報を保持できず、時間的な一貫性が失われる現象 – 最もナイーブな解決策はより多くの過去のフレームをエンコードすること – しかしTransformerのattentionは2次元計算量なので必要メモリが爆発する • Drifting – 時間が経つにつれて画面の内容が少しずつ破綻・劣化していく現象 – 前のフレームでのエラーを引き継いて次のフレームが生成され、エラーが蓄積 していく – 記憶メカニズムを強化すれば、時間的一貫性が保たれやすくなりエラーの発生 は抑えられるが、1回発生したエラーは強く引き継がれてしまう 7
論文の貢献 1. 「重要度」に従ってフレームを圧縮することでメモリ効率を向上し forgettingに対処:13Bのモデルが6GBのGPUメモリで生成可能 GPUメモリのイメージ 2. 双方向からの生成によりdriftingに対処 3. (レポジトリの公開) 8
フレームの圧縮 • 直近のフレームのコンテキストを長くし、昔のフレームは短くする • ∅ 𝐹 :VAE EncodeとTransformer Patchifying後の context length • 𝜆:>1 圧縮パラメータ – 本研究で𝜆 = 2を主に扱う 9
フレームの圧縮 • この操作のおかげでtransformerのcontext length L は一定値をとる ←Lはフレーム数T によらない定数と なる 10
フレームの圧縮 • 小さいフレームはどんどん小さくなるので対処が必要 – (1) 消す (2) 1 pixelにする (3) global average poolingを行い一番大きなフレー ムで同時に処理 → あまり違いは見られず • 圧縮方法にも様々ある 11
Drifting への対応 • 新しく二つのSampling 手法を提案 1. Anti-drifting (b) – 最初にendframeを生成 2. Inverted anti-drifting (c) – 最初にendframeを生成し、逆順にフレームを生成 • 常に1フレーム目の近似になるのでdriftingは起こらない 12
実験 • Wan2.1 と Hunyuan Video 13B に対してfine tuning – Hunyuan video 13B を 480p で学習した際にA100-80GB x8 で bs 64を達成 • 評価 – Global Metrics • Clarity, Aesthetic, Motion, Dynamic, Semantic, Anatomy, Identity • 既存の予測機を利用して評価 – Drifting • • 𝑉𝑠𝑡𝑎𝑟𝑡 は冒頭15フレーム、𝑉𝑒𝑛𝑑 は冒頭15フレーム • 𝑀は任意の評価方法 (motion score, image quality) 13
Ablation 結果 vanilla Antidrifting Inverte d antidrifting 14
Ablation 結果 1. inverted anti-drifting サンプリングは、7つの評価指標中5つで最高 スコアを記録。他の方式は多くても1つだけ 2. すべてのdrifting指標で、 inverted anti-driftingが最も優れていた 3. 9フレーム同時生成は、1フレームや4フレームの生成よりも人間評価 で好まれ、ELOスコアも高かった 4. 通常の逐次生成は「動き(dynamic)」スコアで最も高かったが、 これは品質ではなくdriftingによる見かけ上の効果と思われる 5. 同じsampling methodでの細かな設定の違いは、性能に対する影響 が小さくランダムであり、 sampling methodそのものが性能差に最 も影響している 15
先行研究比較結果 • Repeating image-to-video: image-to-video を何回か行い長い動画を生成 • Anchor frames: Driftingを抑制するためにAnchor frameを利用 • Causal attention: Finetune full attention into causal attention for easier KV cache and faster inference. • Noisy history: Delay the denoising timestep on history latents so that history latents are noisy (but less noisy than the current generating latents). Reducing the reliance on the history is beneficial for interrupting error accumulation, thus mitigates drifting, but at the cost of aggravating forgetting. • History guidance: Delay the denoising timestep on history latents but also put the completely noised history on the unconditional side of CFG guidance. This will speed up error accumulation thus aggravating drifting, but also enhance memory to mitigate forgetting. 16
先行研究比較結果 • 3つの全体評価指標で最高スコアを達成 • すべてのdrifting指標において最良の結果 • ELOスコアに基づく人間の主観評価とも一致している 17
まとめ • フレームの圧縮の工夫によりメモリ効率向上 → forgettingの抑制 • Bi-directional なサンプリング → driftingの抑制 • ツール化してコードを公開 18
参考文献 • Lvmin Zhang, & Maneesh Agrawala. (2025). Packing Input Frame Context in Next-Frame Prediction Models for Video Generation. • Jonathan Ho, Ajay Jain, & Pieter Abbeel. (2020). Denoising Diffusion Probabilistic Models. • Haoyu Lu, Guoxing Yang, Nanyi Fei, Yuqi Huo, Zhiwu Lu, Ping Luo, & Mingyu Ding. (2023). VDT: General-purpose Video Diffusion Transformers via Mask Modeling. 19