3.4K Views
June 13, 25
スライド概要
3D Gaussian Splattingを時間方向に拡張し、3次元に自由に視点を変えながら動画を見ることができるようにした技術です。現在開催中の #CVPR2025 での注目論文を大急ぎで解説しました!
論文紹介・CVPR2025 FreeTimeGS Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction 2025.06.12 Hiroki Kawauchi 株式会社ディー・エヌ・エー AI
自己紹介 河内大輝 /Hiroki Kawauchi AIエンジニア・データサイエンティスト@DeNA linkedin.com/in/hiroki-kawauchi …スポーツなどでの、Computer Vision等AI技術を用いたプロダクト開発 https://x.com/kwchrk_ 3次元Computer Vision技術(特にNN以外)が特に好きです。 こちらの資料もどうぞ! AI 2
まずは著者公開のDEMOを ▪ PC & WiFi環境推奨 https://www.4dv.ai/viewer/salmon_10s?showdemo=4dv AI 3
01|新規視点合成・3D Gaussian Splatting 02|FreeTimeGS・手法 項目 03|FreeTimeGS・実験結果 04|サマリ AI 4
01 新規視点合成・3D Gaussian Splatting AI 5
新規視点合成(Novel View Synthesis) ▪ 新規視点合成:3Dシーン合成により、撮影していない新しい視点からの画像 を合成するタスク ▪ 見た目だけで、必ずしも3次元形状の推定は伴わず Ref: https://kaldir.vc.in.tum.de/scannetpp/benchmark/nvs AI 6
動的新規視点合成(Dynamic View Synthesis) ▪ 動的新規視点合成:撮影していない視点からの動画を合成するタスク ▪ 例)東京ドームの自由視点映像 Ref: https://global.canon/ja/news/2023/20230323-2.html AI 7
最近の新規視点合成手法:NeRF[Mildenhall+2020] ▪ NeRF(Neural Radiance Fields) ▪ NNを用いた新規視点合成手法 ▪ 新規視点合成での品質の高さと手法のシンプルさでブレークスルー ▪ NeRFの課題 ▪ 計算量大(V100で学習に1-2日、推論1枚30秒など*) *Ref: https://speakerdeck.com/muskie82/3d-gaussian-splattingniyorugao-xiao-lu-naxin-gui-shi-dian-he-cheng-ji-shu-tosonoying-yong?slide=23 AI 8
最近の新規視点合成手法:3DGS[Kerbl+2023] ▪ 3DGS(3D Gaussian Splatting) ▪ NNを用いない新規視点合成手法 ▪ NeRFレベルの品質の高さと計算量の少なさの両立でブレークスルー ▪ ざっくりいえば、3次元シーンを色のついた3次元のガウス分布 (ガウシアンプリミティブ)の集合として表現する手法 Ref: https://youtu.be/KxWqrp6jbjM?si=k-DYTJiEult_bfUf AI 9
3DGS:手法概要 ▪ 3DGS(3D Gaussian Splatting) ▪ 各ガウシアンは、中心位置・向き・スケール・不透明度・球面調和関数 係数を学習可能なパラメータとして持つ ▪ 不透明度の減衰を、中心位置からのガウス関数で表現 ▪ 各ガウシアンの色は、球面調和関数を用いて視線方向での変化を表現 Ref: https://huggingface.co/blog/gaussian-splatting AI 10
3DGS:手法概要 ▪ 3DGSの学習フロー 1. SfMで推定した点群を初期値に 2. 3Dガウシアンをカメラ座標系に投影 3. レンダリングした画像とGTで損失計算 4. 損失を元に誤差逆伝搬 Ref: https://arxiv.org/pdf/2401.03890 ▪ 3DGSの推論 ▪ 入力:任意のカメラ視点位置→出力:その視点からみた見た目(画像) Ref: https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/ AI 11
3DGS:手法概要 3D Gaussian Splattingの詳細は以下の資料などを参照ください ▪ 3D Gaussian Splatting for Real-Time Radiance Field Rendering - Speaker Deck ▪ 3D Gaussian Splattingによる高効率な新規視点合成技術とその応用 Speaker Deck ▪ 驚くほどキレイな三次元シーン復元、「3D Gaussian Splatting」を徹底的に 解説する - Qiita AI 12
3DGSの速さ・応用例 ▪ Scanniverse(by Niantic) ▪ iPhone上の処理で学習も数分で完了するレベル Ref: https://nianticlabs.com/news/splats-change-everything?hl=en AI 13
3DGSの動的新規視点合成への拡張 ▪ 3DGSの効率性の高さを活かし、動的新規視点合成に拡張する研究すでに複数 ▪ 枠組み① ▪ 基準空間(canonical space)でのガウシアンプリミティブを学習 ▪ NNを用いてシーンの動きをモデル化 ▪ 基準空間のシーンを特定の瞬間の観測空間のシーンへ変形 ▪ 課題:複雑な動きのあるでは、変形の学習が困難 ▪ 枠組み② ▪ ガウシアンプリミティブのパラメータを時間変動のある形に表現 ▪ 課題:最適化が不安定[Yang+2023] ▪ 課題:学習すべきパラメータが多く、過学習しやすい[Li+2024] ▪ FreeTimeGSはこの枠組みで既往手法の課題解決を目指した AI 14
02 FreeTimeGS・手法 AI 15
FreeTimeGS・コアアイデア ▪ ガウシアンの位置・不透明度の時間変動を用いた新しい4次元表現 ▪ 位置を単純な等速直線運動で表現+各ガウシアンの寿命(持続時間)を定義 AI 16
FreeTimeGS・ガウシアンの位置変動 ▪ 各ガウシアンの不透明度が最も大きい時刻μtでの中心位置μx ▪ 近傍での等速直線運動を仮定し、任意の時刻の位置を計算 ▪ (新しいガウシアンの生成ではなく)運動で表現することでビデオ全体 のガウシアンの数を削減 ▪ 速度の初期値は、各フレームで推定した初期値点群間でマッチングさせ てその距離をもとに設定 ▪ 学習初期に速度vが大きく変化できるようにし徐々に小さくアニーリング AI 17
FreeTimeGS・ガウシアンの不透明度変動 ▪ 各ガウシアンの時刻tでの不透明度σ(t) ▪ 不透明度も時間に関するガウス分布で表現 ▪ 中心時刻及び持続時間を最適化しやすくしたい ▪ スケーリングパラメータを持つ単峰性関数 AI 18
FreeTimeGS・学習上の工夫(正則化) ▪ 課題:3DGSのレンダリング後の画像とGT画像を比べる損失関数だけだと、 動きの速い領域で局所解に陥りやすく、レンダリング品質が低下 ▪ 原因:時間変動を増やしたことで、無駄に不透明なガウシアンが残る ▪ 手前の不透明度の高いガウシアンが、奥のガウシアンの最適化を妨げる ▪ 対策 ▪ σ:あるガウシアンの不透明度の最大値、σ(t):不透明度係数(0~1) ▪ なので、厳密には時刻tにおける不透明度はσ*σ(t) ▪ sg[・]:勾配停止(値はそのまま・逆伝搬はしない) ▪ 意味:時刻tにおいて、不透明度が高いガウシアンの不透明度の最大値に 制限をかける(無駄に不透明なガウシアンを減らす) AI 19
FreeTimeGS・学習上の工夫(周期的再配置) ▪ 正則化の副作用として、シーンを表現するガウシアンの総数が増えすぎる ▪ ガウシアンが必要な場所に、定期的にワープさせるサンプリングを行う ▪ 以下のサンプリングスコアによって、ガウシアンが必要な場所を特定 ▪ 詳細は論文中にないが、おそらく3DGSの密度制御と同様に、サンプリングス コアが低い領域のガウシアンの値を、高い領域のものに置き換える? AI 20
03 FreeTimeGS・実験結果 AI 21
実験・実装設定 ▪ データセット(すべて300フレーム)3種類 ▪ Neural3DV:カメラ19-21台・30FPS・2704×2028 ▪ ENeRF-outdoor:カメラ18台・60 FPS・1920×1080 ▪ SelfCap:カメラ22-24台・60 FPS・3840×2160 ▪ 新しく作成。大きな動きのあるシーンを含む。 ▪ マシン・計算時間:RTX4090で約1時間 ▪ 周期的再配置は、学習30k itersのうち、100 itersごとに実行 AI 22
定性評価 ▪ FreeTimeGSは大きな変化のあるシーンでもきれいにレンダリングできている Ref: https://zju3dv.github.io/freetimegs/ AI 23
定量評価 ▪ 品質高く、計算も軽い AI 24
Ablation Study ▪ 運動表現(motion)、正則化、周期的再配置、速度初期値の必要性 ▪ w/o our motionは4DGS[Yang+2023]の表現を使用した場合 ▪ 運動表現の次に、速度初期値の付与も重要 AI 25
今後の課題 ▪ 学習の計算量 ▪ RTX4090 1台で約1時間 ▪ 必要な撮影カメラの多さ ▪ 検証データセットは20台程度のカメラを使用 ▪ リライティング(再照明) ▪ ジオメトリや物質特性は対応しておらず、照明を後から変更できない AI 26
サマリ FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction [Wang+2025] ▪ 撮影していない視点からの動画を合成する動的新規視点合成の新手法 ▪ ガウシアンの位置・不透明度を時間変動させる新しい4次元表現を提案 ▪ 不透明度に関する正則化を導入し、学習を安定化 ▪ 実験結果から、動きの大きなシーンでの性能が顕著で、推論も高速 ▪ 学習の計算量、必要なカメラ台数、リライティングなどが今後の課題 AI 27