2.9K Views
February 17, 23
スライド概要
2023/2/17
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] 論文紹介: HexPlaneとK-Planes Ryosuke Ohashi, bestat Inc. http://deeplearning.jp/
書誌情報① - arxivプレプリント (2023/1/23) - matrix-vector分解を(3+1)Dに応用&改良 - 動画のRF化時間短縮 2
書誌情報② - arxivプレプリント (2023/1/24) - tri-plane表現を(3+1)Dに応用&改良 - 動画のRF化時間短縮 3
背景:場,信号 空間・時空間に広がる何らかの物理量のこと 平面上の磁場 https://en.wikipedia.org/wiki/Vector_field 場や信号は,空間Xから物理量の値域Yへの関数として書ける M: R^2 → R^2 M(x, y) = (M_x, M_y) 4
背景:場,信号の例 RGB画像 I: R^2 → R^3 I(u, v) = (I_R, I_G, I_B) 輝度場 (Radiance Field,以下RF) c: R^3 x S^2 → R^3 c(r, d) = (c_R, c_G, c_B) https://www.matthewtancik.com/nerf 謎のガスが各方向にいろんな色の光を発しているイメージ 5
背景:DyNeRF “Neural 3D Video Synthesis from Multi-view Video” T. Li et al. (CVPR2022) 動画のRF化に関する論文 綺麗に作れるが,最適化にとても時間がかかる 6
背景:パラメトリック関数 vs グリッド 場・信号の関数近似方法 ①パラメトリック関数 Fourier級数展開 vs 折れ線グラフ - パラメーター数が少ない - 遅い - 扱いが難しい ②グリッド(ルックアップテーブル) - パラメーター数が多い - 高速 - 扱いが簡単 https://mathworld.wolfram.com/FourierSeries.html 7
背景:グリッドベースでやりたい 静的シーンのRF化では,グリッドベース手法が主流化している DVGO, Plenoxels, EG3D, Instant-NGP, TensoRF, ... → 動画のRF化もグリッドベースでやりたい!! 8
問題:N^4 とはいえ,時空間のグリッド化はメモリ消費量が非現実的 - 空間方向を512分割(5mの範囲を1cm刻み) - 時間方向を512分割(60sec * 10FPS) → 512^4 * 4byte = 256GB 9
解決方法:テンソル分解 HexPlaneやK-Planesでは,テンソル分解を使うアプローチが採用 されている 直観的には,高次元の量を低次元の量の積で分解表示する,というイメージ 10
K-Planes ①動画の場合,XY, YZ, ZX, XT, YT, ZT平面に特徴グリッドを設ける → 512分割の場合,6 * 512^2 * 4byte = 6MB ②(x, y, z, t)に対し,各平面に射影した点から特徴を拾ってきて要素 毎積をとり,MLPに流す 11
K-Planes:積をとるのが大事 各平面から拾ってきた特徴の和をとると,局在するシグナルの表現が難しい 積をとれば容易に表現可能 12
K-Planes:積をとるのが大事 特徴の積をとる方式だと,MLPを線形にしても高い性能がでる 13
K-Planes:実験結果 ↓マルチビュー動画 ←特定データセットでの値のため,全データセット平均ならもっと高いはず,らしい 短時間で良い感じに動画をRF化できている ↑旅行者が撮った時間・天気が違う多視点画像 14
HexPlane 最終的に提案しているアーキテクチャはK-Planesと本質的には同じ TensoRFに基づき,matrix-vector分解を出発点にいろいろ考察・比 較実験している 15
HexPlane:matrix-vector分解 matrix-vector分解 XY平面上の特徴とZ軸上の特徴の積 YZ … X … ZX … Y … を使ってXYZ空間上の特徴をつくる “TensoRF: Tensorial Radiance Fields” A. Chen et al. https://arxiv.org/abs/2203.09517 16
HexPlane:アーキテクチャ 交差が0次元になる平面ペアでのみ積をとっている 17
HexPlane:やはり積をとるのが大事 Fusion-Two(左図の+のとこ)で積をとると,平面 の交差が1次元になり局在化しきらないので,FusionOneで積をとるより弱い? 18
HexPlane:実験結果 短時間で良い感じに動画をRF化できている 19
まとめ・雑感 まとめ - テンソル分解することで動画のときでもグリッドベース手法が使える - 現実的な時間でいい感じに動画をRF化できて嬉しい 雑感 - 積をとるとシグナルを局在化しやすくて良い,という気付きはパラメトリック関数を使うとき にも有用そう - ハッシュグリッドを使う場合に,2Dハッシュグリッドに分解したほうがコリジョンが緩和され ないか? - ほぼ同じタイミングで根本的に同じアイデアの論文が出てたのが面白かった 20