2.4K Views
June 14, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Neural Isometries: Taming Transformations for Equivariant ML Presenter: Manato Yaguchi, Matsuo lab, M1 http://deeplearning.jp/
書誌情報 紹介論文 タイトル: Neural Isometries: Taming Transformations for Equivariant ML 出典: Arxiv(2024.05) 著者: Thomas W. Mitchel, Michael Taylor, Vincent Sitzmann PlayStation, MIT 概要 現実世界に存在する対称性を、潜在空間上における等長写像で表現した、Autoencoderフ レームワーク 学習したAutoencoderフレームワークにより、非線形な対称性に関する情報をデータから取得 することができる ※画像は出典記載のないものは、本論文から引用 2
対称性を加味したモデル:不変性 画像分類タスクを考える 空間的なシグナルに対する幾何学な変換に対して、不変になるようなネットワークを設計 例えば、並進, 回転, 反射, スケーリング, その他のアフィン変換 など これらの変換は、対応する群の作用として、数学的に定式化できる 画像出典:https://maurice-weiler.gitlab.io/blog_post/cnn-book_1_equivariant_networks/ 3
対称性を加味したモデル:同変性 上のようなセグメンテーションタスクを考える. 入力画像の変換によって、出力も対応する変換を受ける. この例の場合、反射に関する同変性を持つという. 画像出典:https://maurice-weiler.gitlab.io/blog_post/cnn-book_1_equivariant_networks/ 4
対称性を加味したモデル 対称性を埋め込んだモデルの利点 モデルの設計段階で同変性を組み込むことで、ある一枚の画像を学習すれば、自動的に幾 何学的変換を加えた画像に対しても、汎化できる. パラメータ数の削減、訓練時間の削減につながる.(CNNは並進同変性をもつ) 対称性を埋め込んだモデルの欠点 群により表現可能な既知の対称性しか埋め込めない 複雑な幾何学的変換を表現しきれない 画像出典:https://maurice-weiler.gitlab.io/blog_post/cnn-book_1_equivariant_networks/ 5
Autoencoder フレームワークの全体像 (𝜓, 𝑇𝜓)のペアを入力とし、ℰΩ = Φ𝑇 𝕄 ∘ ℰにより潜在空間に射影 潜在空間上で、関数写像𝜏Ω により2つのペアを関連づける ただし、 𝜏Ωが等長写像となるように制約を加える (詳細は後述) 全体のLossが最小になるように、作用素Ωと、質量行列𝕄を学習により獲得する 6
問題設定 設定 観測空間を𝑂 ⊂ 𝐿2 (𝑀, ℝ𝑛 )とする. RGB画像ならMが平面、n=3に対応 現実世界の空間をWとして、𝜎: 𝑊 → 𝑂によりOが得られる. 𝑤 ∈ 𝑊, 𝜓 = 𝜎(𝑤) ∈ 𝑂をある観測、𝑇𝜓 = 𝜎(𝑇𝑤)を、現実世界Wにおける変換Tに対応した 𝜏 観測とする. エンコーダー ℰ: 𝐿2 𝑀, ℝ𝑛 → 𝐿2 𝑁, ℝ𝑑 , デコーダー 𝐷: 𝐿2 (𝑁, ℝ𝑑 ) → 𝐿2 (𝑀, ℝ𝑛 ) 実際には、M,N上で離散化して与えられる 目標 任意の変換Tに対して、観測𝜓と𝑇𝜓を対応づける線形な変換𝜏: 𝐿2 (𝑁, ℝ𝑑 ) → 𝐿2 (𝑁, ℝ𝑑 )が 存在すること. つまり、 ℰ 𝑇𝜓 ≈ 𝜏ℰ(𝜓) 7
線形変換τに課す制約 シンプルな方法 ℰ 𝑇𝜓 ≈ 𝜏ℰ(𝜓) を満たすためには、𝜏 = min ℰ 𝑇𝜓 − 𝜋ℰ(𝜓) とすればよい. (これだと学 習が上手くいかない) 𝜋 𝜏 𝑇 𝜏 = 𝐼 𝑁 , 𝜏 は等長写像 という追加の制約を加える. (この制約の埋め込み方がキー) 学習可能な質量行列Mと、半正定値行列Ωを導入し、以下の制約を満たすようにする ただし、対角行列M, 半正定値行列Ωは学習可能なパラメータ 𝜏Ω ≡ ΦT 𝕄𝜏Φとすると、(3)式から𝜏ΩT 𝜏Ω = 𝐼 𝑁 , 𝜏Λ = Λ𝜏 を満たすことが示せる. 8
τをΩの固有基底に射影して考える 9
Lossが最小になるように学習 10
Autoencoderの全体像(再掲) 11
実験1:NISOを用いた表現学習 homNIST datasetによる分類問題を考える 訓練済みのNisoのエンコーダーに、MLP層を追加して ファインチューニング ファインチューニング時は、通常のMNIST画像を用いて、MLP 層を訓練 潜在空間上で線形な変換となる制約をつけてエンコー ドするNFTと比較 ただし、NFTはコンパクトな群による変換しか想定していない (複雑な変換には対応していない) 12
実験2:Nisoを用いた表現学習 各メッシュを球体にマッピングし、グリッドにラスタ ライズする. 実験1と同様にして、事前学習済みのモデルに、 MLP層を追加し、ファインチューニング 3D形状に対しても、NFTと比較して良い結果 を得る さらにMebius Convolutionsよりも良い精度 これは対称性を事前にモデルに埋め込む系のやつ 13
実験3:潜在空間の情報によるカメラの姿勢推定 [ステップ1] T-relatedな隣接フレームのペアを訓練データとして、autoencoderを訓練 実際の実験では、0 step(隣接), 1 step, 3 step, 5 step, 7 step, 9 step間隔のペアで学習 [ステップ2] Encodeした2つの観測をMLPの入力とし、等長写像𝜏Ω を推定 実際には、SE(3)の変換に対応するパラメータを出力 これはカメラの動きの変化に対応 ステップ2では、ステップ1で学習したエンコーダーの重みを固定 [評価] SE(3)の出力を元に、カメラの軌跡を復元。これの誤差により評価する 14
実験3:潜在空間の情報によるカメラの姿勢推定 ステップ数が上がるごとに、他の手法(ViT)を上回る 15
まとめ・考察 まとめ 潜在空間での変換が、線形かつ等長変換となるように制約を加えることで、対称性を加味し た良い表現を獲得 カメラの位置推定のように、現実世界での複雑な変換も上手く捉えられる表現を獲得している ことを実験的に確認 考察・感想 今回は特定のドメインのタスクのみに適した表現を獲得できることを実験で示した より幅広いドメインで考えた時、どこまで汎用的な表現が獲得できるか (Discussionでも触れられてる) 潜在空間への埋め込みと、埋め込んだ中での遷移の2つセットで最適なものを考えているという 点が良いと思う 例えば、Stable diffusionなら、潜在空間に埋め込む部分と、潜在空間上の遷移は別々に学習 16