1.2K Views
September 05, 25
スライド概要
2025年7月24日に、日本ディープラーニング協会主催(JDLA)の「CVPR2025技術報告会」にてモルフォの技術者が登壇した際の、当日の発表資料です。
詳細はテックブログをご覧ください。
https://techblog.morphoinc.com/
CVPR2025 技術報告会 コンピュータビジョン技術の最前線 2025/07/24 株式会社モルフォ シニアリサーチャー 山口 リサーチャー 鈴木・鄒
目次 1. はじめに・株式会社モルフォのご紹介 (約10分) 2. CVPRとは何か、なぜ重要か、ビジネスパーソン向け CVPR入門 (約15分) 3. 今年のCVPRのトレンド:注目の分野・論文のご紹介 (約30分) (5分休憩) 4. モルフォ視点で CVPRテクニカルディープダイブ (約25分) ○ 新アーキテクチャー ”Mamba”の動向(約 15分) ○ Workshop:NTIREチャレンジの紹介(約 10分) 5. 質疑応答(約 30分) ※ 本スライド資料は後日に弊社のTechブログにて公開いたします Copyright © 2025 Morpho, Inc. All Rights Reserved. 1
株式会社モルフォのご紹介 Copyright © 2025 Morpho, Inc. All Rights Reserved. 2
株式会社モルフォについて 2004 2011 創業 代表取締役社長 平賀 督基 5 東証マザーズ上場 カ国 海外展開 162 グループ社員 140 60.7 % 特許 海外売上比率 Masaki Hilaga 画像処理 / AI技術の研究・製品開発 スマートデバイス・車載モビリティ・DX向けソフトウェア事業を グローバルに展開 33 億 グループ売上 11.4 % 研究開発費率 2024年10月期時点 Copyright © 2025 Morpho, Inc. All Rights Reserved. 3
事業領域 先進のイメージイング・テクノロジーにより、利便性・安心安全・生産性の向上に貢献する ・スマートフォン ・PC/タブレット端末 スマート デバイス ・車載カメラ ・ドライブレコーダー ・OCR ・監視カメラ 等 車載 モビリティ DX Copyright © 2025 Morpho, Inc. All Rights Reserved. 4
スマートデバイス|画像処理(古典手法 × Deep Learning) 動画手振れ補正 ノイズ除去AI技術 ナイトモード向けダイナミックレンジ補正 超解像技術 Copyright © 2025 Morpho, Inc. All Rights Reserved. 5
車載モビリティ|自動車向け AI技術 車室外カメラ 車室内カメラ テレマティクス 自動運転・運転支援 乗員状態認識 クラウド連携サービス 物体検知技術 OMS: 乗員姿勢推定 道路劣化診断 オートキャリブレーション DMS: ドライバー認識 動画のAI要約 Copyright © 2025 Morpho, Inc. All Rights Reserved. 6
DX|分野別ソリューション事例 OCR 画像解析AIソリューション 建設DX 旧字体認識・新字への変換 転倒検知・物体検出 橋脚補強現場 DX アナログメーター読み取り Copyright © 2025 Morpho, Inc. All Rights Reserved. 7
新規事業開発 Wearable Device 視覚障碍者向けデバイスの開発 障害物検知 Photogrammetry 計測・三次元再構成 横断歩道認識 Copyright © 2025 Morpho, Inc. All Rights Reserved. 8
モルフォは画像処理と AI技術領域に特化した ソフトウェア研究開発カンパニーです Copyright © 2025 Morpho, Inc. All Rights Reserved. 9
CVPRとは何か、なぜ重要か、 ビジネスパーソン向け CVPR入門 Copyright © 2025 Morpho, Inc. All Rights Reserved. 10
CVPRとは? Copyright © 2025 Morpho, Inc. All Rights Reserved. 11
CVPRとは? 初回は1983年にT.KanadeとD.Balladが開催 毎年、6月から7月頃に開催されるComputer Vision系の国際会議 開催地は主にアメリカ国内 画像:https://cvpr.thecvf.com/ CVPR Conference on Computer Vision and Pattern Recognition Copyright © 2025 Morpho, Inc. All Rights Reserved. 12
CVPRとは? 人間の目と脳が持つ高次視覚機能 を理解し、 コンピュータによる再現・実証を目指す分野 画像:https://cvpr.thecvf.com/ CVPR Conference on Computer Vision and Pattern Recognition 国際会議 コンピュータービジョン パターン認識 Copyright © 2025 Morpho, Inc. All Rights Reserved. 13
CVPRとは コンピュータビジョン(CV)の国際学会です。 Copyright © 2025 Morpho, Inc. All Rights Reserved. 14
AI関連の国際会議 画像処理の 国内会議だと MIRU が有名 出典:https://www.kamishima.net/archive/MLDMAImap.pdf Copyright © 2025 Morpho, Inc. All Rights Reserved. 15
Google Scholar Metricsによる学術誌ランキング (h5-indexが450→過去5年間で450回以上引用された論文数が450本以上存在) 出版物 Rank h5-index ※ h5-median ※ 1. Nature 490 784 2. IEEE/CVF Conference on Computer Vision and Pattern Recognition 450 702 3. The New England Journal of Medicine 441 854 4. Science 415 653 5. Nature Communications 399 509 6. The Lancet 375 712 7. Neural Information Processing Systems 371 637 8. International Conference on Learning Representations 362 652 9. Advanced Materials 330 440 10. Cell 317 528 出典: https://scholar.google.com/citations?view_op=top_venues Copyright © 2025 Morpho, Inc. All Rights Reserved. 16
Google Scholar Metricsによる学術誌ランキング CVPRは論文自体の数・引用数ともに世界トップレベルの学会です! (h5-indexが450→過去5年間で450回以上引用された論文数が450本以上存在) 出版物 Rank h5-index ※ h5-median ※ 490 784 450 702 1. Nature 2. IEEE/CVF Conference on Computer Vision and Pattern Recognition 3. The New England Journal of Medicine 441 854 4. Science 415 653 5. Nature Communications 399 509 6. The Lancet 375 712 7. Neural Information Processing Systems NeurIPS 371 637 8. International Conference on Learning Representations ICLR 362 652 9. Advanced Materials 330 440 10. Cell 317 528 CVPR 出典: https://scholar.google.com/citations?view_op=top_venues Copyright © 2025 Morpho, Inc. All Rights Reserved. 17
CVPRで過去に発表された Deep Learning系研究のピックアップ ● ImageNet: A Large-scale Hierarchical Image Database (2009) 後にAlexNetによって第3次AIブームの火つけ役となるImageNetデータセットを提供。Jia Deng et al. ● Are We Ready For Autonomous Driving? The KITTI Vision Benchmark Suite (2012) 現在でも車載の映像・3D点群のベンチマークに用いられるKITTIデータセットを提供。Andreas Geiger and Philip Lenz and Raquel Urtasun ● Rich feature hierarchies for accurate object detection and semantic segmentation (2014) R-CNNを提案。CNNによる物体検知の先駆け。Ross Girshick et al. ● Fully Convolutional Networks For Semantic Segmentation (2015) セグメンテーションにおける線形層を捨て全てConvolutionで表現。Jonathan Long et al. ● You Only Look Once: Unified, Real-Time Object Detection (2016) いまや物体検知のデファクトスタンダードになりつつあるOne-Stageな物体検知のYOLOを提案。Joseph Redmon et al. ● Deep Residual Learning For Image Recognition (2016) いわゆるResNet。skip connectionにより安定して深いNNの安定的な学習に成功。Kaiming He et al. ● High-Resolution Image Synthesis With Latent Diffusion Models(2022) Stable Diffusionの元論文。特徴量次元で拡散モデルを扱うことで生成画像の品質を向上。Robin Rombach et al. ● Masked Autoencoders Are Scalable Vision Learners(2022) 言語のBERTの成功を参考にした、マスク復元タスクによる画像の自己教師あり事前学習。Kaiming He et al. ● A ConvNet for the 2020s (2022) ResNetをベースにVision Transformerの知見を取り入れTransformerを超える性能を出したCNN。Zhuang Liu et al. Copyright © 2025 Morpho, Inc. All Rights Reserved. 18
CVPR Longuet-Higgins Prize ~10年後から振り返った最重要論文賞~ https://tc.computer.org/tcpami/awards/longuet-higgins-prize/ 2022 ● Are We Ready For Autonomous Driving? The KITTI Vision Benchmark Suite (2012) 現在でも車載の映像・3D点群のベンチマークに用いられるKITTIデータセットを提供。Andreas Geiger and Philip Lenz and Raquel Urtasun 2023 ● Online Object Tracking: A Benchmark(2013) 物体追跡における100種類以上のビデオシーケンスからなるデータセット(OTB-50, OTB-100)の構築。Yi Wu et al. 2024 ● Rich feature hierarchies for accurate object detection and semantic segmentation (2014) R-CNNを提案。CNNによる物体検知の先駆け。Ross Girshick et al. 2025 ● Going Deeper with Convolutions (2015) ILSVRC14優勝のGoogLeNet。Inception moduleの発明。Christian Szegedy et al. ● Fully Convolutional Networks For Semantic Segmentation (2015) セグメンテーションにおける線形層を捨て全てConvolutionで表現したFCNを開発。Jonathan Long et al. Copyright © 2025 Morpho, Inc. All Rights Reserved. 19
CVPR Longuet-Higgins Prize ~10年後から振り返った最重要論文~ 来年の受賞候補は……? 被引用数からみるCVPR2016 ResNet! YOLO! ※被引用数はSemantic Scholarのデータに基づく(2025年7月時点) Copyright © 2025 Morpho, Inc. All Rights Reserved. 20
AIを学ぶビジネスパーソンに CVPRにとって重要な理由 まとめ CVPRはCV分野のトップカンファレンスです! 歴史的に重要な AI系の論文を次々に生み出してきた実績 画像:https://cvpr.thecvf.com/ Copyright © 2025 Morpho, Inc. All Rights Reserved. 21
CVPR2025の概要 Copyright © 2025 Morpho, Inc. All Rights Reserved. 22
CVPR 2025 開催日時 6/11 - 6/15 @ナッシュビル タイムテーブル 出展:OnTheWorldMap ● 6/11, 6/12 118 の Workshop と 25の Tutorial ● 6/13 - 6/15 Main conference ○ ○ ○ ○ Welcome talk(&Award発表) Oral session Poster session Keynote(基調講演) Webサイト CVPR 2025 (thecvf.com) Copyright © 2025 Morpho, Inc. All Rights Reserved. 23
CVPR 2025 Workshops & Tutorials Tutorialは教育的・体系的な内容 Workshopはより実践的 Oral Session 注目度の高い論文が発表される Awardの発表もあり Poster Session Key Notes 最も活発にやり取りが行われる 並行して企業ブースもあり 著名な方が講演 ● 都市を飛ぶドローン ● Llama開発 ● AIとロボット Copyright © 2025 Morpho, Inc. All Rights Reserved. 24
CVPR2025現地の共有 Copyright © 2025 Morpho, Inc. All Rights Reserved. 25
アメリカ ナッシュビル現地の共有 ● 街 ○ 音楽の街 ■ 街中で音楽を流している不明車両や、バケツを叩く子供たちがいた ■ Boardwayにhonky tonkというライブ音楽バーが並ぶのがランドマーク ○ カフェが可愛くて親切な人も多い Copyright © 2025 Morpho, Inc. All Rights Reserved. 26
アメリカ ナッシュビル現地の共有 ● 食事 ○ バーガー、ポテト、ジャンク飲料がほとんどだが、 幸いなことに会場でフルーツやパンやコーヒーなどが配られる ○ 特によかったのは宴の夕食、サラダ、ギリシャヨーグルト、寿司 ● サービス・チップ ○ 人件費とにかく高い.洗濯機がなく ○ 心の痛さと親切した達成感が交じり合う Copyright © 2025 Morpho, Inc. All Rights Reserved. 27
CVPR現場 人との出会い ● ポスター ○ CVPRの著者と話せた ○ ポスター回るのと話す時間の把握(と間食) ○ linkedinの交換 ○ 街中で参加者に声かけられたり ● 飛行機 ○ 隣席 ○ ナイジェリアで先生 Copyright © 2025 Morpho, Inc. All Rights Reserved. 28
CVPRの論文数の推移 CVPR2025 採択率 22.1%! Copyright © 2025 Morpho, Inc. All Rights Reserved. 29
Highlights & Award candidates 96 387 Orals + posters 18のセッションに分かれて口頭発表 Highlights posters プログラム中に上位論文として注釈 Posters 2299 Copyright © 2025 Morpho, Inc. All Rights Reserved. 30
Highlights & Award candidates 96 387 Award Candidates 14論文 各Talk sessionで用意 ↓ 🏆Award 7論文 2299 Copyright © 2025 Morpho, Inc. All Rights Reserved. 31
Award 1 Best Paper 👑 4 Best Paper Runners-Up(次点) 1 Best Student Paper 1 Best Student Paper Runners-Up(次点) Copyright © 2025 Morpho, Inc. All Rights Reserved. 32
CVPR2025の受賞論文 👑Best Paper VGGT: Visual Geometry Grounded Transformer Jianyuan Wang, et al. 3D 再構成 https://vgg-t.github.io/ 👑Best Student Paper Neural Inverse Rendering from Propagating Light Anagh Malik, et al. 3D 逆レンダリング https://anaghmalik.com/InvProp/ Copyright © 2025 Morpho, Inc. All Rights Reserved. 33
次のパートからは最先端の研究 およびトレンドにフォーカスします! Copyright © 2025 Morpho, Inc. All Rights Reserved. 34
鈴木・鄒 今年のCVPRのトレンド: モルフォ視点で注目の分野・論文のご紹介 Copyright © 2025 Morpho, Inc. All Rights Reserved. 35
CVPR 2025 のトレンド CVPR2025採択論文: 2872本 → 全ては読めない…… ● 2025年現在のCV分野の潮流 ○ 最先端の手法は? ○ 流行の分野は? ○ 多くの論文に共通するトピックは? → CVPR2025全論文のタイトルをテキストマイニング ※ 過去3年の発表(CVPR2022-2024)と同様の調査を実施 Copyright © 2025 Morpho, Inc. All Rights Reserved. 36
CVPR 2025 のトレンド 下表:CVPR2025の論文タイトルに用いられた単語数のランキング データ参照元: https://openaccess.thecvf.com/CVPR2025?day=all から単語を抽出 Copyright © 2025 Morpho, Inc. All Rights Reserved. 37
CVPR 2025 のトレンド CVPR2025の論文タイトルに用いられた単語をマッピング データ参照元: https://openaccess.thecvf.com/CVPR2025?day=all から単語を抽出 Copyright © 2025 Morpho, Inc. All Rights Reserved. 38
CVPR 2025 のトレンド 上位の普遍的な用語の使用率 近年の特徴としては、 ● 3d、video(s)の増加 「2D静止画の処理」 →「時間・空間方向を加えた多 次元データ の処理」 特に動画は今年のトレンド! ● learningが減少 ● model(s)の増加 ○ 学習済み「基盤モデル」が 確立した影響か ※基盤モデル:GPT シリーズ、CLIP、DINOv2、 Stable Diffusionのような、大量のデータで学習さ れた汎用的に使えるモデル Copyright © 2025 Morpho, Inc. All Rights Reserved. 39
CVPR 2025 のトレンド 論文数増加の続くタスク ● 画像生成 (generation) ● 再構成 (reconstruction) 増加が落ち着いたタスク ● 物体検出 (detection) ● 領域分割 (segmentation) ● 識別 (recognition) ● 姿勢推定 (pose) ● 人物追跡 (tracking) 動画像の「認識」から「生成」に CVPRのトピックが移りつつある Copyright © 2025 Morpho, Inc. All Rights Reserved. 40
(参考) CVPR 2024 注目単語のその後 ● CVPR2024のトレンド(昨年の発表で紹介したもの) ○ 生成AI ○ Multi-Modal、特にVision-Language ○ Gaussian Splatting ○ 基盤モデル Copyright © 2025 Morpho, Inc. All Rights Reserved. 41
CVPR 2025 のトレンド 今年も同じトレンドが続いている! データ参照元: https://openaccess.thecvf.com/CVPR2025?day=all から単語を抽出 Copyright © 2025 Morpho, Inc. All Rights Reserved. 42
CVPR 2025 のトレンド ● generation, diffusion ● (vision-)language, multi-modal ● gaussian, splatting ● foundation ○ 続伸が続く→今年も主役 特に ● diffusion(6位):拡散モデル ● gaussian(9位):Gaussian Splatting 「特定の手法を示唆する単語」が一 般用語に混じってランクイン →近年の最重要な技術革新を象徴 ● CVPR2024のトレンド(再掲) ○ 生成AI ○ Vision-Language ○ Gaussian Splatting ○ 基盤モデル Copyright © 2025 Morpho, Inc. All Rights Reserved. 43
CVPR 2025 のトレンド (2024→2025の差分) 急上昇ワードで見るCVPR2025 メイントレンド ● 動画処理 ● 生成モデル ● 3D、Gaussian Splatting ● Multi-modal・Vision-language ● 基盤モデル 1位~15位 15位~30位 ※赤字:メイントピック関連 Copyright © 2025 Morpho, Inc. All Rights Reserved. 44
CVPR 2025 のトレンド (2024→2025の差分) 急上昇ワードで見るCVPR2025 サブトピックを抽出すると ● mamba, space, state ○ 新アーキテクチャ“Mamba” ● benchmark(ing) ○ 新技術の登場に対する 新たな評価軸・指標の整備 1位~15位 15位~30位 ※赤字:メイントピック関連 Copyright © 2025 Morpho, Inc. All Rights Reserved. 45
CVPR 2025 のトレンド CVPR2025のトレンドは 1. 3D(再構成)、Gaussian Splatting 2. 動画の認識・生成 3. マルチモーダルの発展 4. 生成AI 5. 基盤モデルの利用 Copyright © 2025 Morpho, Inc. All Rights Reserved. 46
CVPR 2025 のトレンド CVPR2025のトレンドは 1. 3D(再構成)、Gaussian Splatting 2. 動画の認識・生成 3. マルチモーダルの発展 4. 生成AI 5. 基盤モデルの利用 本日は、1~3の分野について深堀りして紹介 ※といっても、基盤モデルや生成AIは他分野の論文に普遍的に出現…… ※サブトピックのMambaは、テクニカルディープダイブで解説 Copyright © 2025 Morpho, Inc. All Rights Reserved. 47
CVPR 2025のトレンド 3D 再構成 Copyright © 2025 Morpho, Inc. All Rights Reserved. 48
CVPR2025のトレンド: 3D再構成 CVPR2025の受賞論文7本 ● Best Paper ○ VGGT: Visual Geometry Grounded Transformer [Jianyuan Wang et al.] ● Best Student Paper ○ Neural Inverse Rendering from Propagating Light [Anagh Malik et al.] ● Best Paper Honorable Mentions ○ MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos [Zhengqi Li et al.] ○ Navigation World Models [Amir Bar et al.] ○ Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models [Matt Deitke et al.] ○ 3D Student Splatting and Scooping [Jialin Zhu et al.] ● Best Student Paper Honorable Mention ○ Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [Kaihang Pan et al.] Copyright © 2025 Morpho, Inc. All Rights Reserved. 49
CVPR2025のトレンド: 3D再構成 CVPR2025の受賞論文7本 そのうち4本が3D関連! ● Best Paper ○ VGGT: Visual Geometry Grounded Transformer [Jianyuan Wang et al.] ←3D! ● Best Student Paper ○ Neural Inverse Rendering from Propagating Light [Anagh Malik et al.] ←3D! (やや特殊) ● Best Paper Honorable Mentions ○ MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos [Zhengqi Li et al.] ←3D! ○ Navigation World Models [Amir Bar et al.] ○ Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models [Matt Deitke et al.] ○ 3D Student Splatting and Scooping [Jialin Zhu et al.] ←3D! ● Best Student Paper Honorable Mention ○ Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [Kaihang Pan et al.] Copyright © 2025 Morpho, Inc. All Rights Reserved. 50
CVPR2025のトレンド: 3D再構成 ● キーワード:3D再構成(3D Reconstruction) ○ 複数の2D画像から対象の3D形状を復元 ● 原理:三角測量 ○ 「視差」を利用し「奥行き」を算出 ○ 3D座標上の位置を推定し、点群にする ○ 点群を元に、対象物を3Dモデル化 →未撮影の任意視点 からの画像を生成可能 ● 応用例: 建築物のウォークスルー、インフラ点検、製造業での品質 検査、文化財のデジタルアーカイブなど 図:三角測量の原理(出典 https://mogist.kkc.co.jp/word/4a2b0913f377-4075-b959-5db6bd41b194.html) Copyright © 2025 Morpho, Inc. All Rights Reserved. 51
前提知識 3D再構成の代表的な手法: Structure from Mothon(SfM) ● 静止シーンを撮影した複数のRGB画像を入力として、 それらの画像のカメラパラメータ と シーンの点群 を 両方出力 入力: 複数の画像 出力: ● 各画像のカメラ内部パラメータ・ カメラポーズ(並進+回転) ● シーンの3次元点群 etc… Copyright © 2025 Morpho, Inc. All Rights Reserved. 52
前提知識 古典的な SfM手法の代表 : COLMAP COLMAPの全体の流れ https://colmap.github.io/tutorial.html (時間の関係上、詳細説明は省略) ● (要点)原理に従い、各工程を順番に処理 ○ 2画像に映る同じ地点(特徴点)を検出 ○ 三角測量して点群推定 ○ 全画像で整合するように最適化 ● 計算コストと速度に限界あり ● 処理可能なシーンの制約が強い ○ 静止対象・豊富なテクスチャ・適度な視差等 上図:特徴量検出とマッチング 出典 :https://paperswithcode.com/task/imag e-matching Copyright © 2025 Morpho, Inc. All Rights Reserved. 53
前提知識 古典的な SfM手法の代表 : COLMAP COLMAPの全体の流れ https://colmap.github.io/tutorial.html (時間の関係上、詳細説明は省略) ● (要点)原理に従い、各工程を順番に処理 ○ 2画像に映る同じ地点(特徴点)を検出 ○ 三角測量して点群推定 ○ 全画像で整合するように最適化 ● 計算コストと速度に限界あり ● 処理可能なシーンの制約が強い ○ 静止対象・豊富なテクスチャ・適度な視差等 Copyright © 2025 Morpho, Inc. All Rights Reserved. 54
前提知識 このタスクにおける革命的な論文 Wang et al., “DUSt3R: Geometric 3D Vision Made Easy” CVPR2024 ● DUSt3R: Geometric 3D Vision Made Easy (CVPR2024) ○ Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections ○ 2枚の画像を単一ネットワークに入力 ○ アテンション機構により、全画素の対応関係を網羅的に探索 ○ 位置・縮尺が揃った2つの「3D点群マップ 」を生成 → SfMの複雑な初期段階をバイパスし、点群を直接予測 https://openaccess.thecvf.com/content/CVPR2024/papers/Wang_DUSt3R_Geometric_3D_Vision_Made_Easy_CVPR_2024_paper.pdf Copyright © 2025 Morpho, Inc. All Rights Reserved. 55
前提知識 DUSt3Rは何が新しいのか? https://openaccess.thecvf.com/content/CVPR2024/p apers/Wang_DUSt3R_Geometric_3D_Vision_Made_ Easy_CVPR_2024_paper.pdf ● ● ● 従来のSfM(colmap等) ○ サブタスクを解きながら、ルールベースで順次処理 ○ その結果、3D再構成(≒3D点群の取得)を実現 ● DUSt3R ○ 3D点群をデータ駆動の学習で直接推論 ○ 後続の処理で、他のサブタスク(カメラ位置推定等)を解く → ロバスト性と速度の向上 ■ 3D再構成の「基盤モデル」 とも呼ばれる結果を出す Copyright © 2025 Morpho, Inc. All Rights Reserved. 56
前提知識 DUSt3R(CVPR2024)の影響力 後発論文では”DUSt3R”式の命名が大流行 MASt3R Fast3R Test3R MEt3R ※太字はCVPR2025発表論文 Splatt3R MUSt3R Point3R CUT3R Easi3R Pow3R ※もっと沢山知りたい方は:https://github.com/ruili3/awesome-dust3r Copyright © 2025 Morpho, Inc. All Rights Reserved. 57
CVPR2025の3D関連論文 Wang et al., “VGGT: Visual Geometry Grounded Transformer” ● DUSt3Rの課題 ○ 多視点対応には「2枚ペア推論の反復」と「後処理」が必須 ● VGGT: Visual Geometry Grounded Transformer(Best Paper👑) ○ マルチビュー/マルチタスク なEnd-to-End設計 ■ N枚の画像を直接入力 とし、単一の順伝播による一括処理 ■ カメラ・深度・点群などを同時予測 ● 後処理を撤廃し、速度と精度を飛躍的に向上 https://openaccess.thecvf. com/content/CVPR2025/p apers/Wang_VGGT_Visua l_Geometry_Grounded_Tr ansformer_CVPR_2025_p aper.pdf Copyright © 2025 Morpho, Inc. All Rights Reserved. 58
CVPR2025の3D関連論文 Wang et al., “VGGT: Visual Geometry Grounded Transformer” 複数画像入力 1枚画像入力 https://vgg-t.github.io/ 口頭発表で CVPR会場の一室のノート PCによる再構成結果を共有 → 高速・軽量をアピール Copyright © 2025 Morpho, Inc. All Rights Reserved. 59
CVPR2025の3D関連論文 Li et al., “MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos” ● 他のアプローチ ● MegaSaM (Best Paper Honorable Mentions🥈) ○ 「静的シーン」「十分広い視差」の制約を克服 したSfM ○ 学習ベースSfMの発展 ● 動的シーンへの対応 ○ 動体マスク の検出も実施 → 静的背景による安定した推定 ● 低視差シーンの克服 ○ 単眼深度モデル の利用 → 「三角測量」への依存を軽減 https://openaccess.thecvf.com/content/CVPR2025/papers/Li_MegaSaM_Accurate_F ast_and_Robust_Structure_and_Motion_from_Casual_CVPR_2025_paper.pdf Copyright © 2025 Morpho, Inc. All Rights Reserved. 60
CVPR2025の3D関連論文 学習ベース SfM、他のアプローチ ● MegaSaMの結果 https://mega-sam.github.io/index.html Copyright © 2025 Morpho, Inc. All Rights Reserved. 61
前提知識: 3D Gaussian Splatting [Kerbl et al., SIGGRAPH2023] ~NeRFと並ぶ、高品質な 3Dシーン表現の二大潮流~ 2D, 3Dの ガウシアン分布 [1,2] 3D Gaussian Splatting(3DGS)とは ● 色・透明度・形状を持つ粒子 (3D ガウシアン) の集合で、3Dシーン を表現 ● 3Dガウシアンを投影 (スプラッティ ング) することで、「任意視点から の画像」を描画 splatting rendering[3] ⇒ 高品質レンダリングのリアルタイム化へ ● SfMが出力したカメラ位置と疎な点群を入力とし、高密 度な3Dシーンへ最適化する役割 ※より詳細な説明はCVPR 2024技術報告会[4]にあります [1] https://huggingface.co/blog/gaussian-splatting [2] https://en.wikipedia.org/wiki/Multivariate_normal_distribution [3] https://www.youtube.com/watch?v=_wRbq8KnaVg&t=37s [4] https://www.youtube.com/watch?v=uic0Z-Gk7ac&t=1867s Copyright © 2025 Morpho, Inc. All Rights Reserved. 62
CVPR2025の3D Gaussian Splatting関連の主要論文 DIFIX3D+: Improving 3D Reconstructions with Single-Step Diffusion Models [Wu et al.] (Award Candidates(受賞候補)) ● 3DGSの自己修正サイクル ● 学習→レンダリング→修復→再学習 ○ 新規視点画像を拡散モデル で修復 ○ 修復した画像で3DGSを再学習 →生成品質を劇的に改善 https://openaccess.thecvf.com/content/CVPR2025/papers/Wu_DIFIX3D_Improving_ 3D_Reconstructions_with_Single-Step_Diffusion_Models_CVPR_2025_paper.pdf 3D Student Splatting and Scooping (SSS) [Zhu et al.] (Best Paper Honorable Mentions🥈) ● 3DGSの数式を改良し表現力を向上 ● Gaussian→「Student’s t分布」 ○ 分布の尾の広がりを制御可能 ● Scooping(「掬い取る」) ○ マイナスの値も採用 ○ 余分な浮遊物やノイズを除去 →少ない粒子数でも高品質 https://openaccess.thecvf.com/content/CVPR2025/papers/Zhu_3D_Student_ Splatting_and_Scooping_CVPR_2025_paper.pdf Copyright © 2025 Morpho, Inc. All Rights Reserved. 63
CVPR2025の3D関連論文 まとめ: 3D再構成の流れと各論文の立ち位置 画像 SfM No Data 古典的SfM 入力 Pipelineの 置換/強化 画像 No Data 画像 DUSt3R MegaSaM 出力 カメラ位置 3D点群 etc. 変換 修復/改善 DIFIX3D+ 3D表現 出力 Polygon 新規 視点 既存 視点 3DGS SSS NeRF VGGT (直接予測) 既存 視点 新規 視点 既存 視点 Copyright © 2025 Morpho, Inc. All Rights Reserved. 64
CVPR2025のトレンド マルチモーダル Copyright © 2025 Morpho, Inc. All Rights Reserved. 65
マルチモーダルのトレンド CVPR2025の受賞論文7本のうち、二つがマルチモーダル関連! ● Best Paper ○ VGGT: Visual Geometry Grounded Transformer [Jianyuan Wang et al.] ● Best Student Paper ○ Neural Inverse Rendering from Propagating Light [Anagh Malik et al.] ● Best Paper Honorable Mentions ○ MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos [Zhengqi Li et al.] ○ Navigation World Models [Amir Bar et al.] ○ Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models [Matt Deitke et al.] ←マルチモーダル、VLM! ○ 3D Student Splatting and Scooping [Jialin Zhu et al.] ● Best Student Paper Honorable Mention ○ Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [Kaihang Pan et al.] ←マルチモーダル、VLM Copyright © 2025 Morpho, Inc. All Rights Reserved. 66
マルチモーダル (multi-modal) とは https://vnext.co.jp/v-blog/what-is-multimodal-ai.html Copyright © 2025 Morpho, Inc. All Rights Reserved. 67
マルチモーダル応用の可能性 Xie et al., “Large Multimodal Agents: A Survey” https://arxiv.org/abs/2402.15116 Copyright © 2025 Morpho, Inc. All Rights Reserved. 68
マルチモーダルのトレンド ● Embodied AI ○ ○ 現実と相互作用するAI(ロボット、自動運転、エージェントなど) VLM(Visual Language Model)(視覚言語モデル)をベースに、VQA(Visual Question Answering), VLA(Vision-Language-Action)の応用が派生 ● 音声 現実と相互作用! ○ 音声・動画の共同理解 ○ 音声入出力の制御 ● バイアスの対処 ○ 地域、言語、性別、人種、年齢 ○ ○ それ以外のマイノリティ 公平性、透明性 ● 信頼性の向上・幻覚への対処 ● 3Dグラウンディング ○ ○ 言葉と3D空間の結びつけ 前章にも触れた https://arxiv.org/pdf/2505.04769 Copyright © 2025 Morpho, Inc. All Rights Reserved. 69
論文紹介:オープンでパワーフルなマルチモーダルモデル ● [Best Paper] Deitke et al., “Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models” https://arxiv.org/pdf/2409.17146, https://allenai.org/blog/molmo ○ VLMの多くの最先端モデルは非公開情報が多い ■ GPT-4o、Gemini-1.5 Pro、Claude 3.5 Sonnet等 ○ 最先端に匹敵するモデルをオープンソース化 ! ■ 学習データ・学習コード・学習済重み → 研究の透明性と再現性が大幅に向上 ○ PixMo:アノテーション済データセットを作成 ■ 人手による高品質なキャプション ■ Q&A ■ 2Dポインティング ■ ... ○ Molmo:高い精度で多様な視覚タスクをできるVLMを 実現 Copyright © 2025 Morpho, Inc. All Rights Reserved. 70
https://arxiv.org/pdf/2409.17146 Copyright © 2025 Morpho, Inc. All Rights Reserved. 71
論文紹介: Wang et al., “Embodied Scene Understanding for Vision Language Models via MetaVQA” 課題: 従来は静的な学習・評価データセットが多く、AIは「体験的」 な文脈の理解が苦手。その能力評価も困難 。 (例:「もし角を曲がると、何と出会うか?」) 提案:「MetaVQA」:実世界のデータをシミュレータ上で再構築、AIが「体験」できる環境 を提供。 AIへの指示を明確化 した「Set-of-Mark」プロンプトを採用。30種のVQA(質疑応答)を提供 連続的な判断を試すクローズドループ評価 、現実では難しい危険な状況でのストレステストも組み込む 成果: 「体験的なシーン理解能力」 の学習・評価が可能に AIは空間的・時間的な文脈に沿った問いに答えられるように→ より人間に近い方法で3Dシーンを理解 https://openaccess.thecvf.com/content/CVPR2025/papers/Wang_Embodied_Scene_Understanding_for_Vision_Language_Models_via _MetaVQA_CVPR_2025_paper.pdf Copyright © 2025 Morpho, Inc. All Rights Reserved. 72
論文紹介: Chen et al., “Video-Guided Foley Sound Generation with Multimodal Controls” 課題: 従来の「映像に合わせた効果音(フォーリーサウ ンド)を自動生成するAI」は、音の細かな制御が困難 提案: 映像・テキスト・音声情報 を使いDiffusion Transformerを訓練することで、生成する効果音を精密 に制御する手法を開発 映像: 音のタイミングや基本的な種類を決定 テキスト: 「激しく」「静かに」といった音の"質"や"スタイ ル"を指示 参照音声: 手本となる音(例 : 別のワンちゃん)を 入力し、似た音を生成させる 成果: 聴くのが一番 https://ificl.github.io/MultiFoley/ 映像に似合う効果音、効果音の変更、効果音拡張が可 能に https://openaccess.thecvf.com/content/CVPR2025/papers/Chen_Video-Guided_Foley_Sound_Generation_with_ Multimodal_Controls_CVPR_2025_paper.pdf Copyright © 2025 Morpho, Inc. All Rights Reserved. 73
論文紹介: Vayani et al., “All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages” [CVPR 2025 (Highlight) 🔥] ● ● ● ● ● LLMは英語など一部の主要な言語や文化圏に偏り、それ以外の言語をカバーできず ALM-benchベンチマーク :大規模文化データセット・評価フレームワーク 各言語のネイティブスピーカーが800時間以上かけて注釈を付与し、文化的な妥当性と正確性 を確保。 ALM-benchの主な特徴 ○ アフリカ、アジア、ヨーロッパなど世界中のマイナー地域含めて100の多様な言語を対象 ○ 文化的多様性への着目: 文化的に重要な画像とテキストのペアを理解し、推論する能力をテスト。 ○ 多様な質問形式: 正誤問題、多肢選択問題、自由回答問題(短文・長文)を組み合わせ、モデルの能力を多角的に評価。 既存のオープンソースおよびクローズドのLMMで評価 言語のカバーについては ○ GPT-4oなどのクローズドLMMのパフォーマンスが上 Molmoも追いついていない ○ 高リソース言語と低リソース言語の間で性能に大きな格差がある https://openaccess.thecvf.com/content/CVPR2025/papers/Vayani_All_Languages_Matter_Evaluating_LMMs_on_Culturally_Diverse_100_Languages_CVPR_2025_paper.pdf Copyright © 2025 Morpho, Inc. All Rights Reserved. 74
マルチモーダルパート まとめ CVPR2025でのマルチモーダルの発展 ● オープンソース化による技術の民主化 ○ 最先端に匹敵する性能のモデル・学習方法がオープンソース で公開 ● Embodied AI:物理世界を理解し、行動するAI ● 言語・画像だけでなく「音」との連携 ● 公平性の担保やベンチマーク の確立 Copyright © 2025 Morpho, Inc. All Rights Reserved. 75
CVPR2025のトレンド 動画理解・生成 Copyright © 2025 Morpho, Inc. All Rights Reserved. 76
CVPR2025動画理解・生成のトレンド ● 1.長時間動画の認識・生成(効率化・一貫性の担保) ○ ○ ○ ○ 長い動画の中から意味的に重要な部分に注目「SEAL」 [Wang et al.] 長尺動画生成: 「StreamingT2V」は約2分の安定で質の高い動画生成を実現。[Henschel et al.] 軽量モデル: 「SnapGen-V」はモバイルデバイスで高速な動画生成を可能に。[Wu et al.] 効率的なトークン処理: 「BIMBA」は長い動画から重要情報を圧縮し計算コストを削減。[Islam et al.] ● 2.基盤モデル ×動画対応 ○ ○ ○ ○ ○ ○ VideoExpresso(GPT-4o・Claude)[Han et al.] SAMWISE(SAM2)[Cuttano et al.] 設計選択の洞察: 「Apollo」モデルシリーズが高効率・高精度な設計指針を提示。[Zohar et al.] 時間的幻覚の評価: 「VidHalluc」ベンチマークでLLMの時間的推論能力と課題を評価。[Li et al.] VideoQA 音声・動画の共同理解 → マルチモーダル ● 更なる情報の追加 ○ 4D再構築 (時間的要素を含む3D) ○ 物理法則の理解(world Model) Copyright © 2025 Morpho, Inc. All Rights Reserved. 77
長動画理解 Wang et al., “SEAL: Semantic Attention Learning for Long Video Representation” 問題提起~ どれくらい覚えているか? 課題: 長い動画は冗長な情報が多く、AIは処理が大変で重要な点を見逃しがち 提案: 意味的な分解 (Semantic Decomposition): 動画を「シーン・物体・行動」という"意味の塊"に分解 意味的な注意学習 (Semantic Attention Learning): 質問に応じ、関係する塊だけにAIの注意を向けさせる 成果: この「分解して、集中する 」方法で、AIは無駄なく素早く長尺動画を理解 人間の注意力に似てる https://openaccess.thecvf.com/content/CVPR2025/papers/Wang_SEAL_Seman tic_Attention_Learning_for_Long_Video_Representation_CVPR_2025_paper.p df Copyright © 2025 Morpho, Inc. All Rights Reserved. 78
長動画生成 : Henschel et al., “StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text” 課題: 従来のテキストからの動画生成AIは、”一人のランナーが短距離を全力疾走する”ような動画生成 → 数秒〜十数秒程度の短い動画生成が限界 提案手法「StreamingT2V」:リレー走のような動画生成! ①ストリーミング方式: 動画を一度に全部作るのではなく、短い動画(キーフレーム)を少しずつ生成し、それらを滑らかにつなげていく方式を開 発。 ②一貫性の維持: リレーの第1走者(最初に生成した16フレーム)を見本に参照し続ける ③ブレンディング: 断片間のブレンディングによりつなぎ目を綺麗につなげ、原理的には無限に長い動画生成できる 成果: テキスト指示に基づき、「動画の停滞」に影響されず 、一貫性があり動きも自然の動画を2分以上達成 "Wide shot of battlefield, stormtroopers running..." 1200 FRAMES @ 2 MINUTES ①短期記憶 (CAM) 直前の16フレーム参照に生成 https://streamingt2v.github.io/ ③つなぎ目を綺麗に仕上げる "Flying through nebulas and stars." 240 FRAMES @ 24 SECONDS https://arxiv.org/pdf/2403.14773 ②長期記憶 (APM) 最初の16フレームからぶれずに生成 Copyright © 2025 Morpho, Inc. All Rights Reserved. 79
基盤モデルの動画対応 Han et al., “VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection” 課題: 多くの動画AI推論は、「なぜその結論に至ったのか」という思考プロセスが不明確。 長い動画から重要な瞬間だけを見極めるのが困難 提案: データセット「VideoEspresso」: 動画の内容について、思考の連鎖(Chain-of-Thought)形式で段階的な説明と、その 根拠となる主要フレームをセットにした大規模データセットを構築 成果: AIは少ない情報量で、より正確かつ論理的に動画を理解、特に推論の透明性が大幅に改善 https://openaccess.thecvf.com/content/CVPR2025/papers/Han_VideoEspresso_A_Large-Scale_Chain-of-Thought_Dataset_for_Fine-Grained_Video_Reasoning_via_CVPR_2025_paper.pdf Copyright © 2025 Morpho, Inc. All Rights Reserved. 80
基盤モデルの動画対応 Cuttano et al., “SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation” ● 課題: 動画追跡の基盤モデルSAM2(Segment Anything Model2)は、テキストの指示を理解できず、一度 追跡した対象に固執してしまう弱点がある ● 提案: SAM2本体は改造せず、言語を理解し、追跡対象を賢く修正する軽量な追加モジュール「WISE」を 開発 ● 成果: わずかな改良で、テキスト指示による動画内のオブジェクト切り出し→ 最高性能(SOTA)を達成 https://openaccess.thecvf.com/content/CVPR2025/papers/Cuttano_SAMWISE_I nfusing_Wisdom_in_SAM2_for_Text-Driven_Video_Segmentation_CVPR_2025 _paper.pdf Copyright © 2025 Morpho, Inc. All Rights Reserved. 81
動画理解・生成編まとめ ● 長時間動画の認識・生成 ○ SEAL:長い動画の中から意味的に重要な部分に注目 ○ StreamingT2V:ストリーミング型アーキテクチャにより、2分以上の長尺動画 生成を初めて実現 ● 基盤モデル×動画対応 ○ VideoExpresso:基盤モデルのChain-of-Thoughtを利用したマルチモーダ ルな長期文脈理解 に強みを持つ動画データセット。 ○ SAMWISE:Segment Anythingの強化版。カメラショットが切り変わる動画 でもテキスト指示に沿って対象を継続的に追跡 Copyright © 2025 Morpho, Inc. All Rights Reserved. 82
よかった研究 Rip Currents Video Instance Segmentation Benchmark 課題:離岸流は形状が常に変化し、AIでの特定が困難。学習用の大規模なビデオデータセットが存在しなかった。 提案:この課題に対し、多様な映像ソース(ドローン、スマホ等)からなる世界最大級の離岸流検出ベンチマーク「RipVIS」を 構築。たくさんの動画用意したのに3年頑張ってた 意義:本ベンチマークにより、離岸流検出AIの開発と性能改善が加速。将来のリアルタイム自動警告システムの実現を促し、 水難事故の防止への期待 発表素者は真摯の方で、離岸流から逃げるアプリを作ってた リンクとデータコンペICCV 2025 Challenge https://ripvis.ai/ https://openaccess.thecvf.com/content/CVPR2025/papers/Dumitriu_RipVIS_Rip_Currents_Video_Instance_Segmentation_Benchmark_for_Beach_Monitoring_CVPR_2025_paper.pdf Copyright © 2025 Morpho, Inc. All Rights Reserved. 83
山口・鈴木 モルフォ視点で CVPRテクニカル・ディープダイブ Copyright © 2025 Morpho, Inc. All Rights Reserved. 84
CVPRテクニカル・ディープダイブ ● 新世代のアーキテクチャ Mambaの動向 ○ 新手法として今年の CVPRのサブトピックとなった ”Mamba”をご紹介 ● CVPRのWorkshopの報告 ○ NTIRE : New Trends in Image Restoration and Enhancement workshop and associated challenges Copyright © 2025 Morpho, Inc. All Rights Reserved. 85
新世代のアーキテクチャ Mambaの動向
Mambaとは CVPR2025の全論文タイトル中の 1位~15位 15位~30位 急上昇ワード(再掲) Mambaの関連ワードは ● mamba(27位) ● space(15位) ● state(23位) ※abstractまで見ると “Mamba”関連論文は65本 (去年は0本) Copyright © 2025 Morpho, Inc. All Rights Reserved. 87
Mambaとは Mambaの仕組みの大枠を紹介 https://arxiv.org/pdf/2312.00752 ● Mamba: Linear-Time Sequence Modeling with Selective State Spaces [Gu and Dao, COLM2024] ● 構成要素:Selective SSM(Space State Model) ○ 系列データ 処理のSSMの発展 ○ 入力に応じた切り替え による高い表現力 ● GPUの性質を考慮した高速処理 ○ 計算量・メモリは系列長に対して「線形」 ○ 賢い並列化+GPUの”SRAM”活用 ■ Transformerより軽く・速い ● Mamba: ○ これらを取り入れた新アーキテクチャ ○ 高速処理可能、性能もTransformerに迫る 入力系列 出力系列 隠れ状態 Selective SSMの式の例 上図:状態空間モデルの模式図 https://medium.com/@wilburdes/along-comes-amamba-an-evolution-in-sequence-models-based -on-state-space-models-2bd3d0e02d86 Copyright © 2025 Morpho, Inc. All Rights Reserved. 88
Mambaとは Mambaの仕組みの大枠を紹介 https://arxiv.org/pdf/2312.00752 ● “Mamba”アーキテクチャ ○ Selective SSM、線形層、畳み込み層 ○ このアーキテクチャーを積み重ねてモデル構成 ● Mambaの性能 ○ 言語分野で、同条件のTransformerと同等以上 ○ 処理速度・メモリ効率では優位性が明確 ■ 入力系列が長くても、計算量とメモリ使用量が抑えられる Copyright © 2025 Morpho, Inc. All Rights Reserved. 89
Mambaとは Mamba(毒蛇)という名前の由来 ①蛇のように素早いモデル ②毒蛇のようにdeadly(時系列モデリングの問題を終わらせる) ③S4(先行のSSM)の進化系なのでssss....(sが沢山=蛇の鳴き声 の擬音) Mamba主著者Gu氏のポスト https://x.com/_albertgu/status /1731727694809723364 Copyright © 2025 Morpho, Inc. All Rights Reserved. 90
Mambaの原理を詳しめに紹介 🥵難易度:高 Mamba 詳しめの概要 入力系列 ● 基礎:構造化状態空間系列モデル ○ Structured State Space Sequence Model ○ “S4”や”(structured) SSM”と呼ばれる ○ LSTMやRNNと同じく再帰的な推論 ○ 行列積(線形演算 )が基本で非線形層を挟まない 出力系列 隠れ状態 SSMの式の例 ● Mambaの基本要素:Selective structured SSM ○ 行列のパラメタが入力に応じて変化 ○ 入力 を学習した線形層に入れAt, Bt, Ctを計算 Selective SSMの式の例 Copyright © 2025 Morpho, Inc. All Rights Reserved. 91
Mambaの原理を詳しめに紹介 🥵難易度:高 Mambaの特徴 ①表現力の向上 入力系列 出力系列 隠れ状態 ● 行列のパラメタAt,Bt,Ctが入力に応じて変化 ○ 「どの要素をどれだけ記憶するか」 ○ 「どの要素をどれだけ出力に反映するか」 を入力データに応じて選択的に変更 →Attentionのように「文脈に応じた情報の取捨選択 」 SSMの式の例 →表現力の大幅向上、タスクによってはTransformerと競合 Selective SSMの式の例 Copyright © 2025 Morpho, Inc. All Rights Reserved. 92
Mambaの原理を詳しめに紹介 🥵難易度:高 Mambaの特徴 ②高速化の工夫 ● Parallel Scan ○ 再帰計算の並列化 ○ 「分割統治法」的な計算 図:カーネル融合 ● Kernel Fusion https://www.maartengrootendorst.com/blog/mamba/#part-2-the-state-space-model-ssm ○ 基本処理を単一の命令に融合 し、高速なSRAM上で一括実行 ○ メモリI/Oのボトルネックを解消 し、大幅に高速化 ○ ※Kernel:GPUで動くプログラム計算の単位 ● Recomputation (再計算) ○ 学習時に、逆伝播の中間状態を保存せず再計算 ○ メモリ使用量を大幅に削減 ○ ※TransformerにおけるFlashAttentionと類似の技術 Copyright © 2025 Morpho, Inc. All Rights Reserved. 93
Mambaの原理を詳しめに紹介 Mambaの計算効率 ※入力の系列長Lに対するオーダー表記 参考:佐藤竜馬 著「深層ニューラルネットワークの高速化」 P.168 Mambaの特徴 ③理論的な計算量・メモリ使用量の軽さ(線形) コスト RNN O(L) Transformer O(L2) Mamba O(L) 計算量 逐次入力 (逐次処理) 例:文章生成 の推論時 O(1) O(L) 1回つ前のみ記憶 ※KV-キャッシュ O(1) 1つ前のみ記憶 O(L) O(L) O(L) O(L) O(L2) O(L) O(L) メモリ使用量 O(L) O(L) ※Flash-Attention O(L) 直列計算回数 並列化が困難 O(1) 並列計算に適合 メモリ使用量 直列計算回数 計算量 一括入力 (並列処理) 例:学習時、 画像の推論 O(logL) Parallel Scan Copyright © 2025 Morpho, Inc. All Rights Reserved. 94
Mambaの原理を詳しめに紹介 Mambaの計算効率 ※入力の系列長Lに対するオーダー表記 参考:佐藤竜馬 著「深層ニューラルネットワークの高速化」 P.168 Mambaの特徴 ③理論的な計算量・メモリ使用量の軽さ(線形) コスト RNN O(L) Transformer O(L2) Mamba O(L) 計算量 逐次入力 (逐次処理) 例:文章生成 の推論時 O(1) O(L) 1回つ前のみ記憶 ※KV-キャッシュ O(1) 1つ前のみ記憶 O(L) O(L) O(L) O(L) O(L2) O(L) O(L) メモリ使用量 O(L) O(L) ※Flash-Attention O(L) 直列計算回数 並列化が困難 O(1) 並列計算に適合 メモリ使用量 直列計算回数 計算量 一括入力 (並列処理) 例:学習時、 画像の推論 並列化が 鍵! O(logL) Parallel Scan Copyright © 2025 Morpho, Inc. All Rights Reserved. 95
Mambaの画像への適用 Zhu et al., “Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model” ICML2024 ● Mambaは「系列を扱う」=「データを順番に読み込む」 ○ (順序の無い)画像への適用は工夫が必要 ● “Vision Mamba”(Vim) ICML2024 ○ 画像をパッチに分ける ○ 順・逆の双方向スキャン でMambaに対応 ○ 代表的なVision Transformerを上回る性能 ■ ImageNetの分類 ■ COCOの物体検出 ■ ADE20kのセマンティックセグメンテーション https://arxiv.org/pdf/2401.09417 ○ 計算効率・メモリ効率でも大幅に改善 ■ 例:VimはDeiTよりも2.8倍高速で、GPUメモリ使用量を86.8%削減 Copyright © 2025 Morpho, Inc. All Rights Reserved. 96
CVPRのMamba論文(65本)のトピック https://openaccess.thecvf.com/content/CVPR2025/paper s/Shaker_GroupMamba_Efficient_Group-Based_Visual_ State_Space_Model_CVPR_2025_paper.pdf 1. Mambaの2D画像に対する性能向上 a. 2D画像に最適な「スキャン方向」の探求 b. CNNやTransformerとのハイブリッド化 2. Mambaの強みを活かした実タスク適用 a. 大規模データ(時系列・多次元)の処理 b. マルチモーダル情報の融合 c. 構造的・順序的なデータのモデリング https://arxiv.org/pdf/2412.09856 Copyright © 2025 Morpho, Inc. All Rights Reserved. 97
1. Mambaの2D画像に対する性能向上 1-a. 2D画像に最適な「スキャン方向」の探求 ● 固定・多方向スキャン(繋がりを意識) ○ MaIR [Li et al.] ■ 小パッチに分けてからスキャン ○ GroupMamba [Shaker et al.] ■ 4方向でスキャンし、結合 ○ LC-Mamba [Jeong and Rhee] ■ ヒルベルト曲線 ● データ駆動型 の動的スキャン ○ Samba [He et al.] ■ 重要度をマスクとして学習 ○ TSP-Mamba [Zhou et al.] ■ 巡回セールスマン問題 ○ GG-SSMs [Zubic and Scaramuzza] ■ 最小全域木アルゴリズム [1] 様々なMambaのスキャン方向 [2] Sambaの動的スキャン [1]https://openaccess.thecvf.com/content/CVPR2025/papers/Li_MaIR_A_Locality-_and_Continuity-Preserving_Mamba_for _Image_Restoration_CVPR_2025_paper.pdf [2]https://openaccess.thecvf.com/content/CVPR2025/papers/He_Samba_A_Unified_Mamba-based_Framework_for_Ge neral_Salient_Object_Detection_CVPR_2025_paper.pdf Copyright © 2025 Morpho, Inc. All Rights Reserved. 98
1. Mambaの2D画像に対する性能向上 1-b. CNNやTransformerとのハイブリッド化 Mambaと他のアーキテクチャの融合 ● CNN (局所) と Mamba (大域) の役割分担 ○ MobileMamba [He et al.] ■ CNNとSSMを並列にしたモデル構造 ● Transformerとのハイブリッド ○ MambaVision [Hatamizadeh and Kautz] ■ Ablation Studyで最適な配置を発見 ● 各ステージの前半部分にMamba ● 後半にTransformer(self-attention) 図:MambaVision https://arxiv.org/pdf/2407.08083 Copyright © 2025 Morpho, Inc. All Rights Reserved. 99
2. Mambaの強みを活かした実タスク適用 2-a. 大規模データ(時系列・多次元)の処理 ● 動画・時系列データ ○ TV3S [Hesham et al.] ■ 過去フレームの重要な情報 だけ効率的に次フレームへ伝搬 ○ MANTA [Zatsarynna et al.] https://openaccess.thecvf.com/content/CVPR2 ■ 長時間動画の依存関係 を捉えた行動認識 025/papers/Hesham_Exploiting_Temporal_St ate_Space_Sharing_for_Video_Semantic_Seg ○ LinGen [Wang et al.] mentation_CVPR_2025_paper.pdf ■ 計算量を抑えた長時間動画生成 ○ MambaVO [Wang et al.] ■ ビジュアルオドメトリ ● ギガピクセル級 の病理画像(WSI) ○ 2DMamba [Zhang et al.] ○ M3amba [Zheng et al.] ● 3Dデータ ○ OccMamba [Li et al.] ■ ボクセル 特徴量 ○ Mamba4D [Liu et al.] 図:TV3Sのアーキテクチャ ■ 3D点群の時系列 100 Copyright © 2025 Morpho, Inc. All Rights Reserved.
2. Mambaの強みを活かした実タスク適用 2-b. マルチモーダル情報の融合 複数の異なるモダリティを効率的に統合 ● 複数の入力データ(画像・文章・その他) ○ AlignMamba [Li et al.] ■ 視覚+文章+音声 ○ MambaVLT [Liu et al.] ■ 言語+画像 ○ MamTrack [Sun et al.] ■ RGB+Event based camera ○ All-Day Multi-Camera Multi-Target Tracking [Fan et al.] ■ RGB+赤外線 ● 複数の基盤モデルからの出力特徴量 ○ Mamba as a Bridge [Zhang and Tan] ■ 視覚(DINO-v2)と視覚言語(CLIP等) ○ COBRA [Lenz et al.] ■ 病理画像用の複数のモデル 図:AlignMamba https://openaccess.thecvf.com/content/CVPR2025/p apers/Li_AlignMamba_Enhancing_Multimodal_Mam ba_with_Local_and_Global_Cross-modal_Alignment _CVPR_2025_paper.pdf Copyright © 2025 Morpho, Inc. All Rights Reserved. 101
2. Mambaの強みを活かした実タスク適用 2-c. 構造的・順序的なデータのモデリング データが持つ自然な「順序」や「繋がり」に沿ってMambaで処理 ● グラフ構造 ○ Reasoning Mamba [Wang et al.] (物体部品のハイパーグラフ) ○ MV-SSM [Chharia et al.] (人体の関節) ● 階層構造 ○ Hierarchical Gaussian Mixture Model Splatting [Yang et al.] ■ 3D点群を「点→パーツ」の階層の木構造として処理 ■ 木構造が非常に長い系列となり、Mambaの処理能力が効果を発揮 図:Hierarchical Gaussian Mixture Model Splatting https://openaccess.thecvf.com/cont ent/CVPR2025/papers/Yang_Hierar chical_Gaussian_Mixture_Model_S platting_for_Efficient_and_Part_Co ntrollable_CVPR_2025_paper.pdf Copyright © 2025 Morpho, Inc. All Rights Reserved. 102
まとめ CVPRにおけるMambaの動向 ● CNNやViTに並ぶ新たな画像用アーキテクチャを目指す研究が進展 ○ 特にスキャン方向の最適化 が主要なテーマ ● Mambaの特性を活かしたタスクへの応用 ○ 大規模・多様な入力データ への適応性 ■ メガピクセル画像や多次元データ ■ マルチモーダル な特徴の統合処理 ○ 従来RNNやLSTMが担ってきた「順序のあるデータの処理 」 ■ 時系列やグラフ構造 ● CNNやViTとのハイブリッド化 によるポテンシャル Copyright © 2025 Morpho, Inc. All Rights Reserved. 103
Workshops & Tutorials
Workshops & Tutorials 6/11(水),12(木) の2日間で開催 Tutorials 特定の分野を体系的に勉強可能 ● ● 教育的な内容 最先端の研究の紹介 Workshops 実験的・挑戦的な発表が中心 ● ● 研究機関・企業との連携 コンペティション形式 ~50の部屋で同時に開催 途中入室・退席が可能 スケジュールを公開しているところは、見た いタイミングだけ参加可能 それでも全部は見れない … Copyright © 2025 Morpho, Inc. All Rights Reserved. 105
NTIRE 2025 NTIRE : New Trends in Image Restoration and Enhancement workshop and associated challenges → 『画像復元』『画質向上』 2016年から毎年開催し、今年で10回目 コンペ形式で、企業・学生・個人で参加可能 テーマは産業からのニーズと密接に関連 例) SRには複数のセクションが存在 ● Efficient:高効率モデルの探索 ● General:制限が緩い 大企業からの参加 ByteDance, Microsoft, OPPO, Samsung AI, .. https://www.cvlai.net/ntire/2025/ Copyright © 2025 Morpho, Inc. All Rights Reserved. 106
NTIRE 2025 2024 テーマ 2025 テーマ ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Dense and Non‑Homogeneous Dehazing Night Photography Rendering Blind Enhancement of Compressed Image Shadow Removal Image Super‑Resolution Light Field Image Super‑Resolution Stereo Image Super‑Resolution HR Depth from Specular & Transparent Surfaces Bracketing Image Restoration & Enhancement Portrait Quality Assessment Quality Assessment for AI‑Generated Content Restore Any Image Model in the Wild RAW Image Super‑Resolution Short‑form UGC Video Quality Assessment Low Light Image Enhancement RAW Burst Alignment & ISP Challenge (16) ➔ ➔ テーマの種別は増加傾向 ノイズ除去や超解像は昔からのテーマ Night Photography Rendering Light Field Image Super-Resolution HR Depth from Specular & Transparent Surfaces UGC Video Enhancement Text-to-Image Generation Model Quality Assessment Video Quality Enhancement for Video Conferencing UGC Video Quality Assessment and Enhancement Short-form UGC Video Quality Assessment & Enhancement Day & Night Raindrop Removal for Dual-Focused Images Efficient Burst HDR & Restoration Reflection Removal in the Wild Shadow Removal Ambient Light Normalization Image Super-Resolution Event-Based Image Deblurring Real‑World Face Restoration Image Denoising XGC Quality Assessment Restore Any Image Model in the Wild Low Light Enhancement RAW Restoration Challenge Raw Image Reconstruction from sRGB Cross-Domain Few-Shot Object Detection (23) Copyright © 2025 Morpho, Inc. All Rights Reserved. 107
NTIRE 2025 新規に追加されたテーマ ● ● ● ● ● ● ● ● ● ● Real‑World Face Restoration Event-Based Image Deblurring Text-to-Image Generation Model Quality Assessment Ambient Light Normalization Video Quality Enhancement for Video Conferencing Day & Night Raindrop Removal for Dual-Focused Images Reflection Removal in the Wild XGC Quality Assessment Raw Image Reconstruction from sRGB Cross-Domain Few-Shot Object Detection Copyright © 2025 Morpho, Inc. All Rights Reserved. 108
NTIRE 2025 新規に追加されたテーマ ● ● ● ● ● ● ● ● ● ● Real‑World Face Restoration Event-Based Image Deblurring Text-to-Image Generation Model Quality Assessment Ambient Light Normalization Video Quality Enhancement for Video Conferencing Day & Night Raindrop Removal for Dual-Focused Images Reflection Removal in the Wild XGC Quality Assessment Raw Image Reconstruction from sRGB Cross-Domain Few-Shot Object Detection Raindrop Removal: BIT ssvgg チーム Raindrop Removal (Derain) = 写真に写った雨粒を除去 Reflection Removal = ガラス面の反射を除去 以前は、NoiseReductionのような基本的なタスク → 画像全体のコンテキストを含む、より複雑なタスクへ移行 Reflection Removal Copyright © 2025 Morpho, Inc. All Rights Reserved. 109
NTIRE 2025 新規に追加されたテーマ ● ● ● ● ● ● ● ● ● ● Real‑World Face Restoration Event-Based Image Deblurring Text-to-Image Generation Model Quality Assessment Ambient Light Normalization Video Quality Enhancement for Video Conferencing Day & Night Raindrop Removal for Dual-Focused Images Reflection Removal in the Wild XGC Quality Assessment Raw Image Reconstruction from sRGB Cross-Domain Few-Shot Object Detection Raw画像とは? カメラセンサーから出てきた、そのままのデータ Bayer formatが多い いくつかの処理を通すことでRGBに変換可能 Black Level, Demosaic, White Balance, Gamma, .. → RGB画像からRaw画像を生成するタスク 去年との共通の課題 ● ● Efficient Burst HDR & Restoration (連写Raw画像の合成) RAW Restoration Challenge (1枚Raw画像の画質向上) と合わせて、Raw画像の処理に注目が集まっている https://en.wikipedia.org/wiki/Bayer_filter Copyright © 2025 Morpho, Inc. All Rights Reserved. 110
NTIRE 2025 Challenge on Real-World Face Restoration https://arxiv.org/abs/2504.14600 劣化した顔の画像を修復するタスク(新規追加テーマ) ● ● ボケた画像 古い写真 コンペ形式で開催 ● ● ● 参加チーム総数:141 モデルを提出したチーム:13 要件を満たしたモデルを提出したチーム:10 [評価方法] 1. 2. 入力と出力が同じ人間であることを保証するため! AdaFaceを利用し、顔の特徴を損なわないことが前提 独自のスコア関数を使用 Copyright © 2025 Morpho, Inc. All Rights Reserved. 111
NTIRE 2025 Challenge on Real-World Face Restoration チャレンジ参加者に共通した手法 1. 2. CNN or Transformerで画像を復元した後、Diffusionで綺麗にする GAN, Diffusion, VAE, Transformer等を組み合わせることで高い性能を発揮 手法 Transformer Diffusion 強み 顔の特徴を維持することが可能 細部にわたるまで高い画質 弱み 細かい失敗が見られる 顔の特徴を損なうケースが存在 Copyright © 2025 Morpho, Inc. All Rights Reserved. 112
NTIRE 2025 Challenge on Real-World Face Restoration AllForFace 今コンペにて1位のスコアを獲得 処理の流れを3段階に分割 [subtask 1] 画像の大幅な改善 (GAN) ● ● 別人にならないように改善 細かいテクスチャに違和感 Copyright © 2025 Morpho, Inc. All Rights Reserved. 113
NTIRE 2025 Challenge on Real-World Face Restoration AllForFace 今コンペにて1位のスコアを獲得 処理の流れを3段階に分割 [subtask 1] 画像の大幅な改善 (GAN) [subtask 2] 不自然なテクスチャの修正 (Diffusion) ● ● 違和感のあるテクスチャを復元 必要以上に綺麗なテクスチャを生成 Copyright © 2025 Morpho, Inc. All Rights Reserved. 114
NTIRE 2025 Challenge on Real-World Face Restoration AllForFace 今コンペにて1位のスコアを獲得 処理の流れを3段階に分割 [subtask 1] 画像の大幅な改善 (GAN) [subtask 2] 不自然なテクスチャの修正 (Diffusion) [subtask 3] 自然なテクスチャの生成 (VAE, Dino v2) ● 自然なテクスチャを再現 手法毎の特徴を捉え、強みを生かした利用 Copyright © 2025 Morpho, Inc. All Rights Reserved. 115
NTIRE 2025 まとめ 毎年CVPRに合わせて開催 ● ● 年々テーマが拡大 参加者も増加傾向 産業分野との連携 ● ● ニーズの変化に合わせたテーマ設定 企業のリサーチ部門からの参加 結果を論文として投稿 ● ● トレンドの紹介 各手法の紹介 100以上のWorkshop、26のTutorial → 興味のあるテーマはきっとあるはず! Copyright © 2025 Morpho, Inc. All Rights Reserved. 116
まとめ 1. CVPRとは何か、なぜ重要なのか ○ AIブームの最先端を走ってきた CV分野で最高峰の国際学会 ○ 年々増加する論文数、世間のトレンドにマッチした分野の拡大 2. CVPR2025のトレンド ○ 全論文タイトルからトレンドワード抽出 ○ CVPR2025におけるトピックの動向を紹介 ■ ■ ■ 3D再構成 動画の認識・生成 マルチモーダル AIの発展 3. モルフォ目線テクニカルディープダイブ ○ 新アーキテクチャー ”Mamba”の動向 ○ Workshop:NTIREチャレンジの紹介 Copyright © 2025 Morpho, Inc. All Rights Reserved. 117