JDLA主催「CVPR2023技術報告会」 コンピュータビジョン技術の最前線

>100 Views

August 10, 23

スライド概要

https://techblog.morphoinc.com/entry/2023/08/10/100030

profile-image

モルフォは“画像処理×AI技術”の研究開発型企業として、ソフトウェア事業をグローバルに展開しています。テックブログにて画像処理・AIに関する情報をお届けしています。 ・コーポレートサイト:https://www.morphoinc.com/ ・テックブログ:https://techblog.morphoinc.com/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

CVPR2023 技術報告会 コンピュータビジョン技術の最前線 2023/07/25 株式会社モルフォ

2.

はじめに 1. はじめに・株式会社モルフォのご紹介 (約10分) 2. CVPRとは何か、なぜ重要か、ビジネスパーソン向けCVPR入門 (約15分) 3. 今年のCVPRのトレンド:モルフォ視点で注目の分野・論文のご紹介 (約30分) 4. モルフォ視点で注目論文ディープダイブ (約30分) Copyright © 2023 Morpho, Inc. All Rights Reserved. 1

3.

株式会社モルフォのご紹介 Copyright © 2023 Morpho, Inc. All Rights Reserved. 2

4.

株式会社モルフォについて 2004 2011 創業 代表取締役社長 平賀 督基 5 カ国 海外展開 143 東証マザーズ上場 グループ社員 169 53 特許 海外売上比率 % Masaki Hilaga 画像処理 / AI技術の研究・製品開発 スマートデバイス、車載/モビリティ、DX領域向けに ソフトウェア事業をグローバルに展開 19.9 グループ売上 億 24 % 研究開発費率 Copyright © 2023 Morpho, Inc. All Rights Reserved. 3

5.

事業領域 先進のイメージイング・テクノロジーにより、利便性・安心安全・生産性の向上に貢献する ・スマートフォン ・PC/タブレット端末 スマート デバイス ・車載カメラ ・ドライブレコーダー ・OCR ・監視カメラ 等 車載 モビリティ DX Copyright © 2023 Morpho, Inc. All Rights Reserved. 4

6.

提供サービス お客様の課題解決のための最適化な手法を提案し、製品価値向上に技術で貢献します 技術ライセンス 受託開発 共同研究開発 スマートフォン・半導体メーカー を中心に画像処理・AI技術をラ イセンス提供 国立国会図書館向けOCR処 理プログラム研究開発の受託 など多数の実績あり 株式会社デンソーとの 高度運転支援システムに関 わるプロジェクト等 Copyright © 2023 Morpho, Inc. All Rights Reserved. 5

7.

AI活用事例のご紹介 Copyright © 2023 Morpho, Inc. All Rights Reserved. 6

8.

技術ライセンス|スマートフォン・SoCメーカーへ提供 高画質な写真・動画をスマートフォンで撮影可能に。累計37億ライセンス出荷 手ブレ補正・ノイズ除去・背景ぼかし等、画像処理技術とAIを融合したImaging AIを 世界中のスマートフォン、PC、SoCメーカーへ提供。 セマンティックラベルを活用した画像処理 Copyright © 2023 Morpho, Inc. All Rights Reserved. 7

9.

受託開発|国立国会図書館 OCR処理プログラムの研究開発の委託事業 明治期~昭和期の書籍画像(2億枚)のテキスト化処理。 モルフォの最新AI技術・画像処理技術を取り入れた OCR処理プログラムの研究開発を実施。 ●多様なレイアウト・文字種に対応し、明治期~昭和期 までの複雑な資料のテキスト化を実現。 ●国立国会図書館デジタルアーカイブで歴史的資料も 全文テキスト検索が可能に。 Copyright © 2023 Morpho, Inc. All Rights Reserved. 8

10.

モルフォは画像処理とAI技術領域に特化した ソフトウェア研究開発カンパニーです Copyright © 2023 Morpho, Inc. All Rights Reserved. 9

11.

CVPRとは何か、なぜ重要か、ビジネスパーソ ン向けCVPR入門 Copyright © 2023 Morpho, Inc. All Rights Reserved. 10

12.

CVPRとは? Copyright © 2023 Morpho, Inc. All Rights Reserved. 11

13.

CVPRとは? 初回は1983年にT.KanadeとD.Balladが開催 毎年、6月から7月頃に開催されるComputer Vision系の国際会議 画像:https://cvpr.thecvf.com/media/cvpr-2023/Slides/23313.pdf 開催地はアメリカ国内だったが今年は初のカナダ・バンクーバーでの開催 CVPR Conference on Computer Vision and Pattern Recognition Copyright © 2023 Morpho, Inc. All Rights Reserved. 12

14.

CVPRとは? 人間の目と脳が持つ高次視覚機能を理解し、 コンピュータによる再現・実証を目指す分野 画像:https://cvpr.thecvf.com/media/cvpr-2023/Slides/23313.pdf CVPR Conference on Computer Vision and Pattern Recognition 国際会議 コンピュータービジョン パターン認識 Copyright © 2023 Morpho, Inc. All Rights Reserved. 13

15.

CVPRとは コンピュータビジョンの国際学会です。 Copyright © 2023 Morpho, Inc. All Rights Reserved. 14

16.

CVPRってそんなに重要なの? Copyright © 2023 Morpho, Inc. All Rights Reserved. 15

17.

ネットで調べるだけで十分なのでは? Copyright © 2023 Morpho, Inc. All Rights Reserved. 16

18.

そんな風に考えてた時期が私にもありました Copyright © 2023 Morpho, Inc. All Rights Reserved. 17

19.

なぜ重要か? Copyright © 2023 Morpho, Inc. All Rights Reserved. 18

20.

CVPRは 祭 だから 画像:https://unsplash.com/ja/%E5%86%99%E7%9C%9F/5mj5jLhYWpY Copyright © 2023 Morpho, Inc. All Rights Reserved. 19

21.

CVPRは未来を決めるコンピュータビジョンの祭典 世界中から一流の研究者が集まる一大イベント 誰でも楽しめるようなプログラム 画像:https://unsplash.com/ja/%E5%86%99%E7%9C%9F/5mj5jLhYWpY Copyright © 2023 Morpho, Inc. All Rights Reserved. 20

22.

なぜそう言えるのか? 今からご説明いたします。 Copyright © 2023 Morpho, Inc. All Rights Reserved. 21

23.

研究者から見たCVPR Copyright © 2023 Morpho, Inc. All Rights Reserved. 22

24.

研究成果を発表したい ● 自らの研究成果を、論文として発表したい ● 査読や掲載料が手ごろな場所もあるが、閲覧が有料で多くの人に届かない すごい研究成果が出た! 世界中の人に使ってもらいた い! Copyright © 2023 Morpho, Inc. All Rights Reserved. 23

25.

OA誌, pre printとしてへの投稿 ● OA誌へ, またはpre printとしての投稿 ● OA誌は多くの人に閲覧されるが、掲載に関す費用(APC)や粗悪学術誌などの問題もある ● arXivは無料で投稿・閲覧できるが、膨大な数の論文がアップロードされており埋もれやすい ○ 査読オプションは無いので研究の価値を直接測ることは難しい Copyright © 2023 Morpho, Inc. All Rights Reserved. 24

26.

学会の重要性 ● ● ● ● 査読が厳しく、発表自体が大きな成果となる 世界的な研究者とのコミュニケーションの機会 論文の引用数や競合研究との関連性が示せる 自身の研究への参考や将来研究へのアイデアの獲得 CVPR reference refe ren ref ere ce nc e Copyright © 2023 Morpho, Inc. All Rights Reserved. 25

27.

学会の重要性 ● ● ● ● 査読が厳しく、発表自体が大きな成果となる 世界的な研究者とのコミュニケーションの機会 論文の引用数や競合研究との関連性が示せる 自身の研究への参考や将来研究へのアイデアの獲得 CVPR reference refe ren コンピュータービジョンにおける学術的な祭典 ref ere ce nc e Copyright © 2023 Morpho, Inc. All Rights Reserved. 26

28.

ビジネスパーソンから見たCVPR Copyright © 2023 Morpho, Inc. All Rights Reserved. 27

29.

ビジネスパーソンから見たCVPR ● 厳選された最先端かつ実用的な研究に触れる機会 ● 専門分野を掘り下げるセッション ○ Workshop ● 分野初心者向けのプログラムで新規参入へのアイデアに ○ Tutorial ● グローバルなネットワークの構築 問題解決のための技術や 新規事業のアイデアが得られる “画像処理のお祭り” Copyright © 2023 Morpho, Inc. All Rights Reserved. 28

30.

たしかに、国際学会は大事! Copyright © 2023 Morpho, Inc. All Rights Reserved. 29

31.

こんな疑問を持つかもしれません。 Copyright © 2023 Morpho, Inc. All Rights Reserved. 30

32.

別にCVPRじゃなくてもいいんじゃないの? Copyright © 2023 Morpho, Inc. All Rights Reserved. 31

33.

AI関連の国際会議 画像処理の 国内会議だと MIRU が有名 現在開催中です…! 出典:https://www.kamishima.net/archive/MLDMAImap.pdf Copyright © 2023 Morpho, Inc. All Rights Reserved. 32

34.

Google Scholar Metricsによる学術誌ランキング 出版物 Rank h5-index ※ h5-median ※ 1. Nature 444 667 2. The New England Journal of Medicine 432 780 3. Science 401 614 ・・・ 出典: https://scholar.google.com/citations?view_op=top_venues ※2017 - 2021年を対象 Copyright © 2023 Morpho, Inc. All Rights Reserved. 33

35.

Google Scholar Metricsによる学術誌ランキング CVPRは過去4年間で389回以上引用された論文数が389本以上(h5-index) 出版物 Rank h5-index ※ h5-median ※ 1. Nature 444 667 2. The New England Journal of Medicine 432 780 3. Science 401 614 4. IEEE/CVF Conference on Computer Vision and Pattern Recognition 389 627 5. The Lancet 354 635 6. Advanced Materials 312 418 7. Nature Communications 307 428 8. Cell 300 505 9. International Conference on Learning Representations 286 533 10. Neural Information Processing Systems 278 436 出典: https://scholar.google.com/citations?view_op=top_venues ※2017 - 2021年を対象 Copyright © 2023 Morpho, Inc. All Rights Reserved. 34

36.

Google Scholar Metricsによる学術誌ランキング CVPRは過去4年間で389回以上引用された論文数が389本以上(h5-index) 出版物 Rank h5-index ※ h5-median ※ 1. Nature 444 667 2. The New England Journal of Medicine 432 780 3. Science 401 614 4. IEEE/CVF Conference on Computer Vision and Pattern Recognition 389 627 5. The Lancet 354 635 6. Advanced Materials 312 418 Nature Communications 307 428 Cell 300 505 9. International Conference on Learning Representations 286 533 10. Neural Information Processing Systems 278 436 7. 8. 多くの論文がCVPRで発表された論文を引用している → 研究分野のマイルストーンとなる論文が多い 出典: https://scholar.google.com/citations?view_op=top_venues ※2017 - 2021年を対象 Copyright © 2023 Morpho, Inc. All Rights Reserved. 35

37.

過去に発表されたDeep Learning系研究の例 ● Fully Convolutional Networks For Semantic Segmentation [Long+, 2015] 線形層を捨て全て Convolutionで表現! ● Going Deeper with Convolutions [Szegedy+, 2015] ILSVRC14優勝のGoogLeNet。Inception moduleの発明 ● Image Style Transfer Using Convolutional Neural Networks [Gatys+, 2016] 画風変換( Style Transfer)という新分野を確立 ● You Only Look Once: Unified, Real-Time Object Detection [Redmon+, 2016] いまや物体検知のデファクトスタンダードになりつつある YOLO ● Deep Residual Learning For Image Recognition [He+, 2016] skip connectionによるより多層の NNの学習に成功。 ILSVRC 2015優勝のResNet ● Adversarial Discriminative Domain Adaptation [Tzeng+, 2017] ドメイン適応のタスクに GANでよく知られている敵対的学習の考え方を適用 ● Feature Pyramid Networks for Object Detection [Lin+, 2017] 多重解像度構造の特徴量マップを活用しスケールに対する頑健性を向上。 COCO 2016 challenge 優勝 ● MobileNetV2: Inverted Residuals And Linear Bottlenecks [Sandler+, 2018] inverted residual bottleneckを提案。より memory efficientかつ高精度な backbone ● Deep High-Resolution Representation Learning for Human Pose Estimation [Sun+, 2019] 高解像度の特徴マップをベースとした HRNet。姿勢推定に限らず幅広く使われている。 ● A ConvNet for the 2020s [Liu+, 2022] ResNetをベースに Vision Transformerの知見を取り入れ Transformerを超える性能を出した CNN Copyright © 2023 Morpho, Inc. All Rights Reserved. 36

38.

CVPR2023 少しお祭りの中を覗いてみましょう。 Copyright © 2023 Morpho, Inc. All Rights Reserved. 37

39.

CVPR 2023 開催日時 6/18 - 6/22(太平洋夏時間、UTC-7、日本と時差16時間) @バンクーバー タイムテーブル ● 6/18, 6/19 100 の Workshop と 33 の Tutorial ● 6/20 - 6/22 Main conference ○ Poster session ○ 基調講演, plenary keynote ○ Award Webサイト CVPR 2023 (thecvf.com) 出典:https://media.icml.cc/Conferences/CVPR2023/img/CVPR_2023_Schedule_Overview.png Copyright © 2023 Morpho, Inc. All Rights Reserved. 38

40.

論文数 採択率 25.8%! 出典:https://cvpr.thecvf.com/media/cvpr-2023/Slides/23313.pdf Copyright © 2023 Morpho, Inc. All Rights Reserved. 39

41.

CVPR2023の大きな変更 去年まであったOral sessionを廃止し全てsingle trackで進行 ● ● 去年まではOralによる口頭発表は時間の都合上並列に行われた ○ 聴講したい発表を選別しなければいけない問題点もあった 今回はPoster sesstionの時間を増やすことで参加者同士のコミュニケーションを促す形式に変更 出典:https://cvpr.thecvf.com/media/cvpr-2023/Slides/23313.pdf, https://cvpr2023.thecvf.com/ Copyright © 2023 Morpho, Inc. All Rights Reserved. 40

42.

CVPR2023の大きな変更 去年まであったOral sessionを廃止し全てsingle trackで進行 ● ● 去年まではOralによる口頭発表は時間の都合上並列に行われた ○ 聴講したい発表を選別しなければいけない問題点もあった 今回はPoster sesstionの時間を増やすことで参加者同士のコミュニケーションを促す形式に変更 半数以上が今年の形式に賛成 出典:https://cvpr.thecvf.com/media/cvpr-2023/Slides/23313.pdf, https://cvpr2023.thecvf.com/ Copyright © 2023 Morpho, Inc. All Rights Reserved. 41

43.

Highlights & Award candidates 🏆Award Candidates Talk sessionが用意 ✨Highlights CVPRのチャンネルで紹介 CVPR 2023 Highlights Fast Forward - YouTube Copyright © 2023 Morpho, Inc. All Rights Reserved. 42

44.

Award 2 Best Papers 👑 1 Honorable Mention 1 Best Student Paper 1 Student Hon. Mention Copyright © 2023 Morpho, Inc. All Rights Reserved. 43

45.

Best papers Visual Programming: Compositional visual reasoning without training [Gupta+] 生成AI 画像:https://prior.allenai.org/projects/visprog Planning-oriented Autonomous Driving [Hu+] 自動運転 ディープダイブで詳しく解説! 画像:https://github.com/OpenDriveLab/UniAD Copyright © 2023 Morpho, Inc. All Rights Reserved. 44

46.

参加してみたくなりましたか? Copyright © 2023 Morpho, Inc. All Rights Reserved. 45

47.

CVPR 2023 お祭りにディープダイブしてみたくありませんか? 画像:https://unsplash.com/ja/%E5%86%99%E7%9C%9F/5mj5jLhYWpY Copyright © 2023 Morpho, Inc. All Rights Reserved. 46

48.

次のパートからは最先端の研究 およびトレンドにフォーカスします! Copyright © 2023 Morpho, Inc. All Rights Reserved. 47

49.

鈴木・谷口・木村 今年のCVPRのトレンド: モルフォ視点で注目の分野・論文のご紹介 Copyright © 2023 Morpho, Inc. All Rights Reserved. 48

50.

CVPR 2023 のトレンド CVPR2023採択論文: 2359本 → 全ては読めない…… ● 2023年現在のCV分野の潮流 ○ 最先端の手法は? ○ 流行の分野は? ○ 多くの論文に共通するトピックは? 出典:https://cvpr.thecvf.com/media/cvpr-2023/Slides/23313.pdf → CVPR2023全論文のタイトルをテキストマイニング ※ 昨年の発表(CVPR2022)と同様の調査を実施 Copyright © 2023 Morpho, Inc. All Rights Reserved. 49

51.

CVPR 2023 のトレンド 下表:CVPR2023の論文タイトルに用いられた単語数のランキング Copyright © 2023 Morpho, Inc. All Rights Reserved. 50

52.

CVPR 2023 のトレンド 普遍的な用語の使用率 ● deep, network ○ 激減傾向が継続 ○ deepは3%を切る Deep Learning を 「使うのが当たり前」の時代 専門家は”Deep”を アピールしない Copyright © 2023 Morpho, Inc. All Rights Reserved. 51

53.

CVPR 2023 のトレンド 論文数増加の著しいタスク ● 画像生成 (generation) ● 再構成 (reconstruction) ○ 生成AIの急発展による ● 物体検出 (detection) ● 領域分割 (segmentation) 増加が落ち着いてきたタスク ● 識別 (recognition) ● 姿勢推定 (pose) ● 人物追跡 (tracking) ○ ブレイクスルーが待たれる Copyright © 2023 Morpho, Inc. All Rights Reserved. 52

54.

(参考)CVPR 2022 注目単語のその後 ● CVPR2022のトレンド(昨年の発表で紹介したもの) ○ Transformer ○ Videos ○ 3D ○ Self-Supervised Learning, Contrastive Learning Copyright © 2023 Morpho, Inc. All Rights Reserved. 53

55.

(参考)CVPR 2022 注目単語のその後 ● 3D, Video(s) ○ 続伸中、引き続き流行 ● Self-Supervised, contrastive ○ 横ばい ● Transformer ○ 大きく減少 ※Transformerは一般的に使用 されるようになった結果 Copyright © 2023 Morpho, Inc. All Rights Reserved. 54

56.

CVPR 2023 のトレンド CVPR2023の急上昇ワード 注目すべきは…… Copyright © 2023 Morpho, Inc. All Rights Reserved. 55

57.

CVPR 2023 のトレンド CVPR2023の急上昇ワード 注目すべきは…… ● diffusion ● 3D ● masked ● (vision-)language ● neural, radiance, field(s) ○ Neural Radiance Field(NeRF)関連 Copyright © 2023 Morpho, Inc. All Rights Reserved. 56

58.

CVPR 2023 のトレンド 注目単語の推移 ● diffusion ● masked ● (vision-)language ● radiance(NeRF関連) ○ ほぼ0本から1~3年で急伸 CVPR2023は、 急速に発展する「新手法」にス ポットがあたる学会だった Copyright © 2023 Morpho, Inc. All Rights Reserved. 57

59.

CVPR2023のトレンド CVPR2023での注目分野は 1. Diffusion model 2. Masked AutoEncoder 3. 3D、特にNeRF 4. Vision-Language ここから、それぞれの分野について紹介 Copyright © 2023 Morpho, Inc. All Rights Reserved. 58

60.

Diffusion model (拡散モデル) Copyright © 2023 Morpho, Inc. All Rights Reserved. 59

61.

Diffusion model(辞書的な説明) Diffusion model(拡散モデル)とは ● 生成モデルの一種 ○ 初出はICLR2021 ○ ノイズ除去を繰り返し画像生成 ● 言語処理と結びつき爆発的に発展 ○ Stable Diffusionで一般社会に浸透 ● 利点 ○ 生成画像の品質がとにかく高い! ■ 従来手法(GAN等)を突き放す ● 欠点 ○ 計算量が重い ■ 生成時、速くても数秒以上 引用:https://arxiv.org/pdf/2011.13456.pdf, Fig. 1 Stable Diffusionの生成画像の例 出典 :https://mpost.io/best-100-stable-diffusion-prompt s-the-most-beautiful-ai-text-to-image-prompts/ Copyright © 2023 Morpho, Inc. All Rights Reserved. 60

62.

Diffusion model @ CVPR2023 1/2 CVPR2023での傾向 Stable-diffusionのようなtext-to-imageの存在を念頭にした論文多め ● text-to-imageの改善(速度向上、機能拡張) ● text-to-imageベースで他のタスクに転用 ● その他のタスクにdiffusion modelを使用(予測や生成が多め) Copyright © 2023 Morpho, Inc. All Rights Reserved. 61

63.

Diffusion model @ CVPR2023 2/2 論文ピックアップ ● DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation [Ruiz+] ○ 🏆Award, Honorable Mention (Student) ● On Distillation of Guided Diffusion Models [Meng+] ○ 🏆Award ● Imagic: Text-Based Real Image Editing With Diffusion Models [Kawar+] ● Mofusion: A Framework for Denoising-Diffusion-Based Motion Synthesis [Dabral+] ○ ✨Highlights ● PDPP:Projected Diffusion for Procedure Planning in Instructional Videos [Wang+] ○ ✨Highlights Copyright © 2023 Morpho, Inc. All Rights Reserved. 62

64.

Masked AutoEncoder Copyright © 2023 Morpho, Inc. All Rights Reserved. 63

65.

Masked Autoencoderの前提知識 Self-supervised learning(自己教師あり学習とは?) ● AIの多くは、「教師あり」学習 ○ データラベル(答え)を人間が付与 ● データへのラベル付与:高コスト ■ 1万枚~1000万枚への作業必須 画像領域分割 ピクセル単位 で色分け → 自己教師あり学習(Self-supervised learning): ラベル無しデータを用いてAIの精度向上を測る学習手法。 ◎ 言語処理分野やVision-Language分野でも大成功 ○ ChatGPT、Stable diffusionの開発へ繋がった。 Copyright © 2023 Morpho, Inc. All Rights Reserved. 64

66.

Masked AutoEncoder(MAE)とは ● 初出:”Masked Autoencoders Are Scalable Vision Learners” 出典 :https://openaccess.thecvf.com/content/CVPR2022/pa pers/He_Masked_Autoencoders_Are_Scalable_Vision _Learners_CVPR_2022_paper.pdf, Fig. 1 ○ [He and Chen+] CVPR 2022 ● 自己教師あり「事前」学習 ○ 画像に「マスク」した入力から、元 画像を再現させる。 ○ ラベル付与は不要(自己教師) ● 本タスクの教師あり学習 ○ MAE学習済encoderを追加学習 ● 言語処理で大成功した手法(BERT)の画像版 ○ 様々なタスクで精度向上 ● Vision-Transformerにより画像でも実現 ■ 分類、物体検出、領域分割 ※ Contrastive Learning(昨年紹介)との競合手法 (MAEがやや優勢) ○ Convolutional Neural Networkでは不向き Copyright © 2023 Morpho, Inc. All Rights Reserved. 65

67.

Masked AutoEncoder Masked AutoEncoder CVPR2023での 論文を紹介 Copyright © 2023 Morpho, Inc. All Rights Reserved. 66

68.

Masked AutoEncoderのCVPR2023論文ピックアップ CVPR2023のMasked AutoEncoder論文のピックアップ 1. Masked Image Modeling with Local Multi-Scale Reconstruction [Wang+] ○ モデルの中間特徴量ごとのMAEにより学習効率を向上 ○ ✨Highlights ■ 後のスライドで詳細を紹介 2. Generic-to-Specific Distillation of Masked Autoencoders [Huang+] ○ 重いモデルから軽いモデルへの「蒸留」にMAEパイプラインを導入 3. Understanding Masked Autoencoders via Hierarchical Latent Variable Models [Kong+] ○ 理論研究。MAEの学習を隠れ変数を想定した階層モデルにより定式化 ○ 入力画像に対する「マスク比率」がMAEの本質的な性能を決定 ○ ✨Highlights 4. MAESTER: Masked Autoencoder Guided Segmentation at Pixel Resolution for Accurate, Self-Supervised Subcellular Structure Recognition [Xie+] ○ MAEの学習が教師なしセグメンテーションで性能を発揮 ○ 生物の細胞データに対して教師ありに近い性能 ○ ✨Highlights Copyright © 2023 Morpho, Inc. All Rights Reserved. 67

69.

Masked Image Modeling with Local Multi-Scale Reconstruction [Wang+] ✨Highlights https://openaccess.thecvf.com/content/CVPR2023/papers/Wang_Masked_Imag e_Modeling_With_Local_Multi-Scale_Reconstruction_CVPR_2023_paper.pdf ● モデルの層ごとに出力させた MAE ○ 浅い層:細かい(画素レベル) の特徴を再現 ○ 深い層:粗い構造の特徴を再 現 → 全層を効率的に学習可能 提案手法 ● 学習回数(エポック数)を減 らした1~3割程度の学習時間 でもMAEと同等の性能を発揮 元のMAE Copyright © 2023 Morpho, Inc. All Rights Reserved. 68

70.

3D 3D系 Copyright © 2023 Morpho, Inc. All Rights Reserved. 69

71.

CVPR2023の3D関連論文 3D関連の論文は300本程度 - NeRFの改良や応用 - 精度向上、高速化、few shot、生成モデルの利用等 - 3次元物体検出・セグメンテーション - 自動運転に関連したものが多い - GAN等の生成モデルによる3D化 - Diffusion Modelによるものが増加 - その他 - 3次元再構成、データセット、位置合わせ、姿勢推定、etc… Copyright © 2023 Morpho, Inc. All Rights Reserved. 70

72.

NeRF 前提知識:NeRF 2020年に発表されて現在も大流行。 自由視点から被写体を見た結果を再現できる。 出典:https://arxiv.org/pdf/2003.08934.pdf Copyright © 2023 Morpho, Inc. All Rights Reserved. 71

73.

NeRF:学習内容 前提知識:NeRF 学習データ = 特定被写体を写した大量の画像 学習フェーズ = モデル内部に色と密度情報を記録 推論フェーズ = 視点方向を入力すると画像出力 出典:https://arxiv.org/pdf/2003.08934.pdf Copyright © 2023 Morpho, Inc. All Rights Reserved. 72

74.

NeRF:具体的な入出力 前提知識:NeRF NeRFは次を学習する。 - 入力:3次元座標と視点方向 - 出力:色と密度 出典:https://www.matthewtancik.com/nerf Copyright © 2023 Morpho, Inc. All Rights Reserved. 73

75.

NeRF:ボリュームレンダリング 前提知識:NeRF レンダリングの手続き 1. カメラから各画素に向かって直線を伸ばす 2. 直線上から3次元点を多数サンプリング 3. 各3次元点⇒「色と密度」を出力 4. 直線方向にこれを積分して画素色を決定 出典:https://www.matthewtancik.com/nerf Copyright © 2023 Morpho, Inc. All Rights Reserved. 74

76.

NeRF:問題点 前提知識:NeRF 高精度であるが、まだ問題点が多い - 1シーンにごとに学習が必要 - 学習画像におけるカメラの配置はすべて既知 - 屋外の遠距離シーンや、動物体を含むシーンは苦手 ⇒後続研究で解決されつつある。 Copyright © 2023 Morpho, Inc. All Rights Reserved. 75

77.

CVPR2023のNeRF関連論文 CVPR2023のNeRF関連の論文をいくつか紹介 - SeaThru-NeRF: Neural Radiance Fields in Scattering Media [Levy+] - 空気媒体以外での環境を考慮した学習。後述スライドで説明 - RobustNeRF: Ignoring Distractors With Robust Losses [Sabour+] - 動物体や照明の変化などへのロバスト性の向上 - SPARF: Neural Radiance Fields From Sparse and Noisy Poses [Truong+] - ノイズが含まれる3枚の少ない画像で高品質なNeRFを学習 - NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as General Image Priors [Deng+] - Diffusion modelと組み合わせて、1枚の画像からNeRFを学習 - MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures [Chen+] - NeRFの推論を最先端手法と比べて10倍程度高速化 - PaletteNeRF: Palette-Based Appearance Editing of Neural Radiance Fields [Kuang+] - 学習されたNeRFを後から編集して色を変更するUIを提供 Copyright © 2023 Morpho, Inc. All Rights Reserved. 76

78.

SeaThru-NeRF: Neural Radiance Fields in Scattering Media 概要 物質を満たす媒体を考慮したレンダリングの式を 提案し、媒体の色・減衰係数・後方散乱係数を同 時に推定する事で、 霧や海などの光の減衰や散乱が大きい媒体下で の精度を向上 新規性 - 霧や水中などの不明瞭媒体下でも対応 - 媒体の性質と物質をそれぞれ推定するため、 媒体の影響を除去した物質のレンダリングも 可能 出典:https://arxiv.org/pdf/2304.07743.pdf https://cvpr2023.thecvf.com/virtual/2023/poster/23060 Copyright © 2023 Morpho, Inc. All Rights Reserved. 77

79.

Vision-Language 系 Copyright © 2023 Morpho, Inc. All Rights Reserved. 78

80.

Vision-Language と Open Vocabulary ● 今回は Open Vocabulary という分野に注目したい ○ 言語情報を用いる Vision-Language 系の一つ ● “Open Vocabulary” を含む論文は21本 ○ 2022 年度は 3本 ○ 21本の内、5本が Highlight ○ 少ないながらも評価されている ○ (参考)同じ分野の “language” は急上昇ワード 7 位 ■ ”language” をタイトルに含む論文は113本 ■ 内、Award または Highlight は 14 本 ● Open Vocabulary は幅広いタスクで用いられている ○ Semantic Segmentation ○ Panopatic Segmentation ○ Text-to-Motion ○ Object Detection Copyright © 2023 Morpho, Inc. All Rights Reserved. 79

81.

Open Vocabulary とは ● 任意の自然言語を入力として、それに対応した出力を得る ○ Object Detection の一例 ■ ■ 入力:肩越しにアシカを見るスキューバダイバー 出力: 出典: https://openaccess.thecvf.com/content/CVPR2023/paper s/Yao_DetCLIPv2_Scalable_Open-Vocabulary_Object_D etection_Pre-Training_via_Word-Region_Alignment_CVP R_2023_paper.pdf, Fig 1. (d) ● Open Vocabulary の難しいポイント ○ 自然言語の特徴空間を完全にカバーすることは難しい ■ ■ 学習していないラベルを推論する場面も 画像とテキストの類似度を学習した CLIP を使用することも多い ○ データが少ない ■ 自然言語と画像アノテーションをペアにしなければならない Copyright © 2023 Morpho, Inc. All Rights Reserved. 80

82.

Open-vocabulary の Highlight 論文 ● Being Comes From Not-Being: Open-Vocabulary Text-to-Motion Generation With Wordless Training [Junfan Lin+] ○ Text から Pose を生成、Motion を構築 学習を容易に ● Open-Vocabulary Panoptic Segmentation With Text-to-Image Diffusion Models [Jiarui Xu+] ○ Text-to-image diffusion model と CLIP を融合 生成モデルの内部表現を利用 ● Open Vocabulary Semantic Segmentation With Patch Aligned Contrastive Learning [Jishnu Mukhoti+] ○ セグメンテーションマスクなしで学習を可能に ● Region-Aware Pretraining for Open-Vocabulary Object Detection With Vision Transformers [Dahun Kim+] ○ Pretrain 時に random crop+resize を取り入れて Detection 学習時とのギャップを軽減 ● Side Adapter Network for Open-Vocabulary Semantic Segmentation [Mengde Xu+] ○ 学習済みの CLIP にブランチをつけてSemantic Segmentation 高速な学習が可能に Copyright © 2023 Morpho, Inc. All Rights Reserved. 81

83.

Being Comes From Not-Being: Open-Vocabulary Text-to-Motion Generation With Wordless Training [Junfan Lin+] ● 概要 ○ Text から Motion を生成する ○ 学習に使える Text と Motion のペアの データが少ない ○ Text から生成した姿勢を Motion に再構 成 ○ Text なしでの学習も提案 ● 注目ポイント ○ Pose 推定と Motion 再構築に分割 ○ マスクした Motion の再構築として学習 することでデータの準備が容易に ○ CLIP の vision encoder を利用して Text との関係を考慮した Pose の特徴 を学習 ○ Text そのもので学習するのではなくText 特徴量で Text-to-Pose を学習すること で Text なしで学習 Copyright © 2023 Morpho, Inc. All Rights Reserved. 82

84.

Open Vocabulary Semantic Segmentation With Patch Aligned Contrastive Learning [Jishnu Mukhoti+] ● 概要 ○ 画像と Text の類似度を計算して Semantic Segmentation を行う ○ Vision encoder と Text encoder の constrastive loss(類似度に基づく損失 関数)を工夫 ○ Segmentation mask なしで学習 ● 注目ポイント ○ パッチ単位で constrastive loss を計算 するように loss を修正するだけ ○ 画像の似ている部分の特徴量は似てい るように、Text に関係ある部分は Text に近づくように学習 ○ text-image のデータだけで Semantic Segmentation が学習できる Copyright © 2023 Morpho, Inc. All Rights Reserved. 83

85.

鈴木・木村・谷口 モルフォ視点で注目論文ディープダイブ Copyright © 2023 Morpho, Inc. All Rights Reserved. 84

86.

ディープダイブ 紹介論文 1. Planning-oriented Autonomous Driving [Yihan Hu+] → 自動運転 2. DynIBaR : Neural Dynamic Image-Based Rendering [Zhengqi Li+] → 3D 3. MobileOne: An Improved One millisecond Mobile Backbone [PKA Vasu +] → Mobile端末向け、軽量モデル Copyright © 2023 Morpho, Inc. All Rights Reserved. 85

87.

Planning-oriented Autonomous Driving [Yihan Hu+] (CVPR2023 Best Paper 👑) https://openaccess.thecvf.com/content/CVPR2023/papers/Hu_Planning-Oriented_Autonomous_Driving_CV PR_2023_paper.pdf Copyright © 2023 Morpho, Inc. All Rights Reserved. 86

88.

Planning-oriented Autonomous Drivingの前に 自動運転の基礎知識(社会の状況) ● レベル1~3:実用化済 ○ 運転補助システム ○ Honda「レジェンド」 ● レベル4:日本で試験的に導入 ○ 福井県永平寺町 ○ 茨城県境町 現状:高度な地図情報を使用 ○ 静止障害物の位置 ○ 詳細な道路形状 引用:毎日新聞 2020/11/11 21:17記事 https://mainichi.jp/articles/20201111/k00/00m/020/309000c Copyright © 2023 Morpho, Inc. All Rights Reserved. 87

89.

Planning-oriented Autonomous Drivingの前に 自動運転の基礎知識(研究分野として) ● 自動運転用センサ ○ ステレオカメラ(RGB) ○ LiDAR(赤外線、測距) ○ レーダー(ミリ波、測距) ● 自動運転のアプローチ方法 ○ モジュラーパイプライン 引用:A Survey of Autonomous Driving: Common Practices and Emerging Technologies, [Yurtsever+], Fig.2 https://arxiv.org/pdf/1906.05113.pdf ■ 外界認識、動作予測、行動計画、制御部を分けて順番に処理 ○ End-to-End ■ 入力データから制御情報(速度、ハンドル操作)を直接出力 ■ 模倣学習や強化学習が含まれる Copyright © 2023 Morpho, Inc. All Rights Reserved. 88

90.

Planning-oriented Autonomous Driving 概要 ● 新しい自動運転システム(UniAD)を提案 ○ Unified Autonomous Driving ○ “Planning-Oriented”(行動計画志向) ○ タスク間の情報をクエリとして伝達するEnd-to-End設計 ■ タスク間の相互作用で学習を効率化 ● 行動計画においてSoTAを達成 ● その他のタスクにおいてもSoTAに匹敵 Copyright © 2023 Morpho, Inc. All Rights Reserved. 89

91.

Planning-oriented Autonomous Driving 実装方式の検討 モジュラーパイプライン (a)要素ごとに独立して実装 ● 複数開発チームでの開発が容易 ● 現行の多くの産業製品の方式 ● 定式化としてはデメリット多め ○ 最適化対象の分離 ○ 予測誤差の蓄積 ○ 各タスクでの不整合 (b)マルチタスクとして処理 ● Mobileye, Tesla, Nvidia で導入開始 ● メリット ○ 計算コスト低減 ○ タスク追加が容易 ● デメリット:negative transfer ○ あるタスクの学習が他を妨げる Copyright © 2023 Morpho, Inc. All Rights Reserved. 90

92.

Planning-oriented Autonomous Driving 実装方式の検討 End-to-End (c.1, c.2)従来のEnd-to-End実装 ● シミュレーション上で盛んに研究 ● 安全性担保や動作の解釈が不可能 ○ 都市部の一般道路では特に困難 (c)Planning-orientedな実装(本論文) ● クエリベースで情報を伝達 ○ 上流タスクからの誤差累積を緩和 ○ タスク間の相互作用も伝搬可能 ● 複数タスク間の協力的な作用を調査す る最初の研究 Copyright © 2023 Morpho, Inc. All Rights Reserved. 91

93.

Planning-oriented Autonomous Driving 実装 1/4 ● BEVFormer(Bird Eye’s View) ○ ステレオカメラの情報を鳥瞰図(俯瞰図)特徴量に変換 ■ 図中のB ○ BEVFormer(ECCV2022) Copyright © 2023 Morpho, Inc. All Rights Reserved. 92

94.

Planning-oriented Autonomous Driving 実装 2/4 ● TrackFormer ○ 動物体を検出・追跡(同一物体の識別) ○ MOTR(ECCV2021) ● MapFormer ○ 道路の要素(区画線や中央分離帯)でマップの領域分割 ○ Panoptic Segformer(CVPR2022) ※ 1要素を1クエリが担当するように出力し、後段に流す Copyright © 2023 Morpho, Inc. All Rights Reserved. 93

95.

Planning-oriented Autonomous Driving 実装 3/4 ● MotionFormer ○ 動物体(他車両および自車両)の軌跡予測 ■ 物体、地図情報、目的地の相互作用をattentionで表現 ○ 1物体を1クエリで担当 ● OccFormer(占有予測) ○ 車や人が移動して占有しそうな場所を鳥瞰図上で予測 Copyright © 2023 Morpho, Inc. All Rights Reserved. 94

96.

Planning-oriented Autonomous Driving 実装 4/4 ● Planner ○ 自車両の軌跡予測と他車両の占有箇所を入力し、最終的な 行動計画を実施。 ◎ 2-stepの学習 1. TrackFormerとMapFormerまでを数エポック学習 2. End-to-Endで全モジュールを学習 Copyright © 2023 Morpho, Inc. All Rights Reserved. 95

97.

Planning-oriented Autonomous Driving 結果例 ● 複雑な例に対処したケース ○ 静止し、前方の黒い車に道を譲っている ■ 自走路との衝突可能性(BEVに表示)を検出したため Copyright © 2023 Morpho, Inc. All Rights Reserved. 96

98.

Planning-oriented Autonomous Driving 結果動画 ※上の動画はhttps://github.com/OpenDriveLab/UniAD(著者公式github)から ご覧ください。 Copyright © 2023 Morpho, Inc. All Rights Reserved. 97

99.

Planning-oriented Autonomous Driving 精度 1/2 ● 行動計画 ○ カメラだけの本手法が、LiDARも用いる手法より高精度 Copyright © 2023 Morpho, Inc. All Rights Reserved. 98

100.

Planning-oriented Autonomous Driving 精度 2/2 ● 他のタスクもSoTAかそれに匹敵する性能を発揮 ○ タスク間の相互作用で学習が効率化 Copyright © 2023 Morpho, Inc. All Rights Reserved. 99

101.

Planning-oriented Autonomous Driving まとめ ● Planning-OrientedなUniADパイプラインを提案 ○ クエリベースでタスク間を接続 ○ タスク間の相互作用に利用可能なリッチな表現を学習 ○ 行動計画およびその他のタスクでSoTAを達成 ● 今後の課題 ○ 各タスクの調整が困難 ○ 計算の軽量化 ■ 特に時間的に長い履歴情報を用いる場合 ○ 深度推定、動作予測など追加タスク組み込みの検討 Copyright © 2023 Morpho, Inc. All Rights Reserved. 100

102.

DynIBaR : Neural Dynamic Image-Based Rendering [Li+] https://openaccess.thecvf.com/content/CVPR2023/papers/Li_DynIBaR_Neural_Dynamic_Image-Based_Rendering_C VPR_2023_paper.pdf Copyright © 2023 Morpho, Inc. All Rights Reserved. 101

103.

3D論文のdeep dive 紹介する論文 DynIBaR:Neural Dynamic Image-Based Rendering [Li+] https://arxiv.org/abs/2211.11082 概要 ● 単眼ビデオの動的シーンにおける新規ビュー合成の研究 ● NeRFと古典的なIBRを組み合わせた手法を さらに動的シーンに適用できるように拡張する手法を提案 ● カメラ軌道に制約のない複雑な動きをする長い動画においても、 高品質な新規ビューを合成することが可能になった ● Honorable Mentionに選出 Copyright © 2023 Morpho, Inc. All Rights Reserved. 102

104.

背景・課題 背景 従来のNeRFは基本的に静的なシーンが対象 課題 ● 静的なシーン以外も対象にしたい ○ 人やペット等の生き物は完全に静止することが困難 ○ インターネット上のコンテンツなどの利用が難しい ● 非剛体被写体の撮影環境の構築が大変 ○ 多方向から同時に撮影する必要がある ○ スマフォ等の単眼カメラでは難易度が高い スマフォ等の単眼カメラで撮影された単一動画からNeRFの学習が行う Dynamic NeRFに関する研究が行われている Copyright © 2023 Morpho, Inc. All Rights Reserved. 103

105.

Dynamic NeRFについての先行研究 先行研究 ● NSFF [Li+, 2021] ● Nerfies [Park+, 2021] ● HyperNeRF [Park+, 2021] Copyright © 2023 Morpho, Inc. All Rights Reserved. 104

106.

Dynamic NeRFについての先行研究 1.NSFF 先行研究 ● NSFF [Li+, 2021] ● Nerfies [Park+, 2021] ● HyperNeRF [Park+, 2021] NSFF:Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes ● Scene Flow Fieldsという、3Dシーンのフローを推定するように学習 ● 動的成分の分離や時間的な補間が可能になり、高品質なレンダリングが可能 Input 出典:https://arxiv.org/pdf/2011.13084.pdf NSFF Copyright © 2023 Morpho, Inc. All Rights Reserved. 105

107.

Dynamic NeRFについての先行研究 2.Nerfies 先行研究 ● NSFF [Li+, 2021] ● Nerfies [Park+, 2021] ● HyperNeRF [Park+, 2021] Nerfies: Deformable Neural Radiance Fields ● 時間ごとに学習されたdeformation fieldで入力された座標を別の座標に変換して、共通 のNeRFで学習と推論を行う ● 座標を形状の変化に合わせた変換をする事で非剛体に対応 出典:https://arxiv.org/pdf/2011.12948.pdf Copyright © 2023 Morpho, Inc. All Rights Reserved. 106

108.

Dynamic NeRFについての先行研究 3.HyperNeRF 先行研究 ● NSFF [Li+, 2021] ● Nerfies [Park+, 2021] ● HyperNeRF [Park+, 2021] HyperNeRF: A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields ● Nerfiesの発展で、共通のNeRFを高次元に拡張 ● これにより、紙を破るなどのトポロジーの変化にも対応が可能 出典:https://arxiv.org/pdf/2106.13228.pdf Copyright © 2023 Morpho, Inc. All Rights Reserved. 107

109.

NeRFによる手法の課題 しかし、これらの手法には依然として課題が残っている ● NSFF ○ 動きが大きい、複雑な場合に品質が低下 ○ カメラ軌道が単純な短時間の動画(1~2秒程度)でのみ良い性能 ● Nerfies・HyperNeRF ○ カメラ軌道がオブジェクトを中心とした制限された軌道が対象 本論文では以下の従来のDynamic NeRFの問題点を改善し、品質を大きく向上している 1. 2. 3. 4. 長時間の動画 非拘束シーン 制限がないカメラ軌道 高速で複雑な物体運動 Copyright © 2023 Morpho, Inc. All Rights Reserved. 108

110.

本論文のメインアイディア 本論文のメインアイディア 従来のNeRFのように色と密度をMLPで直接エンコードするのではなく、 古典的なImage-Based Rendering(IBR)のアイデアをフレームワークに取り込む IBRベースの手法の利点 ● 近傍の複数枚の画像から直接新規ビューを生成するため、未知のシーンに強い ○ 静的シーンであれば、NeRFのようにシーンごとに学習を行う必要がない ● 少ない入力枚数でも新規ビューを合成可能 ● 近年ではNeRFと古典的IBR手法を組み合わせた シーンごとの学習が必要ない高品質なビューを生成する手法も研究されている 関連研究 ● IBRNet [Wang+, CVPR2021] ● Neural Rays [Liu+, CVPR2022] Copyright © 2023 Morpho, Inc. All Rights Reserved. 109

111.

IBRNetによる新規ビュー生成① IBRNet: Learning Multi-View Image-Based Rendering [Wang+, CVPR2021] 1. 各点おいて、近傍の各視点からのソースビューから色、視点、画像特徴を集約 ○ 画像特徴はU-NetベースのCNNを使用した深度情報を使用 出典:https://arxiv.org/pdf/2102.13090.pdf Copyright © 2023 Morpho, Inc. All Rights Reserved. 110

112.

IBRNetによる新規ビュー生成② IBRNet: Learning Multi-View Image-Based Rendering [Wang+, CVPR2021] 2. 抽出した特徴を元に、各位置に置ける色と密度を推定 ○ 入力:集約した各視点の色、視点、画像特徴 ○ 出力:各点での色と密度 出典:https://arxiv.org/pdf/2102.13090.pdf Copyright © 2023 Morpho, Inc. All Rights Reserved. 111

113.

IBRNetによる新規ビュー生成③ IBRNet: Learning Multi-View Image-Based Rendering [Wang+, CVPR2021] 3. 推定した各位置に置ける色、密度を元にボリュームレンダリングして色を取得 ○ 色と密度が推定されているので、従来のNeRF同様にレンダリング可能 ○ 大量の画像で事前学習しておく事で未知のシーンでも新規視点の合成が可能 出典:https://arxiv.org/pdf/2102.13090.pdf Copyright © 2023 Morpho, Inc. All Rights Reserved. 112

114.

古典的IBR手法のの動的シーンへの対応 なぜIBRを組み合わせた手法に注目したのか? 近傍フレーム間の情報でIBR手法と同様にレンダリングを行う事ができれば、 従来のDynamic NeRFで課題だった時間や動きの制限についても解決できそう しかし、これらは被写体が静的であることを前提とした手法 ⇒動被写体においては、画面内で移動しているので対応する点が取れない そこで、本論文では大きく以下の2点の工夫を実行 1. Motion-adjusted feature aggregation 2. Cross-time rendering for temporal consistency Copyright © 2023 Morpho, Inc. All Rights Reserved. 113

115.

Motion-adjusted feature aggregation 従来のIBRでは動被写体に対して対応点がとれないため、そのままだと上手く行かない ⇒フレーム間の対応点の動きの軌跡自体も一緒に学習する ● 学習時に各時間の3次元点xにおける次の時間の軌跡をMLPで学習 ○ 軌跡の基底関数の係数を学習する形になっている ● 軌跡関数で移動した点について画像特徴量を計算して集約することで、 従来のIBRと同様の学習が可能 出典:https://arxiv.org/pdf/2211.11082.pdf Copyright © 2023 Morpho, Inc. All Rights Reserved. 114

116.

Cross-time rendering for temporal consistency 軌跡関数の過学習が起こるため、隣接フレームの間の時間において精度劣化が生じる ⇒それを防ぐために、フレーム間の新規視点に関する損失を計算する ● 時間iのレイと軌跡関数を元に時間jの対応点の位置を算出 ● その点と時間をベースに、近傍ビューから特徴量を集約して色と密度を推定 ● 推定された色、密度情報を利用して、時間iにおけるビューを推定して、 時間iのGTとの損失を計算することで、時間jの色、密度を学習 出典:https://arxiv.org/pdf/2211.11082.pdf Copyright © 2023 Morpho, Inc. All Rights Reserved. 115

117.

従来手法との結果比較 出典:https://dynibar.github.io/ Copyright © 2023 Morpho, Inc. All Rights Reserved. 116

118.

結果・期待される動画表現 Dolly Zoom、Bullet time 出典:https://dynibar.github.io/ Fixed View Point Copyright © 2023 Morpho, Inc. All Rights Reserved. 117

119.

DynIBaR : Neural Dynamic Image-Based Rendering:まとめ まとめ・感想 - 従来のNeRF手法と古典的IBR手法を組み合わせて、動的シーンに使えるように 拡張を行う事でDynamic NeRF手法の欠点を大きく改善 - 動画の新しい表現方法としての役割が期待できる - 基本的には先行研究の組み合わせ - NeRFという手法にこだわらず、 様々な手法の知見を持っておくのは大切 今後の課題 - ひも等の細い物体や小さい物体に対してはまだ弱いので改善が必要 - 隣接フレームから計算を行う関係上、 フレーム間にあまり変化がない静的なシーンだと情報が不十分になる可能性がある Copyright © 2023 Morpho, Inc. All Rights Reserved. 118

120.

MobileOne: An Improved One millisecond Mobile Backbone [Vasu+] https://openaccess.thecvf.com/content/CVPR2023/papers/Vasu_MobileOne_An_Improved_One_Millisecond_Mobile_Backbo ne_CVPR_2023_paper.pdf Copyright © 2023 Morpho, Inc. All Rights Reserved. 119

121.

Mobile 端末での利用 ● MobileNeRF(NeRF)、MobileVOS(Video Object Segmentation)、MobileBrick(3D Reconstruction)等、様々なタスクの手法が CVPR2023 で提案されている ● WorkShop も開催されている ○ 3rd Mobile AI Workshop and Challenges ■ CiaoSR: Arbitrary-Scale Image Super-Resolution:任意のスケールのSR ■ QuickSRNet: Plain Single-Image Super-Res Architecture for Faster Inference on Mobile Platforms:高速なSR Network ■ High-efficiency Device-Cloud Collaborative Transformer Model:端末で Encode、 Cloud で Decode する などなど CV 領域に Mobile 向けの需要は存在する Copyright © 2023 Morpho, Inc. All Rights Reserved. 120

122.

MobileOne | 概要 ● 論文名 MobileOne: An Improved One millisecond Mobile Backbone [Vasu+] ● 概要 ○ Network をモバイル端末上で実行しても ○ ○ ○ ○ FLOPs やパラメータ数のわりに latency が出ないことがある latency のボトルネックを解析 モバイル端末上で 1 ms 以下で動作 MobileFormer と同程度の精度で x38 高速 マルチタスクで利用可能 Copyright © 2023 Morpho, Inc. All Rights Reserved. 121

123.

MobileOne | FLOPs & パラメータ数 vs Latency ● モバイル端末向けの Network の開発は精度 を上げながら FLOPs やパラメータ数を減らし ていく 出典 :https://openaccess.thecvf.com/content_cvpr_2018/papers/Hu_Sq ueeze-and-Excitation_Networks_CVPR_2018_paper.pdf, Fig 1. ● FLOPs やパラメータ数と latency には差がで きる ○ FLOPs:メモリアクセスや並列処理で待ち があると遅くなる ○ パラメータ数:パラメータ共有や skip-connectionなどの処理はパラメータ 数は増えないが latency に影響の出る Squeeze-and-Excitation block:並 列処理の結果の待ちが生じる 出典 :https://openaccess.thecvf.com/content_CVPR_2019/papers/Sun_ Deep_High-Resolution_Representation_Learning_for_Human_Pos e_Estimation_CVPR_2019_paper.pdf, Fig 1. HRNet:Up sampling や Down sampling はパラ メータ数に影響しない Copyright © 2023 Morpho, Inc. All Rights Reserved. 122

124.

MobileOne | 主要なボトルネック ● Activation Functions ○ 処理待ちが必要だと latency が高い ○ DynamicReLU と Dynamic Shift-Max は、精度が出るが latency に問題 ○ ReLU のみ使用 ● Architectural Blocks ○ メモリアクセスと並列処理がキー ○ マルチブランチでメモリアクセス増 ○ SE blockのような構造は処理待ちが問 題 ○ Inference 時にはブランチを設けず、SE block はなるべく使わない Copyright © 2023 Morpho, Inc. All Rights Reserved. 123

125.

MobileOne | MobileOne Architecture ● MobileNet-V1に似たブロックを使用 ○ point-wise Conv と depth-wise Conv ● re-parameterization ○ 複数のブランチ、ブロックを1つにまとめ る手法 ○ Batch Norm は Conv と統合 ● over-parameterization ○ 訓練時にあえてパラメータを増やす手法 ○ 小さなモデルでは精度が向上 ○ 学習、推論時に Loss が減少 Copyright © 2023 Morpho, Inc. All Rights Reserved. 124

126.

MobileOne | Model Scaling & Weight decay ● Model Scaling ○ MobileNet-V2 に近い設定 ○ 入力に近い層は浅め ○ ブランチは設けない ● Weight decay ○ 小さいモデルでは過学習をそれほど考え なくてよい ○ 学習初期での weight decay は重要 ○ 徐々に weight decay を弱めていく Copyright © 2023 Morpho, Inc. All Rights Reserved. 125

127.

MobileOne | Classification ● 比較環境 ○ CPU:Intel Xeon Gold 5118 ○ GPU:RTX-2080Ti (TensorRT) ○ Mobile:iPhone 12 (Core ML) ● ImageNet-1K による比較 ○ 同程度の精度で比較 ■ MobileFormer 79.3% 70.76 ms ■ MobileOne-S4 79.4% 1.86 ms ● x38 高速! ○ 同程度の latency で比較 ■ EfficientNet-B0 77.1% 1.72 ms ■ MobileOne-S3 78.1% 1.53 ms ● 1 ポイント向上 Copyright © 2023 Morpho, Inc. All Rights Reserved. 126

128.

MobileOne | Object Detection & Semantic Segmentation ● Object Detection ○ SSD の backbone に使用 ○ MobileViT のスコアを 1.7 ポイント 向上 ● Semantic Segmentation ○ Deeplab V3 の backbone に使用 ○ MobileViT のスコアを 1.0 ポイント 向上 ○ MobileOne-S1 は MobileNetV2 より latency が低いが精度は高い ○ VOC と ADE20k の両方で有効 Copyright © 2023 Morpho, Inc. All Rights Reserved. 127

129.

Object Detection & Semantic Segmentation 出典:https://arxiv.org/pdf/2206.04040.pdf, Fig 8., Fig 9. Copyright © 2023 Morpho, Inc. All Rights Reserved. 128

130.

MobileOne | まとめ ● モバイル端末で高速で動作する MobileOne を提案 ● MobileOne は様々なタスクに利用できる ● 精度を上げるために re-parameterization と over-parameterization を活用 ● 将来的に optical flow や depth estimation、3D reconstruction への利用も 期待できる Copyright © 2023 Morpho, Inc. All Rights Reserved. 129

131.

まとめ 1. CVPRとは何か、なぜ重要なのか a. 世界中のコンピュータービジョンの研究者が目標に据える国際学会の最高峰 b. 最先端の研究発表や各種Workshop, Tutorialが用意された置い充実したプログラム c. 今年は生成AI・自動運転に関する論文がBest paperに選ばれ非常に注目度の高い分野 2. CVPR2023のトレンド a. 全論文タイトルからトレンドワード抽出 b. CVPR2023におけるトレンドワードの動向を紹介 i. ii. iii. Diffusion model Masked AutoEncoder 3D、特にNeRF iv. Vision-Language, Open-Vocabrary 3. 注目論文ディープダイブ a. Planning-oriented Autonomous Driving [Hu+] b. DynIBaR : Neural Dynamic Image-Based Rendering [Wang+] c. MobileOne: An Improved One millisecond Mobile Backbone [Vasu+] Copyright © 2023 Morpho, Inc. All Rights Reserved. 130