【物体検出】Fast R-CNN

1.3K Views

October 31, 24

#物体検出 #Fast R-CNN #R-CNN #SPPnet #深層学習

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 29.2K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 18.3K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 16.7K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 12.5K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 11.9K

各ページのテキスト

2024年度後期輪読会 #5【物体検出】 Fast R-CNN 京都大学理学部2回東野幹大 0

アジェンダ ◼ R-CNNの問題点 ◼ SPP(net) ◼ Fast R-CNN 1

アジェンダ ◼ R-CNNの問題点 ◼ SPP(net) ◼ Fast R-CNN 2

R-CNNの問題点 R-CNNは大幅な性能向上をもたらしたが、学習・推論に時間がかかり、あまり実用的とは言えない R-CNNは物体検出の問題にCNNを応用し、精度をを大幅に更新するなど、成功を収めたしかし、問題点も… ◼ 学習・推論に(とても)時間がかかる • 関心領域 (RoI) 2000個それぞれにCNNを順伝搬する必要があるので、学習・推論に時間がかかる • • 学習：画像5000枚で訓練するのに約60時間推論：画像１枚当たり9秒（AlexNet) 47秒（VGG16) →あまり実用的ではない CNNの順伝搬をできるだけ少なくして、計算量を小さくしたい画像引用：https://jhui.github.io/2017/03/15/Fast-R-CNN-and-Faster-R-CNN/ 3

https://jhui.github.io/2017/03/15/Fast-R-CNN-and-Faster-R-CNN/

R-CNNの問題点計算量を減らすために、CNNの順伝搬を先にまとめてやっておくでは、どうすればいいか？ ◼ アイデア 1. 画像全体をCNNに通し、特徴マップを得る 2. 特徴マップ上にSelective Search等で提案されたRoIを射影する 3. 特徴マップ上の各RoIからベクトルを取り出し、分類・bbox回帰の問題を解く問題は、RoIの大きさ・アスペクト比が多種多様であること。入力は可変だが、出力として固定長のベクトルを取り出したい。 →空間ピラミッドプーリング(SPP) 画像引用：https://jhui.github.io/2017/03/15/Fast-R-CNN-and-Faster-R-CNN/ 4

https://jhui.github.io/2017/03/15/Fast-R-CNN-and-Faster-R-CNN/

アジェンダ ◼ R-CNNの問題点 ◼ SPP(net) ◼ Fast R-CNN 5

空間ピラミッドプーリング(SPP) 空間ピラミッドプーリングでは、カーネルサイズとストライドが動的に変化し、出力は固定長ベクトルとなる ◼ 空間ピラミッドプーリング(SPP；spatial pyramid pooling) 1. 特徴マップを指定されたいくつかの解像度のグリッドに分割する 2. 1.で分割した領域それぞれでｍax pooling 3. 2.で得られた特徴マップを展開し、結合する SPPでは、入力された特徴マップのサイズとアスペクト比に応じてカーネルサイズとストライドが動的に変化し、出力ベクトルが固定長となる。 (cf. 通常のPoolingでは、カーネルサイズとストライドが固定で、出力が動的に変化) SPP層を導入してR-CNNを高速化したモデル →SPPnet 画像引用：https://developers.agirobots.com/jp/spp-net/ 6

https://developers.agirobots.com/jp/spp-net/

SPPnet SPPnetは、SPP層を導入してCNNの順伝搬の回数を減らし、計算量を削減。計算速度が向上 ◼ SPPnet SPP層を導入して、CNNの順伝搬を先にまとめて行うことで計算量を大幅に削減することに成功。性能はR-CNNのまま、学習と推論を高速化。詳細： CNN：ZF5より（224×224×3→13×13×256、conv5まで） SPP：[1×1、2×2、3×3、6×6]の４種類固定長ベクトル表現：12800次元ベクトル分類はSVM、bbox回帰は線形層訓練可能なのは全結合層のみで、CNNは訓練しない分類とbbox回帰は別々に学習画像引用：https://arxiv.org/pdf/1406.4729 7

https://arxiv.org/pdf/1406.4729

SPPnet SPPnetは、SPP層を導入してCNNの順伝搬の回数を減らし、計算量を削減。計算速度が向上 ◼ SPPnet R-CNNと比べ、精度は同程度のまま、計算速度が24～102倍まで上昇画像引用：https://arxiv.org/pdf/1406.4729 8

https://arxiv.org/pdf/1406.4729

10.

Fast R-CNNへ SPPnetよりも高速かつ高精度のモデルを作りたい → Fast R-CNN SPPnetは、計算量を削減し、計算速度を向上させたしかし、課題も… 1. 学習が面倒クラス分類とbbox回帰を別々に訓練するので、調整が難しい（これはR-CNNから続く問題) 2. 精度 SPPnetは学習できるのが全結合層のみ。もし、CNNのfine tuningができれば、性能向上が見込まれる。速度だけでなく、精度も高いモデルを作りたい 3. 速度計算速度は速いに越したことはない → Fast R-CNN 9

11.

アジェンダ ◼ R-CNNの問題点 ◼ SPP(net) ◼ Fast R-CNN 10

12.

Fast R-CNN Fast R-CNNは、高速・高精度な物体検出を実現する ◼ Fast R-CNN SPPnetからの主な変更点 • RoI poolilng • 階層的なサンプリング • Multi-task loss の導入 • 低ランク近似 • SVM → Softmax • 全結合層が２つに分岐 • CNN model S…CaffeNet model M…VGG_CNN_M_1024 model L…VGG 16 より画像引用： https://jhui.github.io/2017/03/15/Fast-R-CNN-and-Faster-R-CNN/ 11

https://jhui.github.io/2017/03/15/Fast-R-CNN-and-Faster-R-CNN/

13.

Fast R-CNN RoI poolingは、空間ピラミッドプーリング(SPP)の特殊ケース ◼ RoI pooling RoI pooling はピラミッド構造をなくしたSPP model L(VGG16)の場合、7×7 に分割してmax poolingするピラミッド構造がなくなった分、計算量が減少画像引用： https://developers.agirobots.com/jp/spp-net/ 12

https://developers.agirobots.com/jp/spp-net/

14.

Fast R-CNN 階層的なサンプリングによって計算量が減少し、CNNまでの重み更新が可能に ◼ 階層的なサンプリング Fast R-CNNではミニバッチで学習を進めるが、計算量を減らすために、CNNの重み更新は、同じ画像からのRolをまとめて計算するという手法がとられた。バッチサイズをRとする。まずデータセットからN枚の画像をサンプリングする。そして、各画像からR/N個のRoIをサンプリングする。同じ画像由来のR/N個のRoIをまとめて誤差逆伝搬を行い、勾配を計算して重みを更新する。Nが小さくなればなるほど計算量が減る。この階層的なサンプリングのおかげで、CNNまでの重み更新が可能になったなお、論文ではR=128、N=2で実験している。R-CNNとSPPnetの手法を組み合わせてサンプリング。データ拡張は、確率0.5で画像を左右反転するのみまた、model Lではconv3_1以降を更新。model S,Mではconv2以降を更新。 13

15.

Fast R-CNN Multi-task lossはクラス分類とbbox回帰を同時に最適化する ◼ Multi-task loss クラス分類とbbox回帰を同時に最適化する教師データ：クラスラベルは 𝑢 ∈ 0,1, … , 𝐾 (𝑢 = 0は背景クラス）、bboxは 𝑣 = (𝑣𝑥 , 𝑣𝑦 , 𝑣𝑤 , 𝑣ℎ ) 𝑢 𝑢 出力データ：クラス分類の確率分布は 𝒑 = 𝑝0 , 𝑝1 , … , 𝑝𝐾 、クラス𝑢のbboxは 𝒕𝑢 = (𝑡𝑥𝑢 , 𝑡𝑦𝑢 , 𝑡𝑤 , 𝑡ℎ ) 損失関数は以下のように定めることができる ℒ 𝑝, 𝑢, 𝑡 𝑢 , 𝑣 = ℒcls 𝑝, 𝑢 + 𝜆 𝑢 ≥ 1 ℒloc 𝑡 𝑢 , 𝑣 ℒcls 𝑝, 𝑢 = −log 𝑝𝑢 ℒloc 𝑡 𝑢 , 𝑣 = σ𝑖∈{𝑥,𝑦,𝑤,ℎ} 𝐿smooth (𝑡𝑖𝑢 − 𝑣𝑖 ) 1 ここで 1 if 𝑢 ≥ 1 𝜆 𝑢≥1 =ቊ 0 otherwise 𝐿smooth 𝑥 1 0.5𝑥 2 if 𝑥 < 1 =ቊ 𝑥 − 0.5 otherwise 14

16.

Fast R-CNN 計算速度を上げるため、低ランク近似によって全結合層の計算量を削減 ◼ 低ランク近似畳み込み層の計算量が減少した一方、RoI pooling 以降の全結合層の計算はすべてのRoIについて行わなければならない。そこで、計算量削減のため、特異値分解を利用した低ランク近似を行う • 特異値分解(SVD；singular value decomposition) rank 𝑊 = 𝑟 の 𝑢 × 𝑣の行列𝑊について、 𝑊 = 𝑈Σ𝑟 𝑉 𝑇 という分解が存在する。ただし、𝑈は左特異ベクトルたちからなる𝑢 × 𝑟 行列、 Σ𝑟 は𝑊の特異値を大きい順に並べた𝑟 × 𝑟 対角行列、 𝑉は右特異ベクトルたちからなる 𝑣 × 𝑟行列。低ランク近似は、値が小さい特異値を削減することで、パラメータ数を減少させることができる model L(VGG16)では、fc6(25088×4096行列)の特異値上位 1024個、fc7(4096×4096)の特異値上位256個で近似画像引用： https://arxiv.org/pdf/1504.08083 15

https://arxiv.org/pdf/1504.08083

17.

Fast R-CNN 計算速度を上げるため、低ランク近似によって全結合層の計算量を削減 ◼ 低ランク近似例） 99 55 67 109 86 78 69 79 29 57 87 52 64 45 48 20 36 52 32 40 26 7×5 81 43 58 88 65 66 51 33 23 22 36 33 26 25 ≅ −0.46 −0.23 −0.33 −0.51 −0.37 −0.37 −0.3 −0.22 0.55 −0.32 −0.24 0.57 −0.26 0.32 −0.07 −0.56 0.58 −0.19 0.41 0.7 −0.33 0.12 −0.06 0.2 0.3 −0.27 −0.53 0.15 7×4 346.67 0.0 0.0 0.0 0.0 21.38 0.0 0.0 0.0 0.0 4.51 0.0 0.0 0.0 0.0 0.01 −0.63 −0.47 −0.29 −0.51 −0.22 0.48 −0.66 −0.38 0.05 0.43 −0.44 −0.43 0.46 0.62 0.16 −0.43 0.39 −0.48 0.16 0.64 4×4 4×5 特異値(赤字)を削る：パラメータ数 35→26、 𝑊→ 98.87 56.16 67.81 108.33 85.88 78.61 67.93 78.88 30.12 57.78 86.35 51.89 64.59 43.97 48.13 18.79 35.16 52.7 32.12 39.36 27.11 81.18 41.38 56.87 88.93 65.16 65.15 52.49 33.05 22.59 21.71 36.23 33.04 25.79 25.37 16

18.

Fast R-CNN Fast R-CNNは、高速・高精度な物体検出を実現する ◼ 性能 • 精度 VOC 07, 10, 12 でSoTAを達成学習データを増やすとmAPが向上する画像引用： https://arxiv.org/pdf/1504.08083 17

https://arxiv.org/pdf/1504.08083

19.

Fast R-CNN Fast R-CNNは、高速・高精度な物体検出を実現する ◼ 性能 • 速度訓練速度：R-CNNの約9倍 SPPnetの約3倍推論速度：R-CNNの約213倍 SPPnetの約10倍 SVDによる低ランク近似の影響 …推論速度は約1.5倍 mAPの低下は0.5％程度画像引用： https://arxiv.org/pdf/1504.08083 18

https://arxiv.org/pdf/1504.08083

20.

Fast R-CNN Fast R-CNNは領域提案がボトルネック ◼ Fast R-CNNの問題点 • 領域提案がボトルネック速度：Selective Searchなら1～2秒/image 性能が領域提案アルゴリズムに依存。もっと良い手法はないか？ • RoI poolingの問題点 RoI poolingでは、RoIの割り当て・分割時にずれが生じる。セグメンテーションなど、位置ずれに敏感なタスクでは問題となりうる → 領域提案ネットワーク(RPN)、RoI align → Faster R-CNN、Mask R-CNN 19

21.

まとめ Fast R-CNNは、高速・高精度な物体検出を実現するモデル R-CNN SPPnet Fast RCNN R-CNNは物体検出の問題にCNNを応用し、成功を収めたしかし、学習・推論に時間がかかりすぎるという問題点があった SPPnetは、SPP層の導入によってCNNの順伝搬の計算量を大幅に削減精度はそのまま推論速度は20～100倍に Fast R-CNNは、RoI poolingやmulti-task loss、低ランク近似などを導入推論速度はSPPnetの10倍、VOC 07, 10, 12でSoTAを達成領域提案がボトルネック 20

22.

23.

参考文献 • R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014. • K. He, X. Zhang, S. Ren, and J. Sun, “Spatial pyramid pooling in deep convolutional networks for visual recognition,” in European Conference on Computer Vision (ECCV), 2014. • R. Girshick, “Fast R-CNN,” in IEEE International Conference on Computer Vision (ECCV), 2014. • 入力画像サイズやスケールが自由なSPP-netとは!? TensorFlowによる実装も! | AGIRobots Blog • Fast R-CNNについて詳しく解説！ | AGIRobots Blog • “Fast R-CNN and Faster R-CNN” • Object Detection for Dummies Part 3: R-CNN Family | Lil'Log • 特異値分解を詳しく解説 #Python - Qiita 22