【人工知能・深層学習】CNNやViTの論文紹介前にお見せするスライド

0.9K Views

April 26, 24

#人工知能 #deeplearning #深層学習 #cnn #vit #論文紹介 #コンピュータビジョン #CNN #ViT #画像認識

スライド概要

2024/04時点での、CNNやViTの勢力や基礎を振り返るためのスライドです。

【注意書き】：研究室内で発表に利用したものです。解釈に誤りがある可能性がありますので、ご参考いただく際はご注意ください。資料の転用は禁止しております。

Shunsuke Yasuki

@snskysk

スライド一覧

人工知能（ディープラーニング）研究者。現在博士課程に在籍。主な実績：CVPR2024主著論文採択。研究テーマ：コンピュータ・ビジョンの分野で深層学習モデルがどのように機能するかを包括的に研究。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【人工知能・深層学習】論文紹介：カーネルサイズ100を超えるCNN - PeLK

論文紹介 deeplearning 人工知能 cnn pelk 深層学習

Shunsuke Yasuki 4.8K

【人工知能・深層学習】論文紹介：In-Context Learning Creates Task Vectors

論文紹介 deeplearning 人工知能深層学習 llm

Shunsuke Yasuki 4.7K

【人工知能・深層学習】論文紹介：NFNetの論文

論文紹介 deeplearning 深層学習人工知能 cnn

Shunsuke Yasuki 3.2K

学振特別研究員になるために～2025年度申請版

学振 dc1 dc2 jsps pd

大上雅史 778.2K

ZAZA株式会社_会社紹介

ZAZA株式会社 366.6K

StampFlyで学ぶマルチコプタ制御

伊藤恒平 365.3K

各ページのテキスト

画像系深層学習モデルの振り返り CNNやViTの最新論文紹介前にお見せする用スライド

振り返りスライド目次コンピュータビジョン分野における深層学習モデルの勢力 CNNの概要確認畳み込みの確認 ViTの台頭 ViTの高性能要因

コンピュータビジョン分野における深層学習モデルの勢力 ViTの成功に触発され、ラージカーネルCNNなどの研究が活発化している。 2017 2018 2019 2020 2021 2022 2023 2024 CV分野をCNNが席巻 ViTの台頭いくつかの研究は、ViTの強力な性能は、その大きな受容野によるものであるとしている。 self-attentionメカニズムにより、 ViTは広い空間範囲から文脈情報を捉え、長距離の依存関係をモデル化することができる。 CNNの対抗 ViTの進展に触発され、CNNはカーネルサイズの拡大などにより対抗してきた。例えばCNNにラージカーネルを装備する研究が盛ん。これにより、様々な視覚タスクにおいて、ViTと同等か、それ以上の性能を発揮できることが明らかになっている。受容野（正確には有効受容野）の拡大も確認されている。

CNN(Convolutional Neural Network)の概要確認 CNN：画像認識に特化したディープラーニングモデルの1つ「畳み込み層」＆「プーリング層」を複数回繰り返し、最後に全結合層を用いて結果を出力するモデルが基本形。 3クラス分類の例畳み込み層：エッジなどの特徴を抽出する層プーリング層：画像サイズを小さくする層全結合層：前後の層の全ニューロンを接続する層特徴マップの枚数特徴マップの枚数

畳み込みの確認 3×3の畳み込みカーネルを用いて、4×4の特徴マップから2×2の特徴マップを得る例 GIFは「https://www.hellocybernetics.tech/entry/2018/03/10/191024」より引用 3×3の畳み込みカーネルを用いて、 4×4の特徴マップ3枚から2×2の特徴マップ2枚を得る例重みカーネルバイアス入力特徴マップ出力特徴マップ + (補足)層間の重みの数＝入力特徴マップ数×出力特徴マップ数×カーネルサイズ×カーネルサイズ＋バイアス数(出力特徴マップ数)

https://www.hellocybernetics.tech/entry/2018/03/10/191024

ViTの台頭引用元：「https://arxiv.org/abs/2101.09336」

https://arxiv.org/abs/2101.09336

ViTの高性能要因 ※だいぶ前に自作