【ゼロから作るDeap Learning】7.1~7.3

>100 Views

June 30, 25

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

2025年前期輪読会#10「ゼロから作るDeep Learning」 7章 畳み込みニューラルネットワーク 7.1~7.3 京都大学大学院理学研究科 M2 佐藤海里 0

2.

アジェンダ ◼ 7.1 全体の構造 ◼ 7.2 畳み込み層 ◼ 7.3 プーリング層 ◼ まとめ 1

3.

7.1 畳み込みニューラルネットワーク(CNN)とは? 画像や音声などのデータを処理するためのニューラルネットワーク。 特徴を自動的に抽出し、分類や認識に使われる。 通常の全結合NNとの違い • データの形状を保ったまま理解できる • 局所的な特徴を捉え、位置のずれに強い • パラメータの数が少なく、画像処理に適している 2

4.

7.1 CNNの構造について https://www.docswell.com/s/kyoto-kaira/KGX98N-2024-07-08-193024#p11より引用 • 畳み込み層(Conv)、プーリング層(Pooling)が追加 • 出力に近い層ではこれまでのNNと同様の組み合わせ • Softmax層で、最終結果(確率)を出力 3

5.

7.2 畳み込み層 で行われている処理 小さな行列(フィルター)を画像の一部にスライドしながら乗算・加算する。(畳み込み演算) これにより、画像の形状、空間的情報を保ったまま局所的な特徴の抽出を行うことができる。 • フィルターのパラメータが今までの「重み」に対応 • 最後にバイアスを加算し、出力(各成分にバイアスを加算) 4

6.

7.2 パディングとは? 入力データの周囲を固定のデータ(例えば0など)で埋める手法のこと。 これにより、出力データのサイズを大きくすることが出来る。 • 周囲を幅1ピクセルの0で埋めることを幅1のパディングという。 • 上では幅1のパディングを施した。 • これにより、出力サイズが5×5になった。 5

7.

7.2 ストライドとは? フィルターを適用する位置の間隔のこと。 ストライドを増やすことで、出力データのサイズを小さくすることができる。 通常の全結合NNとの違い • 局所的な特徴を捉え、位置のずれに強い • データの形状を維持して理解できる • 画像の読み取り具合を大雑把にする意味合いを持つ。 • 上の例だと出力サイズが3×3から2×2に小さくなっている。 6

8.

7.2 入出力サイズの関係式 入力サイズと出力サイズの間にある関係式を下に示す。 • 入力サイズ:(H,W) • フィルターサイズ:(FH,FW) • パディング:P • ストライド:S • 出力サイズ:(OH,OW)とする。このとき、 𝑂𝐻 = 𝑂𝑊 = 𝐻+2𝑃−𝐹𝐻 +1 𝑆 𝑊+2𝑃−𝐹𝑊 𝑆 +1が成立。 ⚫これが割り切れるようにPやSなどを設定する必要がある。 ⚫割り切れないときは最も近い整数に丸めるなどする。 7

9.

7.2 3次元データの場合 縦・横方向に加えてチャンネル(奥行き)方向も増える。 チャンネルごとに入力データとフィルターの畳み込み演算を行い、それらを足して、出力を得る。 https://qiita.com/nvtomo1029/items/601af18f82d8ffab551eより引用 ⚫(入力データのチャンネル数)=(フィルターのチャンネル数)となる必要がある。 8

10.

7.2 ブロックによる表現 ブロックで考えると分かりやすい。 ブロックのフィルターを複数用意することで、出力データのチャンネル数を増やせる。 https://qiita.com/yakof11/items/2e187f7d9f253b500295より引用 ⚫実際には最後に各チャンネルごとに異なるバイアスの値を加えて出力 ⚫バッチ処理に対応するために、各層には4次元のデータとして格納する (batch_num,channel,heigt,width) 9

11.

7.3 プーリング層で行われる処理 縦・横方向の空間を小さくしている(プーリング)。 各領域の最大値などを取り、一つの要素に集約する。 ⚫プーリングのウィンドウとストライドは同じ値に設定 ⚫Maxプーリングの他に、Averageプーリングなどもある。 10

12.

7.3 プーリング層の特徴 ⚫学習するパラメータがない ⚫チャンネル数に変化はなし ⚫微少な変化に対してロバスト(頑健) 11

13.

まとめ ⚫CNNでは畳み込み層、プーリング層により、特徴の抽出を 行っている。 ⚫畳み込み層では、畳み込み演算によって、元のデータの形状 を保って特徴の抽出ができる。 ⚫プーリング層では縦横サイズの縮小を行う。 12