【ゼロから作るDeap Learning】4.3~4.4

387 Views

May 19, 25

#勾配法 #数値微分 #勾配 #ニューラルネットワーク #機械学習

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.1K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22.9K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 21.3K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 18.5K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13.1K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 12.1K

各ページのテキスト

2025年度前期輪読会 # (2025/5/19) ニューラルネットワークの学習 4.3~4.4 東京理科大学創域理工学部社会基盤工学科 B2 岩田冨雅 0

アジェンダ ◼ 数値微分 4.3.1 微分 4.3.2 数値微分の例 4.3.3 偏微分 ◼ 勾配 4.4.1 勾配法 4.4.2 ニューラルネットワークに対する勾配 1

4.3 数値微分 2

4.3.1 微分数値微分を理解し、実装する・微分の定義 𝑑𝑓 𝑓 𝑥+ℎ −𝑓 𝑥 = lim ℎ→0 𝑑𝑥 ℎ ・数値微分の実装例（問題点あり）幅hをなるべく小さく設定してみる（今回はh = 10^-50) 解析的な微分結果は4であるが、数値微分すると0.0になってしまう 3

4.3.1 微分実装上の2つの問題点 ① h の値が小さすぎるため、丸め誤差が発生 → h を 10^-4 程度にすると良い結果が得られる解析的な微分結果に近づいた！ 4

4.3.1 微分実装上の2つの問題点 ②前方差分では誤差が大きい → 中心差分を使用することで精度向上 𝑑𝑓 𝑓 𝑥+ℎ −𝑓 𝑥−ℎ 中心差分による数値微分： = lim ℎ→0 𝑑𝑥 2ℎ 中心差分による数値微分のほうが精度が高い！ 5

4.3.2 数値微分の例数値微分と解析的な微分を比較する 𝑦 = 0.01𝑥 2 + 0.1𝑥 上の2次関数を、 x = 5 と x = 10 で数値微分し、解析的な解と比較する。 6

4.3.2 数値微分の例数値微分と解析的な微分を比較する厳密には一致していないが、ほとんど同じ値とみなすことができる程度の小さな誤差である。 x = 5 と x = 10 における接線 7

4.3.3 偏微分偏微分の計算を理解する偏微分：複数の変数を持つ関数において、特定の1つの変数に注目し、他の変数を定数とみなして微分すること例： 𝑓 𝑥0 , 𝑥1 = 𝑥0 2 + 𝑥1 2 𝑥0 = 3, 𝑥1 = 4 のときの、 𝑥0 に対する偏微分１.解析的な偏微分 2.数値微分 𝜕𝑓 = 2𝑥0 𝜕𝑥0 𝑥0 = 3 を代入して、6 8

10.

4.4 勾配 9

11.

4.4 勾配 −∇𝑓 は、関数の値を最も減らす方向を指す勾配：全ての変数(NNでは重み・バイアス）の偏微分をベクトルとしてまとめたものその点で関数が最も増加する方向を示す 𝜕𝑓 𝜕𝑓 ∇𝑓 = 𝑔𝑟𝑎𝑑𝑓 = , 𝜕𝑥 𝜕𝑦 −∇𝑓 はその点で目的関数が最も減少する方向を指す 𝜕𝑓 𝜕𝑓 −∇𝑓 = −𝑔𝑟𝑎𝑑𝑓 = − , 𝜕𝑥 𝜕𝑦 10

12.

4.4 勾配 −∇𝑓 は、各点において関数が最も減少する方向を示す 𝑓 𝑥0 , 𝑥1 = 𝑥0 2 + 𝑥1 2 𝜕𝑓 𝜕𝑓 , ) 𝜕𝑥0 𝜕𝑥1 −∇𝑓 = −( = −(2𝑥0 , 2𝑥1 ) −∇𝑓 をベクトル場として可視化関数fの最小値(0, 0)を指している 11

13.

4.4.1 勾配法勾配法で、目的関数の極小値を探索する勾配法：勾配を利用して関数の極小値を探す手法。現在地から勾配が示す方向に一定距離だけ進むステップを繰り返す 𝒙𝒏𝒆𝒘 = 𝒙𝒄𝒖𝒓𝒓𝒆𝒏𝒕 − η𝜵𝒇(𝒙𝒄𝒖𝒓𝒓𝒆𝒏𝒕 ) η：学習率 1回の更新でどれだけ進むかを決めるパラメータ 𝒙𝒏𝒆𝒘 : 勾配方向に一定距離進んだ後の位置 𝒙𝒄𝒖𝒓𝒓𝒆𝒏𝒕 : 現在の位置 𝜵𝒇 𝒙𝒄𝒖𝒓𝒓𝒆𝒏𝒕 : 現在位置における勾配 12

14.

4.4.1 勾配法勾配法の実装目的関数： 𝑓 𝑥0 , 𝑥1 = 𝑥0 2 + 𝑥1 2 学習率：𝑙𝑟 = 0.1 ステップ数：𝑠𝑡𝑒𝑝𝑠 = 100 最終的なxが目的関数の最小値とほぼ一致している 13

15.

4.4.1 勾配法勾配法の途中経過関数の最小値である原点に向かって、徐々に近づいていることがわかる 14

16.

4.4.1 勾配法学習率の設定 ①学習率が大きすぎる場合・パラメータの更新が大きすぎるため、最小値を通り過ぎてしまう・更新を繰り返すうちに発散してしまう可能性あり ②学習率が小さすぎる場合・パラメータの更新が小さいため、最小値への到達に多くのステップ（時間）が必要 15

17.

4.4.2 ニューラルネットワークに対する勾配簡単なNN(simpleNet)の実装 NNの学習目的：損失関数 𝐿 を最小にするような重みパラメータ 𝑊 をみつける勾配：損失関数が各重みパラメータの変化に対してどれだけ変化するかを示す例：2×3 の重み行列をもつNN 重み行列： 𝑤11 𝑊= 𝑤 21 𝑊 に対する損失関数 𝐿 の勾配： 𝜕𝐿 𝜕𝑤11 𝜕𝐿 𝜕𝑤21 𝜕𝐿 = 𝜕𝑊 𝑤12 𝑤22 𝑤13 𝑤23 𝜕𝐿 𝜕𝑤12 𝜕𝐿 𝜕𝑤22 𝜕𝐿 𝜕𝑤13 𝜕𝐿 𝜕𝑤23 16

18.

4.4.2 ニューラルネットワークに対する勾配簡単なNN(simpleNet)の実装 17

19.

まとめ・勾配は「関数の変化が最も大きい方向」を示す道標・勾配法は「勾配の逆向きに少しずつ進む」最適化手法・学習率の調整が効率的な学習の重要なポイント →コードで実装してみよう →コードで実装してみよう 18

https://colab.research.google.com/drive/1maW_INMQ0vq4OLmT9lUGqwjp1JRu4EqZ#scrollTo=G8W41FNxWo5v