Low-levelに見るニューラルネットワーク

1.9K Views

September 16, 23

#Neural Network #Machine Learning #Low-level Understanding #Function Approximation #Data Understanding

スライド概要

Satoshi Kashima

@6678794

スライド一覧

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.6M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.3M

Meta XR SDK(V66-74)でQuestアプリを開発

spatial anchor unity quest pro shaperecognizeractivatestate oculus integration transformfeaturestateprovider building blocks transformrecognizeractivestate ovrsemanticclassification jointdeltaprovider ovrscenemanager jointvelocityactivestate オクルージョン sequenceactivestate scene manager ambisonic depth api metaxraudiosource playerlocomotor meta xr sdk quest3 ovrplayercontroller マルチモーダル meta haptics studio direct touch ui meta xr haptics sdk ovrspatialanchor ovrtrackedkeyboard hapticclipplayer fingerfeaturestateprovider hapticclip ワイドモーションモード wmm mruk mr utility kit voice sdk jointrotationactivestate meta horizon os ui set asw application spacewarp ovr metrics tool unityscene manager colocation discovery コロケーション mx ink passthrough camera api hand tracking microgestures webcamtexturemanager passthroughcamerautils cameraviewermanager hand pose selector recorder

あうぜん 1.1M

UE5レンダリングフロー総おさらい(2024) 基礎編！[CEDEC+KYUSHU 2024]

ue5 unreal engine ue-rendering

エピックゲームズジャパン 1M

猫でも分かる UE5.0, 5.1 におけるアニメーションの新機能について【CEDEC+KYUSHU 2022】

ue5 cedec+kyushu ue-animation ue-optimize ue-bp ue-physics ue-sequencer

エピックゲームズジャパン 1M

各ページのテキスト

Low-levelに見るニューラルネットワーク Universal Approximation theoremについて

問題定義 • ニューラルネットワークがなぜ関数近似をできるのかはブラックボックスになりがち。 • 僕もなんとなく、「たんくさん線形関数を活性化関数で繋げてるから」で理解が終わっていた。 • もう少しlow-levelに、どうやってニューラルネットワークが関数を近似しているのかを理解したい

目次 1. 前提：機械学習をどう見るか 2. 主題：ニューラルネットワークの理解

前提：low-levelに機械学習を見る

3つの視点で機械学習を見る 1. 機械学習 as 関数近似 2. 機械学習 as データに対する値の振り分け 3. 機械学習 as if-elseの自動生成

機械学習 as 関数近似 • 機械学習はlow-levelに見るとただの関数近似。 • True/population distributionのモデルをデータを通して作る。 True / Population distribution sample Data approximate Model

機械学習 as 関数近似（kind of） ML = 1. データがあるときに、それに一番fitする線を引く 2. データのノイズを学んでしまうことを防ぐために、 regularizeする。 1と2を合わせて、近似関数のfit度を客観的に説明するために、損失関数を定義し、それを最小化する。 1 2 L(𝜃) = 𝑦 − 𝑦ො𝜃 + 𝑤 𝑎𝑟𝑔min 𝐿(𝜃) 𝜃

機械学習 as データに対する値の振り分け • もっとlow-levelに見ると、データを境界線でグループに分けて、それぞれに固有の値を当てはめている（単回帰は全てのグループに一つの値しかない、グループ分けと考えることができる。） class1 特徴 x_2 class1 class1 特徴 x_2 class1 class1 class2 データを小分けにした後、分類の場合はクラスを振って、回帰の場合は実数を振る。 class2 特徴 x_1 特徴 x_1 決定木サポートベクターマシン

機械学習 as データに対する値の振り分け - 特徴量3つ - 回帰 - （決定木）の場合：それぞれのグループは直方体で表される（平面をz 軸に伸ばす）画像のソース: https://github.com/parrt/dtreeviz

https://github.com/parrt/dtreeviz

10.

機械学習 as if-elseの自動生成前のスライドの「データの小分け&値の振り分け」は、「if-elseの生成」だと言い換えることができる。決定木 if x > 10: return 5 else: if y in {class1}: return 30 else: return 20 特徴x > 10 同じ特徴y in {class1} Oup=5 Oup=30 Oup=20

11.

主題: ニューラルネットワークをlow-levelに見る

12.

問題設定一般的なニューラルネットワーク特徴量が一つしかない、回帰用のニューラルネットワークを考える。また、隠れ層は1つで、二つのノードがあることを考える。 b 今回扱うニューラルネットワーク 1 左のニューラルネットワークの𝑤1 とb、 1 𝑤2 とb、を媒介変数で表示することで、以下のようなシンプルなネットワークを考える。活性化関数にはステップ関数を使う。 𝑠1 𝑤1 𝑤1 1 input 𝑤2 1 2 𝑤2 2 𝑤1 output input 2 𝑤2 𝑠2 2 output

13.

問題設定2 1 ここではインプットに対して何もせず、活性化関数の部分で、インプットがs_1以上だったら、発火させる。後の説明を分かりやすくするために、𝑤1 1 とb、 𝑤2 とb、それぞれを、媒介変数𝑠1 と𝑠2 を使い表現する。これらは、hidden nodeのstep 関数の発火閾値を示す。 𝑠1 𝑤1 2 1 input 𝑤2 𝑠2 2 output 𝑥𝑤1 + 𝑏 ≥ 0 1 𝑥 ≥ −𝑏/𝑤1 1 𝑠1 ≔ −𝑏/𝑤1 => step関数は𝑠1 以上だと発火する。𝑠2 も同様に 1 （ 𝑤2 を使って）定義する。

14.

計算例入力値が4だとすると、 s_1 = 上のルート： 4>3だから、1が右に流れて、 1*5=5だから5がoutput node に届く。下のルート： 4<5だから、0が右に流れて、 0*10=0だから、0がoutput nodeに届く。 s_2 = よって、上のルートから流れてくる信号と下のルートから流れてくる信号を足して、 5+0=5が出力となる。

15.

重要なimplication 閾値 s_1 = 3 5 Result Combined input output 10 閾値 s_2 = 5 ここで重要なのはインプットが真ん中のレイヤーを通るときに三つのパターンがあるということ。 1) （上と下のノードの）どちらも発火（＝閾値以下になる）しない 2) 片方が発火する 3) 両方が発火する例えば、左の例についてそれぞれの入力値について、 1) 3未満だとどちらのノードも発火しない 2) 3以上かつ5未満だと上のノードだけ発火する 3) 5以上だと両方が発火する

16.

Exploration 1 – 入力値を変えてみる • いろんな入力値を前のneural networkに入れてみて、その出力値をグラフにしてみる。閾値 s_1=3 5 15 Result Combined 5 input output 10 閾値 s_2 = 5 0 3 5

17.

Exploration 1 – 入力値を変えてみる関数に三つのbump(違う高さの線)があることが分かる。これは先ほど挙げた隠れ層の発火の仕方が三通りあるからだ。 1) 3未満だとどちらのノードも発火しない→それぞれのルートの出力は0*5=0と0*10=0→最終的な出力値は0+0=0 2) 3以上かつ5未満だと上のノードだけ発火する→それぞれにルートの出力値は1*5=5と0*10=0→最終的な出力値は0+5=5 3) 5以上だと、両方のノードが発火する→それぞれにルートの出力値は1*5=5と1*10=10 →5+10=15

18.

Exploration 2 – 閾値 (wとb)を変えてみる • ここで閾値s_1, s_2を変えるとグラフがどう変わるか見てみる。 • まずは重みを変えてみる。→ 下のルートの重みを10から-7に変えると、両方のニューロンが発火した場合、-7+5=-2となることが分かる閾値=3 5 Result Combined 5 input output -7 閾値=5 0 -2 3 5

19.

Exploration 2 – 閾値 (wとb)を変えてみる • もともと3以上なら、発火していたが、閾値を0にしたことで、 0以上でも出力値が5以上になっていることが分かる。閾値=0 15 5 Result Combined 5 input output 10 閾値=5 -1 0 3 5

20.

Exploration 2 – 閾値 (wとb)を変えてみる • つまり閾値をいくつか用意して、インプットがその内どれくらい当てはまるかで、アウトプットの値を変えてる。 • 何も当てはまらなかったらoutput=0で、1つ当てはまったら output=aで、2つ当てはまったらoutput=bで、… • これによって、「この範囲のインプットは、aくらいの大きさのアウトプットで」、「また別の範囲のインプットはbくらいの大きさのアウトプット」のように様々な関数を表現できるようになる。

21.

結論1? ～「振り分け」の考え方で Neural networkのパラメター（閾値・重み）を変えることで、1次元の場合分けをカスタムに変更することができる＝様々な関数を生成できる最初の層がデータを小分けにして、最後の層のwがそれぞれのグループに値を振り分けている。

22.

結論1? ～「振り分け」の考え方で閾値=4 単純計算をすれば、一層しかない場合、発火される combinationは全部で、#hidden nodes 個。(これは、node Aが発火された場合、 𝑠𝐴 以下の閾値sを持つ全てのnodeも発火されるから）閾値=3 7 8 閾値=0 5 input → 与えられたデータに対して、 #hidden nodes個の小分けができ、それぞれに違う値を振り分けることができる。 output 10 閾値=5 →1層でも無限にhidden nodeを増やせば、無限個のグループが作れる。→ smoothな近似関数を作ることが可能

23.

結論2? – if-elseの考え方で • これは、if-elseで場合分けしてるのと同じ if input < threshold A: return 0 elif input >= threshold A and input < threshold B: return w_1 else: # input >= threshold B return w_2

24.

Exploration – width vs. height of NN 8 5 output output 10 縦に長くする（#node per hidden layerを増やす）横に長くする（hidden layerを増やす）どっちの方がいいのか？

25.

Exploration – width vs. height of NN 前提：どちらでも、どんな関数でも近似できる。横にすると、[# hidden nodes/layer]**l個分のパターンができる(lはレイヤー数)。（これは、一層目の後の発火パターンはn個で、次の層では、n個それぞれにつき、また、n個の発火パターンが考えられるから。） →ノード数が少なくても、莫大なパターンを作り出すことができる。 output

26.

Exploration – width vs. height of NN widthとheightを増やすことの違いはインプットスペースの分割の仕方の違いから見ることができる 0 3 5 一層目がデータのグループ化全てを担当している。 0 3 5 赤：一層目のhidden layerによるデータの小分け緑：二層目のhidden layerによるデータの小分け →最初のレイヤーが大雑把にデータをグループ化して、次のレイヤー、それをさらに細かくグループ化していくイメージ

27.

画像系のarchitectureはheightを増やす https://stackoverflow.com/questions/38450104/how-tovisualize-filters-after-the-1st-layer-trained-by-cnns https://stackoverflow.com/questions/38652638/how-topropagate-error-from-the-conv-layer-to-previous-layer-inlenet-5-cnn 画像のように元のデータにノイズが多い（＝単語で表される画像内の被写体についての情報に比べて、冗長な情報が多い）場合、徐々にデータの特徴を掴み＆分類していった方がいい→height を増やした方がいい。

28.

念のために： • ここで説明したのはneural networkがどんな関数でも表現できるという話 • いくらどんな関数でも表現できるからと言って、データに一番合う関数を「学習」できるとは限らない。 • backpropを使う場合、ニューラルネットワーク内の全てにstableな gradientが存在していないといけない。そのため、上の例ではstep 関数を活性化関数として用いたがこれを、sigmoidやrelu (またはもっと高度な活性化関数)が使われる必要がある。 • 時間があったら、どうゆう機能やレイヤーがあれば、ニューラルネットワークが上手く学習できるのか、についてもスライドを投稿する。

29.

参考 • 1次元のインプットだけではなく、2次元以上のインプットについても説明してくれてる • http://neuralnetworksanddeeplearning.com/chap4.html

http://neuralnetworksanddeeplearning.com/chap4.html