【ゼロから作るDeap Learning】8.4~8.6

357 Views

July 07, 25

#ディープラーニング #コンピュータビジョン #強化学習 #画像生成 #応用事例

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.1K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22.9K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 21K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 18.3K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 12.1K

各ページのテキスト

2025年度前期輪読会ゼロから作るDeep Learning #11 第8章ディープラーニング (8.4~8.6) 京都大学工学部情報学科数理工学コース B3 稲葉陽孔 1

アジェンダ ■ ディープラーニングの実用例 ■ ディープラーニングの未来 2

ディープラーニングの実用例物体検出画像中から物体の位置を特定し、クラス分類するタスク物体認識との違い・クラスの位置まで特定・複数の物体を検出物体検出に使われているモデル・R-CNN ・Faster R-CNN 3

ディープラーニングの実用例（物体検出） R-CNN 1.Selective Searchによって画像から候補領域（黄色の枠）を抽出 2.抽出した各領域を224×224にリサイズし、CNNに入力して特徴量を算出 3.2で取得した特徴量から、各クラスの確率を推定 4

ディープラーニングの実用例セグメンテーション画像に対して、ピクセル単位でクラス分類を行うタスク考えられる手法元画像セグメンテーション後の画像全てのピクセルにおいて、ピクセルごとに推論処理を行う ex.とある長方形領域に対し、それの中心のピクセルに関して推論するモデルを用いて1px毎に推論 ※推論結果では、各pxにおいてどの確率でどの物体であるかを出力課題点ピクセルの数だけ推論処理を行うので計算量が膨大 (畳み込み演算で多くの領域を再計算するので無駄な計算が多い） →FCNによってこの問題を解決 5

ディープラーニングの実用例 FCN（Fully Convolutional Network）全てが畳み込み層で構成されてるNeural Network CNNにおける全層結合層を全て「同じ働きをする畳み込み層」に置き換えたもの全層結合の箇所(CNN) 終盤の層に存在する全層結合の置き換え方 ex. 32×10×10の入力データに対して100次元のベクトルを出力する全層結合を置き換える →32×10×10から1×1の値を出力する畳み込み層を100回用いて代替(1×10×10で出力) 6

ディープラーニングの実用例 FCNの特徴・全層結合によって中間データのサイズは１列のノードとして一定のサイズになるが、畳み込み層のみなのでそのサイズを保ったまま計算できる・最後に空間サイズを拡大する逆畳み込みを行う逆畳み込み 1.strideに応じて入力データのピクセル間に余白を入れる 2.入力データの周囲に余白を取る 3.paddingに応じて入力データの周囲を切り取る 4.畳み込み処理を行う ※FCNでは、この処理がバイリニア補間と同等になるよう初期値を設定 7

ディープラーニングの実用例バイリニア補間周囲の４点を元に、各座標における求めたい箇所との距離の積を逆比として補間式（バイリニア補間） 8

ディープラーニングの実用例画像キャプション生成画像に対応する説明文を生成するタスク NIC(仕組み) 1.CNNによって特徴量を取得 2.1で得られた特徴量を元にRNNでキャプション生成 NICの特徴 CNNとRNNを直接つながっているので、CNN の視覚特徴とRNNの言語特徴が同じ埋め込み空間に位置する 9

10.

ディープラーニングの未来画像スタイルの変換とある絵のスタイルを元に絵を作りなおすタスクコンテンツ画像とスタイル画像を元に画像を生成＋コンテンツ画像 ↓ スタイル画像 ※コンテンツ画像：変換したい元の写真スタイル画像：適用したい絵のスタイル提案された手法 1.VGG（事前学習済）によってコンテンツ画像とスタイル画像から特徴量を取得 2.白い画像を初期値とし、画像Xと1で取得した特徴量を元に損失を計算し、それを元に画像を更新 3.2で更新を続けて得られた画像Xを生成結果とする生成結果 ※損失には「スタイル画像とスタイルが似ているか」と「コンテンツ画像と画像が似ているか」を考慮 10

11.

ディープラーニングの未来取得する特徴量(提案された手法) コンテンツ特徴：VGGの上位層における特徴マップ（コンテンツ画像から取得）スタイル特徴：VGGの各層での特徴マップにおける相関行列（スタイル画像から取得）損失関数(提案された手法) L_c：コンテンツ画像と画像Xにおけるコンテンツ特徴の誤差 L_s：各層におけるスタイル画像と画像Ｘのスタイル特徴の誤差最終的な損失：αL_c+βL_s(α・βは定数) 11

12.

ディープラーニングの未来学習・生成画像生成 → 事前学習用の画像を元に、それらとは別の画像を生成するタスク DCGAN（仕組み）学習用データ(犬) 生成画像(犬・学習用データにはない） 1.生成CNN(生成器)を元に、潜在変数(一様乱数) から画像を生成 2.本物の画像と1で生成した画像を混ぜ、識別CNN(識別器)を元に本物か否かを識別 3.2の結果と実際の結果を元に、識別器と生成器を学習 4.1~3を繰り返して学習 5.生成CNNを元に潜在変数(一様乱数)から画像を生成 ※生成器は識別器に偽物と見破られたことを、識別器は本物と偽物を勘違いしたことを損失関数として用いる 12

13.

ディープラーニングの未来画像関連における教師なし学習(DCGAN)と教師あり学習の違い教師あり学習：画像と教師ラベルが対応し(ex.手書き文字認識)、それを元に学習教師なし学習：画像のみが与えられ、それを元に学習教師あり学習と教師なし学習の違い（一般論） 13

14.

ディープラーニングの未来自動運転ドライバーの操作なしで、自動で運転させるタスク周囲の環境（人・信号の点滅など）を正しく認識するのが重要近年ではその環境認識のためにディープラーニングが注目されている環境認識用のモデル（SegNet） RGB画像から、セグメンテーションをするモデル従来のものと比べて推論に用いるメモリが小さい推論の高速化・高精度化によって自動運転の実現を試みている 14

15.

ディープラーニングの未来強化学習 1.エージェントが環境の状態に応じて行動する 2.1での行動に伴って環境が変化し、報酬をエージェントに渡す 3.2で与えられた報酬を元に、より良い報酬を得られるようにエージェントが学習 4.1~3を繰り返すの4ステップによって学習すること教師あり学習との違い教師あり学習では、出力結果が正しいか学習データから確実に検査できるが強化学習ではそれを行わず、報酬関数によって出力結果の正しさを疑似的に検査 15

16.

ディープラーニングの未来 DQN(Deep Q-Network) 最適な行動を選択する際のモデルがディープラーニング(CNN)であり、Q学習によって学習する Q学習ある環境Yにおいて、行動Xをした後に最適な行動を繰り返したら、最終的な報酬の総和がどうなるかを元に学習の際の報酬（Q値）を設計すること式：現在の環境から行動Xをした際の価値（Q値）＝行動Xによる報酬＋行動Xによって変化した環境下で行動を続ける場合に得られる最大報酬 ※DQNでは、aステップ先の報酬はα^a倍して寄与度を小さくする(0<α<1) 16