119 Views
July 07, 25
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
2025年度前期輪読会 ゼロから作るDeep Learning #11 第8章 ディープラーニング (8.4~8.6) 京都大学 工学部 情報学科 数理工学コース B3 稲葉 陽孔 1
アジェンダ ■ ディープラーニングの実用例 ■ ディープラーニングの未来 2
ディープラーニングの実用例 物体検出 画像中から物体の位置を特定し、クラス分類するタスク 物体認識との違い ・クラスの位置まで特定 ・複数の物体を検出 物体検出に使われているモデル ・R-CNN ・Faster R-CNN 3
ディープラーニングの実用例(物体検出) R-CNN 1.Selective Searchによって画像から候補領域(黄色の枠)を抽出 2.抽出した各領域を224×224にリサイズし、CNNに入力して特徴量を算出 3.2で取得した特徴量から、各クラスの確率を推定 4
ディープラーニングの実用例 セグメンテーション 画像に対して、ピクセル単位でクラス分類を行うタスク 考えられる手法 元画像 セグメンテーション後の画像 全てのピクセルにおいて、ピクセルごとに推論処理を行う ex.とある長方形領域に対し、それの中心のピクセルに関して推論するモデルを用いて1px毎に推論 ※推論結果では、各pxにおいてどの確率でどの物体であるかを出力 課題点 ピクセルの数だけ推論処理を行うので計算量が膨大 (畳み込み演算で多くの領域を再計算するので無駄な計算が多い) →FCNによってこの問題を解決 5
ディープラーニングの実用例 FCN(Fully Convolutional Network) 全てが畳み込み層で構成されてるNeural Network CNNにおける全層結合層を全て「同じ働きをする畳み込み層」に置き換えたもの 全層結合の箇所(CNN) 終盤の層に存在する 全層結合の置き換え方 ex. 32×10×10の入力データに対して100次元のベクトルを出力する全層結合を置き換える →32×10×10から1×1の値を出力する畳み込み層を100回用いて代替(1×10×10で出力) 6
ディープラーニングの実用例 FCNの特徴 ・全層結合によって中間データのサイズは1列のノードとして一定のサイズになるが、 畳み込み層のみなのでそのサイズを保ったまま計算できる ・最後に空間サイズを拡大する逆畳み込みを行う 逆畳み込み 1.strideに応じて入力データのピクセル間に余白を入れる 2.入力データの周囲に余白を取る 3.paddingに応じて入力データの周囲を切り取る 4.畳み込み処理を行う ※FCNでは、この処理がバイリニア補間と同等になるよう初期値を設定 7
ディープラーニングの実用例 バイリニア補間 周囲の4点を元に、各座標における求めたい箇所との距離の積を逆比として補間 式(バイリニア補間) 8
ディープラーニングの実用例 画像キャプション生成 画像に対応する説明文を生成するタスク NIC(仕組み) 1.CNNによって特徴量を取得 2.1で得られた特徴量を元にRNNでキャプション生成 NICの特徴 CNNとRNNを直接つながっているので、CNN の視覚特徴とRNNの言語特徴が同じ 埋め込み空間に位置する 9
ディープラーニングの未来 画像スタイルの変換 とある絵のスタイルを元に絵を作りなおすタスク コンテンツ画像とスタイル画像を元に画像を生成 + コンテンツ画像 ↓ スタイル画像 ※コンテンツ画像:変換したい元の写真 スタイル画像:適用したい絵のスタイル 提案された手法 1.VGG(事前学習済)によってコンテンツ画像 とスタイル画像から特徴量を取得 2.白い画像を初期値とし、画像Xと1で取得した特徴 量を元に損失を計算し、それを元に画像を更新 3.2で更新を続けて得られた画像Xを生成結果とする 生成結果 ※損失には「スタイル画像とスタイルが似ているか」と 「コンテンツ画像と画像が似ているか」を考慮 10
ディープラーニングの未来 取得する特徴量(提案された手法) コンテンツ特徴:VGGの上位層における特徴マップ(コンテンツ画像から取得) スタイル特徴:VGGの各層での特徴マップにおける相関行列(スタイル画像から取得) 損失関数(提案された手法) L_c:コンテンツ画像と画像Xにおけるコンテンツ特徴の誤差 L_s:各層におけるスタイル画像と画像Xのスタイル特徴の誤差 最終的な損失:αL_c+βL_s(α・βは定数) 11
ディープラーニングの未来 学習・生成 画像生成 → 事前学習用の画像を元に、それらとは別の画像を生成するタスク DCGAN(仕組み) 学習用データ(犬) 生成画像(犬・学習用 データにはない) 1.生成CNN(生成器)を元に、潜在変数(一様乱数) から画像を生成 2.本物の画像と1で生成した画像を混ぜ、 識別CNN(識別器)を元に本物か否かを識別 3.2の結果と実際の結果を元に、識別器と生成器を学習 4.1~3を繰り返して学習 5.生成CNNを元に潜在変数(一様乱数)から画像を生成 ※生成器は識別器に偽物と見破られたことを、 識別器は本物と偽物を勘違いしたことを損失関数として用いる 12
ディープラーニングの未来 画像関連における教師なし学習(DCGAN)と教師あり学習の違い 教師あり学習:画像と教師ラベルが対応し(ex.手書き文字認識)、それを元に学習 教師なし学習:画像のみが与えられ、それを元に学習 教師あり学習と教師なし学習の違い(一般論) 13
ディープラーニングの未来 自動運転 ドライバーの操作なしで、自動で運転させるタスク 周囲の環境(人・信号の点滅など)を正しく認識するのが重要 近年ではその環境認識のためにディープラーニングが注目されている 環境認識用のモデル(SegNet) RGB画像から、セグメンテーションをするモデル 従来のものと比べて推論に用いるメモリが小さい 推論の高速化・高精度化によって自動運転の実現を試みている 14
ディープラーニングの未来 強化学習 1.エージェントが環境の状態に応じて行動する 2.1での行動に伴って環境が変化し、報酬をエージェントに渡す 3.2で与えられた報酬を元に、より良い報酬を得られるように エージェントが学習 4.1~3を繰り返す の4ステップによって学習すること 教師あり学習との違い 教師あり学習では、出力結果が正しいか学習データから確実に検査できるが 強化学習ではそれを行わず、報酬関数によって出力結果の正しさを疑似的に検査 15
ディープラーニングの未来 DQN(Deep Q-Network) 最適な行動を選択する際のモデルがディープラーニング(CNN)であり、Q学習によって学習する Q学習 ある環境Yにおいて、行動Xをした後に最適な行動を繰り返したら、最終的な報酬の総和がどうなるかを元 に学習の際の報酬(Q値)を設計すること 式:現在の環境から行動Xをした際の価値(Q値) =行動Xによる報酬+行動Xによって変化した環境下で行動を続ける場合に得られる最大報酬 ※DQNでは、aステップ先の報酬はα^a倍して寄与度を小さくする(0<α<1) 16