【生成Deap Learning 第2版】3.1~3.2

107 Views

May 01, 25

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

2025年度 前期輪読会 第1回 [生成Deep Learning] 第3章 変分オートエンコーダ (3.1~3.2) 京都大学 経済学部 3回 大澤 衡正 0

2.

アジェンダ ◼ 概要 ◼ オートエンコーダの実装 ◼ 学習 ◼ 考察 本スライドの内容の実装は下記のレポジトリで公開しています https://github.com/OsawaKousei/auto_encoder 1

3.

概要 オートエンコーダのキーとなるアイデアとアーキテクチャについて説明します 参考書ではFashion-MNISTデータセットを使って説明がされています。 Fashion-MNISTは左のような グレースケールの衣類画像データセットです 画像のサイズは28*28となっています 今回のオートエンコーダでは、 「Fashion-MNISTに含まれるような衣類画像の特徴量を2次元平面に埋め込む」ことを考えます • データセットに含まれる画像の特徴量はエンコーダによって平面のどこかに埋め込まれます • そして、それはデコーダーを通じて元の画像に近い画像へ復元することができます このアイデアの優れているところは、「デコーダーを生成モデルとして使うことができる」点です データセットに存在する衣服が対応しない点から、全く新しい衣服を生成することができるのです 2

4.

オートエンコーダの実装 (Pytorch Version) Encoder, Decoderとオートエンコーダ全体のpytorchによる実装を示します Encoder Decoder AutoEncoder 3

5.

学習 前処理と学習の概要について説明します 前処理 • 画像のピクセル値を(0 ~ 225)から(0 ~ 1)へ • 画像のサイズ (32, 32)へパディング 学習 • 最適化器は”Adam”を用いました • 損失関数は”RMSE”を用いました • パラメータは下記 4

6.

考察 訓練したモデルを用いて考察を行います 画像の再構成 参考書と比べて再構成の精度はイマイチだった が、衣服の種類をとらえることはできている 特に模様やロゴの情報は失われている ↑埋め込みにより情報が圧縮されているため 潜在空間の可視化 データセットの各データが対応する潜在空間上の点にラベルによる色を付与して プロットしたもの 学習時にはラベルは与えていないにもかかわらず、ある程度ラベルごとに固まって 埋め込まれていることがわかる これは、オートエンコーダが学習の過程で衣類の特徴を獲得することに成功している ことを示唆しています 5

7.

考察 訓練したモデルを用いて考察を行います 新しい画像の生成 左側のグリッドに赤い点で示されている箇所からサンプリングし、 デコーダーを用いて画像を生成しました。 上手くそれらしい画像を生成することができている箇所もありますが、 形が崩れいるものもあります。 オートエンコーダの問題点 • • • 潜在空間を見ると、狭い領域に固まっている衣服と広く分布している衣服があります さらに、分布は原点対称ではなく、有界でもありません データが殆どエンコードされない空白の領域があります ⇒これらの好ましくない特徴は潜在空間からのサンプリングを困難にしています 潜在空間の次元が大きくなると、この困難は手に負えないものになるでしょう 6