【生成Deap Learning 第2版】3.1~3.2

283 Views

May 01, 25

#生成モデル #オートエンコーダー #vae #オートエンコーダ #変分オートエンコーダ #Fashion-MNIST #潜在空間

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 31.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 24.4K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.9K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 20.5K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 15.8K

【物体検出】DINO

京都大学人工知能研究会KaiRA 14.6K

各ページのテキスト

2025年度前期輪読会第１回 [生成Deep Learning] 第３章変分オートエンコーダ (3.1~3.2) 京都大学経済学部３回大澤衡正 0

アジェンダ ◼ 概要 ◼ オートエンコーダの実装 ◼ 学習 ◼ 考察本スライドの内容の実装は下記のレポジトリで公開しています https://github.com/OsawaKousei/auto_encoder 1

https://github.com/OsawaKousei/auto_encoder

概要オートエンコーダのキーとなるアイデアとアーキテクチャについて説明します参考書ではFashion-MNISTデータセットを使って説明がされています。 Fashion-MNISTは左のようなグレースケールの衣類画像データセットです画像のサイズは28*28となっています今回のオートエンコーダでは、「Fashion-MNISTに含まれるような衣類画像の特徴量を2次元平面に埋め込む」ことを考えます • データセットに含まれる画像の特徴量はエンコーダによって平面のどこかに埋め込まれます • そして、それはデコーダーを通じて元の画像に近い画像へ復元することができますこのアイデアの優れているところは、「デコーダーを生成モデルとして使うことができる」点ですデータセットに存在する衣服が対応しない点から、全く新しい衣服を生成することができるのです 2

オートエンコーダの実装 (Pytorch Version) Encoder, Decoderとオートエンコーダ全体のpytorchによる実装を示します Encoder Decoder AutoEncoder 3

学習前処理と学習の概要について説明します前処理 • 画像のピクセル値を(0 ~ 225)から(0 ~ 1)へ • 画像のサイズ (32, 32)へパディング学習 • 最適化器は”Adam”を用いました • 損失関数は”RMSE”を用いました • パラメータは下記 4

考察訓練したモデルを用いて考察を行います画像の再構成参考書と比べて再構成の精度はイマイチだったが、衣服の種類をとらえることはできている特に模様やロゴの情報は失われている ↑埋め込みにより情報が圧縮されているため潜在空間の可視化データセットの各データが対応する潜在空間上の点にラベルによる色を付与してプロットしたもの学習時にはラベルは与えていないにもかかわらず、ある程度ラベルごとに固まって埋め込まれていることがわかるこれは、オートエンコーダが学習の過程で衣類の特徴を獲得することに成功していることを示唆しています 5

考察訓練したモデルを用いて考察を行います新しい画像の生成左側のグリッドに赤い点で示されている箇所からサンプリングし、デコーダーを用いて画像を生成しました。上手くそれらしい画像を生成することができている箇所もありますが、形が崩れいるものもあります。オートエンコーダの問題点 • • • 潜在空間を見ると、狭い領域に固まっている衣服と広く分布している衣服がありますさらに、分布は原点対称ではなく、有界でもありませんデータが殆どエンコードされない空白の領域があります ⇒これらの好ましくない特徴は潜在空間からのサンプリングを困難にしています潜在空間の次元が大きくなると、この困難は手に負えないものになるでしょう 6