2024マテリアルズ・インフォマティクス連続セミナー,大規模言語モデルによるニューラルネットワークモデル手法の学習

2.6K Views

February 25, 25

#マテリアルズ・インフォマティクス #大規模言語モデル #python #ニューラルネットワーク #LLM #PyTorch #機械学習

スライド概要

PyTorchを用いたニューラルネットワーク回帰、autoencoder, variational autoencoder

木野日織

@3465680103

スライド一覧

マテリアルズインフォマティクスチュートリアル

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回

マテリアルズ・インフォマティクスデータ解析学セミナー回帰

木野日織 72.1K

２０２２年度マテリアルズ・インフォマティクス連続セミナー：データ解析学基礎

マテリアルズ・インフォマティクスセミナーデータ解析学基礎機能分解木

木野日織 46.9K

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第三回（仮）

マテリアルズ・インフォマティクスデータ解析学セミナープログラミング大規模言語モデル

木野日織 46.7K

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回（2023/07/26版）

マテリアルズ・インフォマティクスデータ解析学セミナー回帰

木野日織 45.5K

２０２２年度マテリアルズ・インフォマティクス連続セミナー：ベイズ最適化、推薦システム

マテリアルズ・インフォマティクスデータ解析学ベイズ最適化推薦システム

木野日織 24.9K

２０２２年度マテリアルズ・インフォマティクス連続セミナー：回帰

マテリアルズ・インフォマティクスデータ解析学セミナー機能分解木回帰

木野日織 17.8K

各ページのテキスト

マテリアルズ・インフォマティクス連続セミナー大規模言語モデルによるニューラルネットワークモデル手法の学習木野日織（きのひおり）

今回の目的各自が自分で大規模言語モデル（LLM）を用いて、ニューラルネットワークモデル手法を学習、コード生成ができることを解説します。そのため、 • LLMが手法やコードを詳しく説明できることを、紹介します。 • コードの説明は詳しく行いません。詳しいコードの説明は各自LLMに求めてくください。 • 私は、式と文章でわかりにくい部分を図を加えて解説します。

関連モジュールのインストールインストールの仕方については公式ホームページ https://pytorch.org/get-started/locally/ の上の方に以下の選択画面があります。本教材を実行するにはPyTorchのインストールが必要です。 • condaによるインストールは勧めません。動作する Pythonのversionが限られます。 • pipを用いてインストールすることを勧めます。 1. 赤い部分を各自選択する。 2. 一番下の”Run this Command”にpip コマンドが表示される。このハンズオン例では $ pip torch のみで良いはず。GPU (CUDA)を用いる場合はCompute PlatformでCUDAのあなたのPCのversionを選択してください。

https://pytorch.org/get-started/locally/

大規模言語モデル（LLM）を用いたニューラルネットワークモデルの学習ニューラルネットワークを使った手法は数が多く、把握するのが大変です。幸いなことに、有名なニューラルネットワークモデルは世の中に初心者向けのコード例、解説例が多いためLLM が妥当な回答を行うことができます。今回はLLMを用いてニューラルネットワークの定義の仕方と、PyTorchでのモデル学習（訓練）の仕方を紹介します。ここではChatGPTをLLMの例として用います。

教師あり学習復習回帰モデル、分類モデルにかかわらず、何かの最適化関数𝐿があり、𝐿を最小化するようにモデルを学習する。 𝐿に正則化項、拘束条件を加えることもある。ニューラルネットワークモデルの場合𝐿は損失関数と呼ばれる。

記載方法 ChatGPTに尋ねる際の • プロンプトと • 回答 • 回答の要約 • コメントを表示で区別します。 # 私について私は機械学習手法の初心者です。 # 依頼プロンプトニューラルネットワークモデルの（青枠）学習過程を初心者に分かるように教えて下さい。数式を用いてください。以下、openAI APIを用いて回答を取得している。枠外はコメント回答はopenAI APIを用いて取得している。場合によりgpt-4o, o3-mini-highなどを利用する。ニューラルネットワークの基本構造ニューラルネットワークは、以下のふたつの要素から成り立っています。ニューロン（ノード）: 各層でデータを処理する基本単位。 APIによる取得による回答そのもの層: ニューロンが階層的に配置されたもの。一般に、（黒枠）入力層、隠れ層、出力層の3つの層があります。具体的には、次のようになります：入力層: 入力データが最初に入る場所。隠れ層: 入力を処理し、出力に変換する中間層。出力層: 最終結果を出す層。分類結果や予測値を出力します。ニューラルネットワークの基本構造回答の要約ニューラルネットワークは、以下のふたつの要素から成り立っています。（黒点線枠）

今回の説明について説明順序の違い：教科書は、後ろを参照しないように、細部→細部をまとめた手法→目的、という順で説明を行います。一方、ChatGPTの説明はそれとは逆になります。目的←そのための手法←手法の細部の説明の順です。そして不明事項（細部）を更に尋ねていくことになります。説明形式： ChatGPTへの質問→回答という順に説明を行います。講演者自体この形式は面倒で、回答のみをまとめた方が楽なのですが、受講者が自分で「 ChatGPT への質問→回答」という順で知識獲得を行う例とするためこの形式で説明を行います。受講者が将来、他の手法に対して、ChatGPTを用いて同様に知識獲得できることを期待します。

ニューラルネットワークモデルの基礎 # 私について私は機械学習手法の初心者です。 # 依頼ニューラルネットワークモデルの学習過程を初心者に分かるように教えて下さい。数式を用いてください。ニューラルネットワークの基本構造ニューラルネットワークは、以下のふたつの要素から成り立っています。ニューロン（ノード）: 各層でデータを処理する基本単位。層: ニューロンが階層的に配置されたもの。一般に、入力層、隠れ層、出力層の3つの層があります。具体的には、次のようになります：入力層: 入力データが最初に入る場所。隠れ層: 入力を処理し、出力に変換する中間層。出力層: 最終結果を出す層。分類結果や予測値を出力します。出力層入力層隠れ層

ニューラルネットワークモデルの基礎学習過程ニューラルネットワークは以下の4つのステップで学習を行います。 1. 前向き伝播（Forward Propagation）: 2. 損失の計算（Loss Calculation）: 3. 逆伝播（Backpropagation）: 4. 重複（Epochs): 出力 𝑎 重み 𝑤 入力出力 𝑤 𝑎 𝑎 𝑧 𝑤 𝜎：活性化関数 𝑎 𝑏：バイアス

10.

ニューラルネットワークモデルの基礎 𝑎 𝑤 𝑎 𝑤 𝑤 𝑎 𝑏 後でこういう場合もあることが分かる。 𝑎 𝑧 𝜎 𝑤:重み, 𝑏:バイアスを調整する。

11.

損失関数回帰モデルと分類モデルの損失関数の例を教えてください。よく見ないと間違いますが、 𝑦 (𝑖) と 𝑦ො (𝑖) は異なります。 𝑦 (𝑖) : 実際のクラス（実際のなので０か１。） 𝑦ො (𝑖) ：予測されたクラスの確率

12.

損失関数 𝑦 (𝑖) : 実際のクラス（「実際の」なので０か１。） 𝑦ො (𝑖) ：予測されたクラスの確率

13.

損失関数「one-hot エンコーディング」という言葉が出てきます。これは何でしょう？ chatGPTにこれを尋ねると、クラスの数がCの場合、期待されるラベルはC次元のベクトルで、正しいクラスのインデックスだけが1で、他は0となります。と答えます。さらに、 one-hot エンコーディングを具体的に教えて下さい。と質問すると、例えば、クラスの数C=3で、（犬、猫、鳥）として、 • ラベルが犬の場合は𝑦=(1, 0, 0) →𝑦1 = 1, 𝑦2 = 0, 𝑦3 = 0 • ラベルが猫の場合は𝑦=(0, 1, 0) →𝑦1 = 0, 𝑦2 = 1, 𝑦3 = 0 とすると回答が得られます。𝑦も上の表示に倣います。 ො ２クラスの場合がバイナリクロスエントロピーと等価であることが理解できるでしょう。

14.

15.

ニューラルネットワーク回帰モデルの例

16.

コード保存ファイル以下のコードは 200.NN/200.010.simple_NN.ipynb に保存してあります。

17.

ニューラルネットワーク回帰モデルの作成 gpt-4o-miniを用いて生成。問題なくコードが生成される。 # 依頼ニューラルネットワーク回帰モデルのコード例を作成してください。 # 詳細 PyTorchを用いてください。簡単なデータ例を作成してください。隠れ層を１つとしたニューラルネットワークを作成してください。可視化部分が少し間違っていたが、修正する。エポック数を多くすると妥当な回帰モデルが学習できる。ただし、訓練データ・テストデータ分割はなし。まず実行結果を表示する。図：実行結果

18.

コードの説明コードをブロック毎に説明してください。

19.

コードの説明後で説明

20.

コードの説明可視化部分は省略。ドロップアウトやバッチ正則化の説明は後で行う。

21.

Pytorchの学習枠組み以下の一般的な枠組みができています。モデルの定義学習 for epoch in range(num_epochs): 訓練データを使って 1. モデルを訓練モードに 2. 勾配を初期化 3. フォーワードパス 4. 損失関数を定義 5. バックプロパゲーション実行 6. パラメタ更新モデルを評価モードに予測値

22.

SimpleNNクラスの説明 SimpleNNクラスを数式で説明してください。対応コード SimpleNNクラス class SimpleNN(nn.Module): def __init__(self): super(SimpleNN, self).__init__() self.hidden = nn.Linear(1, 10) # 隠れ層 (入力次元: 1, 出力次元: 10) self.relu = nn.ReLU() # 活性化関数 self.output = nn.Linear(10, 1) # 出力層 (入力次元: 10, 出力次元: 1) def forward(self, x): x = self.hidden(x) x = self.relu(x) x = self.output(x) return x 隠れ層 ℎ = 𝑊1 𝑥 + 𝑏1 活性化関数 ℎ’ = 𝑅𝑒𝐿𝑈(ℎ) = max(0, ℎ) 出力層 𝑦 = 𝑊2 ℎ’ + 𝑏2 ReLU ReLU=max(0,h) 𝑊: 重み行列 𝑏: バイアスレルー … ℎ 𝑥 𝑦ො

23.

Backpropagation部分ニューラルネットワークモデルの一般的な説明として以下がありました。定義したニューラルネットワークから backpropagationはコードのどこで計算されますか。

24.

オプティマイザモデルの𝑊や𝑏の値を最適化し、損失関数を最小化します。 Adam以外に使用できるオプティマイザを教えてください。全部紹介されているわけではありません。（PyTorchの新版がでるタイミングでは昔の版の紹介をすることもあります。）これらが最新版の紹介かは https://pytorch.org/docs/stable/optim.htmlを御覧ください。学習率についても説明を求めてみてください。

https://pytorch.org/docs/stable/optim.html

25.

ドロップアウトとバッチ正則化コードの説明で「ドロップアウトやバッチ正則化」が出てきた。実は作成されたコードではドロップアウトもバッチ正則化も有効になっていませんが、もし定義され有効であったら、という説明でした。ドロップアウトはニューラルネットワークモデルの過学習を防ぐための手法。訓練中にランダムにいくつかのニューロンを無効とする。具体的に無効とはニューロンの出力を０とする。なお、評価モードでは全部のニューロンが使用されます。ドロップアウトやバッチ正則化を説明してください。 Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov; Dropout: A Simple Way to Prevent Neural Networks from Overfitting, JMLR 15(56):1929−1958, 2014.

26.

ドロップアウトとバッチ正則化モデルの定義 for epoch in range(num_epochs): for 訓練データのバッチ毎に 1. モデルを訓練モードに 2. 勾配を初期化 3. フォーワードパス 4. 損失関数 5. バックプロパゲーション 6. パラメタ更新モデルを評価モードに予測値 Sergey Ioffe, Christian Szegedy, Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, ICML'15: Proceedings of the 32nd International Conference on International Conference on Machine Learning 37, 448 - 456

27.

コード修正：ドロップアウトとバッチ正則化ドロップアウトとバッチ正則化を有効にしたコードを作成してください。問題なく作成できる。パラメタが妥当かどうかは別の話。

28.

回帰コードの修正：訓練データとテストデータ # 依頼コードを修正してください。 # 詳細ドロップアウトとバッチ正則化を無効にします。全データを訓練データとテストデータに分けます。テストデータで回帰モデルを評価してください。 epoch毎に損失関数の値を図示してください。 y vs y_predの図を書いてください。コードの変更点 1. ドロップアウトとバッチ正則化の無効化: - モデル定義でドロップアウトとバッチ正則化は行わず、隠れ層と出力層だけを使用しています。 2. データの分割: - `train_test_split` を用いてデータを80%の訓練用と20%のテスト用に分割しています。 3. 損失値の図示: - エポック毎に記録した損失値をプロットしています。 4. 評価指標の計算: - `mean_absolute_error`, `r2_score`, `mean_squared_error` をそれぞれ用いて、テストデータに対するモデルの評価を行い、結果を表示しています。 5. y vs y_predのプロット: - テストデータの真の値と予測値を比較して散布図を生成し、理想的な予測（y=xの線）を描画しています。これらはscikit-learnの関数を用います。

29.

回帰コードの修正：訓練データとテストデータ乱数により、かなり結果は異なります。右が結果の図です。図：実行結果

30.

回帰コードの修正：説明変数の要素数の変更修正されたコードの一部説明変数が一つのコードだったので、説明変数を５つに増やします。 # 依頼コードを修正してください。 # 詳細説明変数が５つのデータを用いてください。ドロップアウトを有効にします。全データを訓練データとテストデータに分けます。 epoch毎に損失関数の値を図示してください。テストデータで回帰モデルの評価指標MAE，R２，RMSEを出力してください。 y vs y_predの図を書いてください。 class SimpleNN(nn.Module): def __init__(self): super(SimpleNN, self).__init__() self.hidden = nn.Linear(5, 10) # 隠れ層 (5つの特徴量を入力) self.relu = nn.ReLU() # 活性化関数 self.dropout = nn.Dropout(0.5) # ドロップアウト (50%の確率でニューロンを無効化) self.output = nn.Linear(10, 1) # 出力層 def forward(self, x): x = self.hidden(x) x = self.relu(x) x = self.dropout(x) x = self.output(x) return x # 隠れ層へのパス # 活性化関数の適用 # ドロップアウトの適用 # 出力層へのパス ChatGPTがコードを適切に書き直してくれます。特に、ニューラルネットワークモデルが複雑な場合にネットワーク定義パラメタの辻褄をあわせてくれるのでとても有用です。実行結果は示しません。

31.

回帰コードの修正：GPUの利用変更点の説明メモリー転送 CPU GPU 1. デバイスの設定: ```python device = torch.device("cuda" if torch.cuda.is_available() else "cpu") ``` - CUDAが使用可能な場合にはGPUを選択し、そうでなければCPUを選択します。 2. データをGPUに転送: ```python X_train, y_train = X_train.to(device), y_train.to(device) X_test, y_test = X_test.to(device), y_test.to(device) ``` - 訓練データとテストデータをGPU上に移します。「簡単に」CPUとGPUを使い変えることが出来るのがPyTorchの利点の一つです。 3. モデルをGPUに転送: ```python model = SimpleNN().to(device) ``` - モデルもGPU上に配置します。 GPUを使うように書き直してください。 4. 予測をCPUに戻す: ```python y_pred = model(X_test).cpu().numpy() ``` - テストデータに対する予測を行った後、データをCPUに戻し、NumPy配列に変換します。この場合、GPUとCUDAを利用できればGPUを用いるコードを作成しました。 5. 評価指標の計算: - テストデータの実際の値や予測値をCPUに戻してから評価指標を計算します。 https://pytorch.org/docs/stable/generated/torch.Tensor.to.html 実行結果は示しません。

https://pytorch.org/docs/stable/generated/torch.Tensor.to.html

32.

回帰コードの修正：ReCoデータへの適用書き換え後のコード 010.regression/でも使ったReCoデータを用いる。 • • 隠れ層が１層では不足。一般的なXに対応できるようにする。 1 # 依頼 class SimpleNN(nn.Module): のニューラルネットワークモデルを書き換えてください。 # 詳細隠れ層を２層にします。入力層のサイズをPとします P 10 X,yを読み込む部分は自分で修正する。図：実行結果 5

33.

Autoencoder

34.

ChatGPTを用いた画像解析例物質例でなく、scikit-learnに含まれる手書き文字データを用います。このデータはよく知られており、例が多い方がChatGPTがコードを生成しやすいという理由です。 scikitの手書き文字を表示するコードを書いてください。答え（ラベル）画像日本人の数字文字とやや異なる場合もある。 8x8のサイズで0から16までの値を持つことも知っています。コメント： scikit-learnに含まれる手書き文字データは、28x28サイズのMNISTデータセットをサイズ縮小してデータセットにしています。scikit-learnの手書き文字はMNISTの手書き文字をサイズ縮小して作成しているため、一部文字が潰れています。単に手書き文字データというとChatGPTはMNISTデータセットを用います。

35.

Autoencoder 完全に元画像に戻るかどうかは別として、左のネットワークを用いて潜在空間（latent space）の分布を評価するコードを書いてもらう。 Latent spaceは図示しやすいように二次元にする。 Latent space 入力 encoder decoder 出力出力が入力画像にどの程度戻るかは今は人間が判断する。（なるべく）入力画像に戻るように encoder-decoderのネットワークを修正した。

36.

Autoencoderコード生成コード生成と説明はAPIでgpt4-oを用いた。コードは修正して200.050.autoencoder.ipynb に保存してあります。

37.

Autoencoder # 私について私は機械学習手法の初心者です。 # 依頼 autoencoderのコードを書いてください。 latent spaceを二次元にしてください。 scikit-learnの手書き文字データセットを用いてください。 PyTorchを用いてください。 epoch vs lossを図示してください。最後に、 latent spaceを離散値として色をつけてく可視化してください。図：実行結果、epoch vs Loss, 元画像と再構成画像の比較。

38.

Autoencoder 4 1 7 6 2 3 5 9 0 9 1 図：二次元潜在空間図：左の図の二次元潜在空間を５０％拡張し、各軸１０分割して、対応する画像を並べてた。

39.

コードの説明以下のコードをブロックごとに説明してください

40.

コードの説明 encoder decoder hidden_dim hidden_dim lattent_dim … … … … … Input_dim output_dim 全結合ニューラルネットワークモデル（ただし、これはgpt-4oが作った最初のモデル）

41.

コードの説明

42.

コードの説明モデルの定義 for epoch in range(num_epochs): for 訓練データのバッチ毎に 1. モデルを訓練モードに 2. 勾配を初期化 3. フォーワードパス 4. 損失関数 5. バックプロパゲーション 6. パラメタ更新モデルを評価モードに予測値

43.

損失関数 ``` loss = criterion(reconstructed, batch_data) ``` 部分が何を比較しているのかを教えてください。 batch_data: 元々の入力データ Reconstructed: オートエンコーダーが復元したデータ criterion = nn.MSELoss() と定義したので、元々の入力データとオートエンコーダーが復元したデータの差を MSEで評価した。元画像と再構成画像を MSEで比較。

44.

Dataloader 「データローダからデータをバッチごとに取り出し、」の部分をもっと詳しく教えてください。 dataloader = Dataloader(data, batch_size=64, …) for epoch in range(num_epochs) # 全てのdataに対して for batch_data, _ in dataloader: # batch_size(今は64)個のデータ毎に以下を行う。 … という形式。 https://pytorch.org/docs/stable/data.html

https://pytorch.org/docs/stable/data.html

45.

コメント • Scikit-learnの手書き文字の画像が8x8サイズであること、0-16までの値を持つことをgpt-4o が知っていました。（それもあり、指定が簡単になるので Scikit-learnの手書き文字を使っています。）ユーザー画像を用いる場合は縦横サイズ、値が、0－255までであることなど、をプロンプトに付け加えると適切なpreprocessをしてくれるでしょう。 • 例ではChatGPTは全結合ニューラルネットワークモデルを作成しましたが、畳み込みニューラルネットワークや（有名ならば）〇〇Netという指定も可能です。畳み込みニューラルネットワークを用いても画像サイズにより妥当なネットワークは異なります。

46.

Variational AutoEncoder (VAE)

47.

VAEコードコード生成と説明はAPIでgpt4-oを用いた。一部、o3-mini-high説明を行った。コードは修正して200.060.VAE.ipynb に保存してあります。

48.

Autoencoderの復習まず、autoencoderの説明 variational autoencoderを説明してください。 autoencoderと比較して説明してください。数式を用いてください。 𝑧 𝑥 𝑞𝜙 (z|x) 𝑥ො 𝑝𝜃 (x|z)

49.

VAE 続いて、variational autoencoderの説明 1.と2. 𝑧 =𝜇+𝜎⊙𝜖 𝑥 3. 𝜇, 𝜎 2 𝑧 𝐿 = 𝐿𝑟𝑒𝑐𝑜𝑛𝑠𝑡𝑟𝑢𝑐𝑡𝑖𝑜𝑛 + 𝐿𝐾𝐿 𝑞𝜙 (𝑧|𝑥)の分布でlog 𝑝𝜃 (𝑥|𝑧)評価する。サンプリングと再パラメタ化、再構成誤差、KLダイバージェンスは次に説明。第一項と第二項の比率は場合により異なる。 𝑥ො

50.

autoencoderとvariational autoencoder autoencoder ６ . (𝑧 , 𝑧 ) 1 4 . 2 variational autoencoder ６ 4 (𝜇1 , 𝜇2 , 𝜎12 , 𝜎22 )

51.

サンプリングと再パラメタ化サンプリングと再パラメータ化について教えて下さい。 https://en.wikipedia.org/wiki/Reparameterization_trick

https://en.wikipedia.org/wiki/Reparameterization_trick

52.

再パラメタ化トリックモデルの定義 for epoch in range(num_epochs): 訓練データを使って 1. モデルを訓練モードに 2. 勾配を初期化 3. フォーワードパス 4. 損失関数 5. バックプロパゲーション 6. パラメタ更新モデルを評価モードに予測値勾配計算をconsistentに定義できればよい。

53.

再パラメタ化トリック 𝑧～N(𝜇, 𝜎 2 ) 同じに見える。 𝑧 =𝜇+𝜎⊙𝜖 ⊙ は成分ごとの積 𝑥 𝜇, 𝜎 𝑧 𝑥ො あるforward過程とbackward(backpropagation) 過程でそれぞれ𝝐 をランダムにサンプリングする。異なる。 →微分できない。 𝑥 𝜇, 𝜎 𝑧 𝑥ො 𝝐はランダムにサンプリングして作成されるが、あるforward過程でサンプリングした 𝝐を同じbackward(backpropagation)過程でも使う。 → consistentに微分できる。（PyTorchのコードの書き方で自然に同じ𝝐を用いることになる。）

54.

再構成誤差 Variational antoencoderの再構成誤差を詳しく説明してください。 Autoencoderのコードも BCEで計算可能画像が0-1なので誤差関数はどちらでも良い。

55.

バイナリー交差エントロピー（BCE) • 初めに 𝑥, 𝑥ො : 入力データと生成された値 𝑥=1 -> L=−log(𝑥) ො 𝑥=0 -> L=−log(1 − 𝑥) ො 𝑥ො = 1で最小 𝑥ො = 0で最小 𝑥 L 𝑧 𝜇, 𝜎 2 𝑥ො 1ピクセルごと比較して平均。 0 • 1 𝑥ො 拡張 𝑥の０－１の間をつなぐ BCE=−[𝑥log 𝑥ො + 1 − 𝑥 log 1 − 𝑥ො ] 𝐿𝐵𝐶𝐸 MAEとBCEは大きさが異なるので、VAEの損失関数として用いる場合、KL項とのバランスは異なります。

56.

KL項 KLダイバージェンス（Kullback-Leibler divergence、カルバック・ライブラー情報量)： o3-mini-highで VAEのKL divergence項の式変形をを説明して下さい。 𝐷𝐾𝐿 (P| Q = ෍ 𝑃 𝑥 𝑙𝑜𝑔 𝑥 𝑃(𝑥) 𝑄(𝑥) 𝐷𝐾𝐿 (P| Q = න 𝑑𝑥 𝑃 𝑥 𝑙𝑜𝑔 𝑃(𝑥) 𝑄(𝑥) とした回答の要約を表示する。 𝑃 𝑥 正解データの分布に従うデータが与えられたとき、そのデータを 𝑄(𝑥)（モデルが学習した分布）で表現したときの「情報のロス」

57.

KL項正規分布 P(𝑧)=𝑁(0,𝐼) に従うデータが与えられたとき、そのデータを VAEの潜在変数 𝑧の全体の分布 𝑄(𝑧 ∣ 𝑥) = 𝑁(𝜇, 𝜎 2 ) で表現したときの「情報のロス」 𝑄 𝑧 = 1 𝑧 − 𝜇𝑖 2 exp(− ) 2 2𝜎 𝑖 2 𝐷𝐾𝐿 (P| Q = න 𝑑𝑧 𝑃 𝑧 𝑙𝑜𝑔 𝑃(𝑧) 𝑄(𝑧) 1 = − ෍(1 + log 𝜎𝑖2 − 𝜇𝑖2 − 𝜎𝑖2 ) 2 𝑖 𝜎𝑖 , 𝜇𝑖 とデータインスタンスのindexと和 2𝜋𝜎𝑖 𝑧2 𝑃(𝑧) = exp(− ) 2 2𝜋 1 なお、𝜇 = 0, 𝜎 2 = 1が最小値。上の説明は要約です。o3-mini-highは上の加えてかなり詳細に式変形して説明する。

58.

KL項：分布の学習訓練データ点全体の分布を定めたい。全体をN(𝜇 = 0, 𝜎 2 = 1)で分布させる。個々𝜇𝑖 , 𝜎𝑖2 をではない。図：Autoencoderのlatent space

59.

VAEコードの生成 # 依頼 {# コード}をvariational antoencoderを用いたコードに書き換えてださい。 # コード（autoencoderコードをコピペ。）結果を示す。図：実行結果、epoch vs Loss, 元画像と再構成画像の比較。

60.

VAEの結果 0 9 6 3 8 4 7 2 1 図：二次元潜在空間。𝑁(0, 𝐼)に従うはず。図：左の図の二次元潜在空間を５０％拡張し、各軸１０分割して、対応する画像を並べてた。

61.

VAEコードの説明 VAEのモデル定義と損失関数の定義を詳しく説明してください。コードと数式を関連付けてください。「対数分散にするのはなぜ？」と聞くと、「𝜎 2 を評価するより計算が安定するから。」と回答する。𝜎 2 = exp(log(𝜎 2 ))

62.

VAEコードの説明 𝑧 =𝜇+𝜎⊙𝜖 ⊙ は成分ごとの積 𝑥 𝜇, log(𝜎 2 ) 実際のネットワーク 𝑧 𝑥ො

63.

VAEコードの説明 Logvar = log 𝜎 2 mu.pow(2) = 𝜇2 Logvar.exp = exp(log 𝜎 2 )

64.

コメント • かなり簡単な理解しやすいコードを書く。 • 説明はネットに書いてある説明をそのまま用いる。ネットの説明が分かりにくいと ChatGPTの説明も分かりにくい。 • 式変形の説明を依頼する場合はo3を使う方が正答率は上がる。しかし、完全ではないので、式変形が正確かは自分で確認できるようになる必要はある。

65.

全体に対するコメント初心者が論文の数式やネットワークを見て、いきなり対応するコード書くことはできない。大学での勉強は数式の理解→手法のコードだが、実際は数式→PyTorch→手法のコーディングとなる。ニューラルネットワークモデルは確立されたフレームワークが存在し、皆そのフレームワークに沿ってコードを書くので、コードからの方が比較的理解しやすいかもしれない。大学の授業の順序と異なりますが、PyTorchを例として手法のコード→数式の理解、でも良いと私は思います。理解したい人は、コードやChatGPTの説明だけを見ても数式や背後の考え方が分からないので、数式をみるようになるでしょう。物理・化学を専門とした人が機械学習という数学の世界の式を見ても数式の書き方が異なり最初は理解しがたいでしょう。コードから入ると数式理解の手助けにもなると思います。各自が数式変形を理解できる程度に数学の勉強も必要です。各自が考えられるように勉強が必要なことも分かると思います。

66.

全体に対するコメント他にも回答を求めると、例が少ない手法はうまく回答できないことも分かるでしょう。似た用語、同じ用語の説明をすることもあります。例）「拡散モデル」シミュレーションの拡散モデル？生成AIの拡散モデル？ ChatGPTの回答は常に批判的にとらえてください（＝どこか間違っているに違いない）。

67.

以上です。

2024マテリアルズ・インフォマティクス連続セミナー,大規模言語モデルによる ニューラルネットワークモデル手法の学習