【生成Deap Learning 第2版】5.1~5.2

174 Views

May 15, 25

#lstm #rnn #自己回帰モデル #LSTM #RNN #言語モデル #深層学習

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 29.1K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 21.9K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 18K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 16.3K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 12.5K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 11.9K

各ページのテキスト

2025年前期輪読会第3回 [生成 Deep Learning] 第5章自己回帰モデル [5.1~5.2] 大阪大学基礎工学部 B4 緒方克哉 0

自己紹介 • 所属 ○ 大阪大学基礎工学部情報科学学科 B4 • 興味分野，インターンとか ○ アプリケーション開発 ○ クラウドネイティブ ○ MLLM ○ エムニでアプリケーションエンジニア • 個人的な趣味とかおがたかつや緒方克哉 ○ 登山 ○ 映画鑑賞 ○ サウナ 1

アジェンダ ■ 標準的なRNN ■ LSTMのアーキテクチャ ■ LSTMの実装 ■ 結果 2

アジェンダ ■ 標準的なRNN ■ LSTMのアーキテクチャ ■ LSTMの実装 ■ 結果 3

標準的な RNN (Elman Net) 周囲の単語からその単語の意味は決定されるという観点のもと言語モデルは成り立っている例えば、コンテキスト長を2として、t番目の単語を予測するとき 4

標準的な RNN (Elman Net) 最も基礎的かつシンプルなRNNネットワークのアーキテクチャ Contextual Representation using Recurrent Neural Network Hidden State for Statistical Parametric Speech Synthesis 5

Elman Netの問題点勾配消失・爆発によりコンテキストが長くなると正しい文章が生成できなくなる https://www.wikiwand.com/en/articles/Recurrent_neural_network https://keisan.casio.jp/exec/system/1541128601 6

アジェンダ ■ 標準的なRNN ■ LSTMのアーキテクチャ ■ LSTMの実装 ■ 結果 7

LSTMモデルのアーキテクチャゲートを用いて情報をフィルタリングする https://pabloinsente.github.io/the-recurrent-net 8

https://pabloinsente.github.io/the-recurrent-net

10.

LSTMモデルのアーキテクチャ LSTMモデルではなぜ勾配消失が発生しないのか・記憶セルのみに着目する・まず、記憶せるの勾配は+ノードを通るが、これはそのまま流れるだけ・次に×ノードを通るが、forgetゲートにより、忘れるべき情報については、勾配が小さくなり、重要な情報については、勾配が大きくなるように学習されていく・よって、逆伝播を行ったときに、重要情報の勾配は保たれたまま伝播させることができるようになる https://pabloinsente.github.io/the-recurrent-net 9

https://pabloinsente.github.io/the-recurrent-net

11.

LSTMモデルのアーキテクチャ重要な情報のみを記憶して、そうでないものは忘れていく https://pabloinsente.github.io/the-recurrent-net 10

https://pabloinsente.github.io/the-recurrent-net

12.

Embeddingレイヤートークンから機械学習モデルが扱いやすい単語の特徴量ベクトルへと埋め込む層・トークンからその単語の特徴量を表すベクトルへと変換してくれる層・よりその単語の特徴量を捉えられるように学習されていく・最近だとRAGとかの文脈でよく出てくる https://cvml-expertguide.net/terms/dl/layers/embedding-layer/ 11

https://cvml-expertguide.net/terms/dl/layers/embedding-layer/

13.

アジェンダ ■ 標準的なRNN ■ LSTMのアーキテクチャ ■ LSTMの実装 ■ 結果 12

14.

LSTMの実装以下のGoogle Colabを用いて実際に動かしていきます ● 編集権限はないので、各自コピーを作成して実行をお願いします ● Kerasで記述されたものをPythorchで再実装しています ● 間違っていそうな部分があれば教えてください https://colab.research.google.com/drive/1JWMBVXqTZVM8p88OWRbfDBtCeknmaqg0?usp=sharing 13

https://colab.research.google.com/drive/1JWMBVXqTZVM8p88OWRbfDBtCeknmaqg0?usp=sharing

15.

LSTMの実装語彙の作成部分の実装(単語からidへの対応を作成する) ・語彙というのは、単語からトークン(ID)への対応とトークンから単語への対応を定義するデータ構造・Kerasには対応するクラスが存在するが、Pytorchには多分ない気がするので、自前で実装しました・小文字変換と単語ごとの分割を行い、最も出現頻度の多かった順にトークンを作成する・入力の大きさを揃えるためのパディング用トークンと、知らない単語が出てきた時のUnknownトークンも入れておく 14

16.

LSTMの実装 Tokenizerの実装・与えられた文字列を単語に分割して、対応するトークンの配列を返す・語彙にない単語が来た場合は、 unknownトークンを返す・定められた長さに合わせるために、足りない場合はパディングで埋めて、多すぎる場合は、カットする 15

17.

LSTMの実装データの与え方・入力は、テキストの最後の単語を除いたものを渡す・出力は、テキストの2単語目から最後の単語までを返す・これにより、先述した確率モデルを実現する言語モデルの構築を目指す 16

18.

LSTMの実装モデルの構築 17

19.

LSTMの実装テキスト生成・訓練が適切に進んでいるかを確認するために、エポックごとに文章を生成する・最初の文字列はプロンプトとして与えられ、一定の文字列長もしくは、パディングが入るまで生成を続ける・生成された最後の単語のロジッツにsoftmax関数を適用して、その確率分布をもとにサンプリングを行う(決定的ではなく確率的に生成) ・温度パラメータを利用して、言語モデルの表現力を調整することもできる 18

20.

アジェンダ ■ 標準的なRNN ■ LSTMのアーキテクチャ ■ LSTMの実装 ■ 実行結果 19

21.

実行結果完璧な文章とは言えないが、所々正しい文法で意味の通る文章が生成できる。 20

22.

まとめ ● 言語モデルは、周囲の単語から単語を予測することで文章を生成している ● LSTMモデルを利用することで、勾配消失を防ぐことができる ● LSTMモデルはゲートを用いて、重要な情報のみを伝達する参考文献・松田晃一, 小沼千絵, 「生成 Deep Learning 第2版」, 2024年・斎藤康毅, 「ゼロから作るdeep learning ❷」, 2018年 21