【生成Deap Learning 第2版】9.1~9.2

>100 Views

June 05, 25

#transformer #GPT #Transformer #自然言語処理 #深層学習 #テキスト生成

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.1K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22.9K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 20.9K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 18.3K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 12.1K

各ページのテキスト

生成Deep Learning輪読会(9.1~9.2) 京都大学工学部情報学科数理工学コース B3 稲葉陽孔 1

アジェンダ ■ GPTとは？ ■ Transformerのモデル構造 ■ 実装 2

GPTとは？概要テキスト生成のためのモデル・膨大なデータセットを並列で学習できる学習フロー 1.文の次の単語を予測するタスクを用いて、事前学習を行う（言語モデリング） 2.特定のタスクのために少量のデータを元にFine tuneする使われているモデル Transformer 3

Transformerのモデル構造全体像(Transformer) 1.Inputされた単語をベクトル化 2.1にPositional Encodingを足す 3.2を元に、Transformer Block などによって次の単語を予測 Multi-Head Attention Transformer Block (ここではGPT Block) Transformer 4

Transformerのモデル構造アテンションヘッド役割：今までの文から重要な箇所のみを抽出し、次の単語を予測しやすくする実行例タスク：「私は犬に」に続く単語を予測手順アテンションヘッド ※コンテキストベクトル：次の単語の予測に用いるベクトル 5

Transformerのモデル構造アテンションヘッド（全体像）アテンションヘッドに ×Wq Q 私スケーリング＋softmax ×Wv V はは K 犬犬に私に ×Wk 単語(ベクトル) コンテキストベクトル単語(ベクトル) 6

Transformerのモデル構造マルチヘッドアテンション複数のアテンションヘッドによって得られたコンテキストベクトルを連結して出力する層 1.Q,K,Vを各アテンションヘッド層毎に変換(Linear) 2.1で得たQ,K,Vからアテンションヘッド層によって、コンテキストベクトルを取得 3.2で得られたベクトルをconcatし、重みつき行列でかける 7

Transformerのモデル構造因果マスキングクエリアテンション層は入力のすべての単語を一度に処理できるため、各単語から次に来る単語を予測できることが理想的 →GPTがQベクトルのグループを並列に扱いたい →因果マスキングによってタスク毎に未来の単語を予測に使わないようにする私は犬にキー私は犬にマスキング部分 8

Transformerのモデル構造トランスフォーマーブロックトランスフォーマー中の１つのブロック・Layer Norm（層正規化）・Fully-Connected(全結合層) ・スキップ接続がある複数組み合わせることで、トランスフォーマを作成 Transformer Block Transformer 9

10.

Transformerのモデル構造トランスフォーマーブロック層正規化とバッチ正規化の違い層正規化：１データの１単語の特徴量を正規化バッチ正規化：バッチ内の特徴量１つを正規化 10

11.

Transformerのモデル構造位置エンコーディング今までの課題点キーとクエリの積を並列的に計算した際、以下の場合においてコンテキストベクトルが同じになる・私は犬に..(えさを与えた?) ・犬は私に..(ほえた?） →位置エンコーディングによって「どの場所に」単語があるかの情報を付与 11

12.

Transformerのモデル構造位置エンコーディング PEの可視化図式 i:トークン埋め込み後のベクトルにおける各次元のインデックス値 pos:トークンの位置 d_model:トークン埋め込み後のベクトル次元数 12

13.

実装こちらにございます (学習に15分ほどかかります) 13

https://colab.research.google.com/drive/1CivZWieaBW-RcPvBBG2IhjUCaK7hA1qV?usp=sharing