【生成Deap Learning 第2版】9.3~9.4

255 Views

June 05, 25

#gpt #Transformer #自然言語処理 #深層学習 #ChatGPT #アテンション

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.1K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22.9K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 20.9K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 18.3K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 12.1K

各ページのテキスト

2025/06/05 9.3-9.4 他のトランスフォーマー京都大学総合人間学部認知情報学系 B3 神原みちる 0

アジェンダ 1. ３つのタイプのトランスフォーマ a. 相互参照型アテンション 2. 色々なトランスフォーマ a. t5 b. GPTモデルがどう進化してきたか c. chatGPT 1

３つのtransformer architecture Transformerの形はEncoder型, Decoder型, Encoder-Decoder型の3つに分類できるタイプ説明例使用例 Encorder 入力の理解・特徴抽出に BERT 優れている文章分類、固有表現認識、抽象型の質問応答（入力全体を理解するために必要なタスク、生成には使用されない） Encorder-Decorder 入力→出力変換（翻訳・要約）に優れている T5 要約・翻訳・質問応答 Decorder 文の生成に優れている GPT-3 テキスト生成 2

Encoder、Decoderとは図に示す以下の部分がEncorder, Decorderにあたる Encorder Decorder 3

cross-referential attention (相互参照型アテンション ) エンコーダの出力はデコーダ構造で取り込まれる Source: Lapo Mola (2020). “Understanding Self-Attention and Transformer Network Architecture”, Medium. https://medium.com/@lmpo/understanding-self-attention-and-transformer-network-architecture-0734f73b8fa3 4

https://medium.com/@lmpo/understanding-self-attention-and-transformer-network-architecture-0734f73b8fa3

相互参照型アテンションの例 <英語ードイツ語翻訳 > Decorderが翻訳される入力データのEncorder表現に注意を向けることができる・Decorder側が、自身の状態だけでなく、Encorderから得られた文脈に注意を向けて出力を構成・デコーダーは翻訳が伝えるべき意味を知る・ドイツ語は性別・格・複数によって定冠詞（英語でいう the, a など）が変化する 5

T5 すべてのNLPタスクを「テキスト→テキスト」という変換タスクに統一・どのタスク（分類、質疑応答、要約、翻訳など）においても、入力も出力もTextで返す特徴を持つ・Textで統一することにより、さまざまなタスクを同一のモデル・損失関数・ハイパーパラメータ等を用いることができる。・どのタスクかをモデルに伝えるため、タスク内容を入力文章の初めに与えている 6

GPTモデルがどう進化してきたかモデルのサイズが大きくなるほど、少ない例でも高精度な推論が可能 - パラメータはGPTから-3への進歩で、1200万から1750億へ、データも4.5Gから570Gへ few-shot learning : 明示的なタスク記述やfine-tuningが必要なく、いくつかの例でそのまま対応可能（GPT-3の発表論文Brown et al. (2020) - “Language Models are Few-Shot Learners”） - https://arxiv.org/pdf/2005.14165 7

https://arxiv.org/pdf/2005.14165

Chat GPT 「ChatGPTは、RLHFにより会話応答能力を強化されたモデルである」 - RLHF (reinforcement learning from human feedback)という手法を採用 - １）教師ありファインチューニング - デモデータセットを収集、ファインチューニング - ２）報酬モデリング - ラベラーに出力をランク付けさせ、そのスコアをモデル付けさせる報酬モデルを訓練 - ３）強化学習 - - 状態（会話履歴）→ アクション（応答） - - 報酬モデルでスコアを付け、モデルを最適化 8

10.

補足：近傍方策最適化法（ Proximal Policy Optimization Algorithms） OpenAIが2017に発表方策を変えすぎると壊れる問題に対処する ● 強化学習では、方策（行動の確率分布）を更新しすぎると破綻する。 ● PPOは、「現在の方策の近傍だけ探索する」＝近傍最適化によってこの問題を解決。 ● 論文では「クリッピング版」と「KLペナルティ版」の２つの目的関数が示される＊PPO-clip 9

11.

補足：transformer model 層ごとの役割の違い浅い層は意味・品詞、深い層は構文・文全体をになっていると示唆される 3. Vig (2019) - “A Multiscale Visualization of Attention in the Transformer Model” ● 可視化を通じて、Attention Headごとの役割分担を分析。浅い層では：・直前・直後の単語に注意が集中・トークン自身を再参照するパターンが多い深い層では：・主語と述語、文頭と文末など、長距離の依存関係を捉えている・異なる文間（例：Sentence AとB）をまたぐ関係にも注意が向く https://arxiv.org/pdf/1906.05714 10

https://arxiv.org/pdf/1906.05714

12.

参考文献 Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. arXiv preprint arXiv:1706.03762. https://arxiv.org/abs/1706.03762 Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. arXiv preprint arXiv:1910.10683. https://arxiv.org/abs/1910.10683 Vig, J. (2019). A multiscale visualization of attention in the Transformer model. arXiv preprint arXiv:1906.05714. https://arxiv.org/abs/1906.05714 Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165. https://arxiv.org/abs/2005.14165 Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347. https://arxiv.org/abs/1707.06347 11