【生成Deap Learning 第2版】9.3~9.4

>100 Views

June 05, 25

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

2025/06/05 9.3-9.4 他のトランスフォーマー 京都大学 総合人間学部 認知情報学系 B3 神原みちる 0

2.

アジェンダ 1. 3つのタイプのトランスフォーマ a. 相互参照型アテンション 2. 色々なトランスフォーマ a. t5 b. GPTモデルがどう進化してきたか c. chatGPT 1

3.

3つのtransformer architecture Transformerの形はEncoder型, Decoder型, Encoder-Decoder型の3つに分類できる タイプ 説明 例 使用例 Encorder 入力の理解・特徴抽出に BERT 優れている 文章分類、固有表現認 識、抽象型の質問応答 (入力全体を理解するた めに必要なタスク、生成 には使用されない) Encorder-Decorder 入力→出力変換(翻訳・ 要約)に優れている T5 要約・翻訳・質問応答 Decorder 文の生成に優れている GPT-3 テキスト生成 2

4.

Encoder、Decoderとは 図に示す以下の部分がEncorder, Decorderにあたる Encorder Decorder 3

5.

cross-referential attention (相互参照型アテンション ) エンコーダの出力はデコーダ構造で取り込まれる Source: Lapo Mola (2020). “Understanding Self-Attention and Transformer Network Architecture”, Medium. https://medium.com/@lmpo/understanding-self-attention-and-transformer-network-architecture-0734f73b8fa3 4

6.

相互参照型アテンションの例 <英語ードイツ語翻訳 > Decorderが翻訳される入力データのEncorder表現に注意を向けることができる ・Decorder側が、自身の状態だけでなく、Encorderか ら得られた文脈に注意を向けて出力を構成 ・デコーダーは翻訳が伝えるべき意味を知る ・ドイツ語は性別・格・複数によって定冠詞(英語でいう the, a など)が変化する 5

7.

T5 すべてのNLPタスクを「テキスト→テキスト」という変換タスクに統一 ・どのタスク(分類、質疑応答、要約、翻訳など)において も、入力も出力もTextで返す特徴を持つ ・Textで統一することにより、さまざまなタスクを同一のモデ ル・損失関数・ハイパーパラメータ等を用いることができ る。 ・どのタスクかをモデルに伝えるため、タスク内容を入力文 章の初めに与えている 6

8.

GPTモデルがどう進化してきたか モデルのサイズが大きくなるほど、少ない例でも高精度な推論が可能 - パラメータはGPTから-3への進歩で、1200万から1750億へ、データも4.5Gから570Gへ few-shot learning : 明示的なタスク記述やfine-tuningが必要なく、いくつかの例でそのまま対応可能 (GPT-3の発表論文Brown et al. (2020) - “Language Models are Few-Shot Learners”) - https://arxiv.org/pdf/2005.14165 7

9.

Chat GPT 「ChatGPTは、RLHFにより会話応答能力を強化されたモデルである」 - RLHF (reinforcement learning from human feedback)という手法を採用 - 1)教師ありファインチューニング - デモデータセットを収集、ファインチューニング - 2)報酬モデリング - ラベラーに出力をランク付けさせ、そのスコアをモデル付けさせる報酬モデルを訓練 - 3)強化学習 - - 状態(会話履歴)→ アクション(応答) - - 報酬モデルでスコアを付け、モデルを最適化 8

10.

補足:近傍方策最適化法( Proximal Policy Optimization Algorithms) OpenAIが2017に発表 方策を変えすぎると壊れる問題に対処する ● 強化学習では、方策(行動の確率分布)を更新しすぎると破綻する。 ● PPOは、「現在の方策の近傍だけ探索する」=近傍最適化によってこの問題を解決。 ● 論文では「クリッピング版」と「KLペナルティ版」の2つの目的関数が示される *PPO-clip 9

11.

補足:transformer model 層ごとの役割の違い 浅い層は意味・品詞、深い層は構文・文全体をになっていると示唆される 3. Vig (2019) - “A Multiscale Visualization of Attention in the Transformer Model” ● 可視化を通じて、Attention Headごとの役割分担を分析。 浅い層では: ・直前・直後の単語に注意が集中 ・トークン自身を再参照するパターンが多い 深い層では: ・主語と述語、文頭と文末など、長距離の依存関係を捉えている ・異なる文間(例:Sentence AとB)をまたぐ関係にも注意が向く https://arxiv.org/pdf/1906.05714 10

12.

参考文献 Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. arXiv preprint arXiv:1706.03762. https://arxiv.org/abs/1706.03762 Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. arXiv preprint arXiv:1910.10683. https://arxiv.org/abs/1910.10683 Vig, J. (2019). A multiscale visualization of attention in the Transformer model. arXiv preprint arXiv:1906.05714. https://arxiv.org/abs/1906.05714 Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165. https://arxiv.org/abs/2005.14165 Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347. https://arxiv.org/abs/1707.06347 11