Transformersによる自然言語処理の実践

Transformersによる自然言語処理の実践 Preferred Networks エンジニア林孝紀 2022/10/28 1

自己紹介 ● ● ● 林孝紀（はやしたかのり） Indeed（2016 - 2021）=> Preferred Networks（2021 - 現在）世界最大規模の機械学習コンペティションプラットフォームKaggleで活動 ○ 自然言語処理（NLP）を扱うコンテストでの主な成績 ■ Jigsaw Unintended Bias in Toxicity Classification（3165チーム中3位) ■ chaii - Hindi and Tamil Question Answering (943チーム中8位) ■ Text Normalization Challenge - English Language (260チーム中5位) 2

3.

本講演の流れ 1. 導入: Hugging Face (🤗) Transformersとは？ ○ 2. 3. Transformerの基礎知識 Transformerによる事前学習・ファインチューニング ○ ○ 4. （デモ1: Google Colab) Hugging Face (🤗) Transformersを使ってみる（デモ2: Google Colab）GPTを使ってテキストを生成してみる（デモ3: Google Colab）BERTを用いたテキスト間類似度の判定 Transformerモデル使用のTips 本講演で主に対象とする人 ● これからTransformerを基盤とするモデルを使ってみようと思っている人 ● Pythonに少し触れたことがあり、深層学習についての資料をちょっと見たことはあるものの、実際に手を動かしたことはあまりない人 3

4.

Hugging Face Transformersとは？① 背景: Transformerモデルの台頭 ● ● ● 2017年に「Attention Is All You Need」という有名論文 ([Vaswani+ 2017]) で Transformerというニューラルネットワークのアーキテクチャが提案された 2022年現在、高精度な自然言語処理を行う上で、Transformerを基盤としたモデルは不可欠なものになっている Transformerを基盤としたモデルが大量に開発されている https://huggingface.co/course/chapter1/4 より引用 4

5.

Transformerの応用例: Google 検索 “Understanding searches better than ever before”（2019年10月の記事）より引用 BERT（Transformerに基づくモデル）により検索クエリの解釈能力は大きな飛躍したより強力なモデル MUM（Multitask Unified Model）も導入予定（”MUM: A new AI milestone for understanding information” ） 5

6.

Transformerの応用例: GitHub Copilot https://github.com/features/copilot より引用 6

https://github.com/features/copilot

7.

Hugging Face Transformersとは？② ● Hugging Face (🤗) Transformersとその周辺のエコシステムは、Transformerを基盤とするモデルの効率的な活用を可能にしている昔各モデルについてそれぞれに動かし方を調べる必要があり大変… 今 🤗 Transformers によって、統一された方法で簡単に各モデルを試せる！ https://huggingface.co/course/chapter1/4 より引用 7

https://huggingface.co/course/chapter1/4

8.

🤗 Transformersのエコシステム推論API Hugging Face Hub モデルデータセットドキュメント Hubに公開されているモデルやデータセットを利用評価指標 AutoTrain 作成したモデルやデータセットを登録ライブラリ Tokenizers Transformers Accelerate Datasets 今回触れるのは赤文字の部分 8

9.

デモ: 🤗 Transformersを使ってみる 9

https://colab.research.google.com/drive/1f77RxWdfNr6SVVFTqmgVrWEiVqZucBpS?usp=sharing

10.

Transformerの基礎知識 10

11.

ニューラルネットワークによる自然言語処理以下のような手順で処理することが多いこの映画は面白いテキスト 11

12.

ニューラルネットワークによる自然言語処理以下のような手順で処理することが多い 1. 入力テキストをトークンに分割この映画は面白いこの映画はテキスト面白いトークン（単語・文字・サブワードなど） 12

13.

ニューラルネットワークによる自然言語処理以下のような手順で処理することが多い 1. 2. 入力テキストをトークンに分割（単語・文字・サブワードなど）この映画は面白いこの映画はテキスト面白いトークンベクトル各トークンをベクトル表現に変換（埋め込みベクトル） 13

14.

ニューラルネットワークによる自然言語処理以下のような手順で処理することが多い 1. 2. 入力テキストをトークンに分割この映画は（単語・文字・サブワードなど）テキスト面白いトークンベクトル各トークンをベクトル表現に変換（埋め込みベクトル） 3. この映画は面白いニューラルネットワークで文脈を考慮したベクト（周辺のトークン）ル表現を計算ニューラルネット① 文脈を考慮したベクトル 14

15.

ニューラルネットワークによる自然言語処理以下のような手順で処理することが多い 1. 2. この映画は面白いこの入力テキストをトークンに分割映画は（単語・文字・サブワードなど）テキスト面白いトークンベクトル各トークンをベクトル表現に変換（埋め込みベクトル）ニューラルネット① 3. ニューラルネットワークで文脈を考慮したベクト（周辺のトークン）ル表現を計算 4. 文脈を考慮したベクトルから出力を計算文脈を考慮したベクトルニューラルネット② タスクの出力例: 入力テキストは positive・ negativeどっち（感情分析）例: このテキストの次に出現する単語は？（生成） 15

16.

ニューラルネットワークによる自然言語処理以下のような手順で処理することが多い 1. 2. この映画は面白いこの入力テキストをトークンに分割映画は（単語・文字・サブワードなど）テキスト面白いトークンベクトル各トークンをベクトル表現に変換（埋め込みベクトル）ニューラルネット① 3. ニューラルネットワークで文脈を考慮したベクト（周辺のトークン）ル表現を計算 4. 文脈を考慮したベクトルから出力を計算文脈を考慮したベクトルニューラルネット② タスクの出力 2018年以降、ニューラルネット①の部分で、 Transformerが頻繁に利用されている例: 入力テキストは positive・例: このテキストの次に出現 negativeどっち（感情分析）する単語は？（生成） 16

17.

Transformer [Vaswani+ 2017] ● 機械翻訳タスク用のアーキテクチャ ○ ○ 当時主流だった畳み込みや再帰を使用せずAttention機構だけを使用 Encoder-decoder構造（これはTransformer以前のモデルと同じ）次のトークンは？ Decoder Add & Norm Encoder Multi-Head Attention Add & Norm Add & Norm Feed Forward Feed Forward Add & Norm Add & Norm Multi-Head Attention Masked Multi-Head Attention ×6 これはペン入力文（翻訳元）です This is 出力文（翻訳先） ×6 a 17

https://papers.nips.cc/paper/2017/hash/3f5ee243547dee91fbd053c1c4a845aa-Abstract.html

18.

Attention機構 ● Attention機構は連続的な辞書としてイメージすることができる離散的な辞書 (Pythonのdictなど) 連続的な辞書 (attention機構のイメージ ) query keyとqueryの一致 (1)・不一致 (0) key 1 value 1 ×0 ● key 2 + value 2 ×1 key 3 + value 3 ×0 key 4 + value 4 ×0 = value 2 query keyとqueryの関連度 0.1 0.7 0.2 0.0 key 1 key 2 key 3 key 4 value 1 × 0.1 + value 2 × 0.7 + value 3 × 0.2 + value 4 × 0.0 = 各value の重み付き平均 Attention機構を用いることで、queryとするトークンと他のトークン (key) の関連度を計算し、対応するベクトル (value) の重み付き和を求めることで、そのトークンの文脈を考慮したベクトルを獲得する 18

19.

Transformerのattention機構 query i ● query・key・valueをそれぞれベクトルで表現する ○ ○ ○ ● query: key: value: 0.0 key 1 value 1 × key 2 + value 2 × key m + + value m × 0.0 = 各value の重み付き平均 queryとkeyのベクトルの間で内積を元に関連度と出力を計算 ○ i番目のqueryとj番目のkeyの関連度を求める ● s sssで割って正規化 ○ ● ○ Softmax関数の適用で queryに対する関連度の合計を 1に関連度によるvalueの重み付き和でqueryに対応する出力を計算 19

20.

Self-attention機構 Transformerのattentionでは、query・key・valueをそれぞれ入力のベクトル列から計算 (self-attention) ○ ○ ○ s s 各トークンの新しい表現ベクトル Attention機構 query key value トークンn トークン2 （行列Wq、Wk、Wvを学習する）トークン1 ● 各トークンの元々の表現ベクトル 20

21.

Transformerのアーキテクチャ (encoder) 次のトークンは？ Decoder Add & Norm Encoder Multi-Head Attention Add & Norm ×6 Add & Norm ×6 Feed Forward Feed Forward Add & Norm Add & Norm Multi-Head Attention Masked Multi-Head Attention これはペン入力文です This is 出力文 a 21

22.

Transformerのアーキテクチャ (encoder) 複数のself-attention機構を横に並べて表現力を強化 (multi-head self-attention) 次のトークンは？ Decoder Add & Norm Encoder Multi-Head Attention Add & Norm ×6 Add & Norm ×6 Feed Forward Feed Forward Add & Norm Add & Norm Multi-Head Attention Masked Multi-Head Attention これはペン入力文です This is 出力文 a 22

23.

Transformerのアーキテクチャ (encoder) 複数のself-attention機構を横に並べて表現力を強化 (multi-head self-attention) 2つの典型深層学習手法で学習を容易にする ● Skip-connection (出力に入力を加算) ● Layer normalization 次のトークンは？ Decoder Add & Norm Encoder Multi-Head Attention Add & Norm ×6 Add & Norm ×6 Feed Forward Feed Forward Add & Norm Add & Norm Multi-Head Attention Masked Multi-Head Attention これはペン入力文です This is 出力文 a 23

24.

Transformerのアーキテクチャ (encoder) 複数のself-attention機構を横に並べて表現力を強化 (multi-head self-attention) 2つの典型深層学習手法で学習を容易にする ● Skip-connection (出力に入力を加算) ● Layer normalization 各トークンのベクトルを前向きネットワークで変換次のトークンは？ Decoder Add & Norm Encoder Multi-Head Attention Add & Norm ×6 Add & Norm ×6 Feed Forward Feed Forward Add & Norm Add & Norm Multi-Head Attention Masked Multi-Head Attention これはペン入力文です This is 出力文 a 24

25.

Transformerのアーキテクチャ (decoder) 次のトークンは？ Decoder Add & Norm Encoder Multi-Head Attention Add & Norm ×6 Add & Norm ×6 Feed Forward Feed Forward Add & Norm Add & Norm Multi-Head Attention Masked Multi-Head Attention これはペン入力文です This is 出力文 a 25

26.

Transformerのアーキテクチャ (decoder) 次のトークンは？ Decoder Add & Norm Encoder Multi-Head Attention ×6 Add & Norm ×6 Feed Forward Feed Forward Add & Norm Add & Norm Multi-Head Attention Masked Multi-Head Attention これはペン入力文です This is 出力文 a Attentionの関連度の計算時にマスクをかけ、自分より後ろのトークンの情報を見ることを防ぐ黒い部分のトークン同士の関連度を 0にする This is a This is a Add & Norm 26

27.

Transformerのアーキテクチャ (decoder) 次のトークンは？ Attentionの計算時にkeyとvalueを encoderのベクトル列から取得し、 queryをdecoderのベクトル列から取得することで、2つの系列の情報を統 ×6 合する (cross-attention) Decoder Add & Norm Multi-Head Attention Add & Norm ×6 Add & Norm Add & Norm Add & Norm Multi-Head Attention Masked Multi-Head Attention はペン入力文です This is 出力文 value Dec これ a Attentionの関連度の計算時にマスクをかけ、自分より後ろのトークンの情報を見ることを防ぐ key Attention Feed Forward Enc Feed Forward query 黒い部分のトークン同士の関連度を 0にする This is a This is a Encoder 27

28.

Transformerのトークン化・トークン埋め込み ● Transformerではサブワード単位にトークン化する ○ ○ ● Byte-Pair Encoding (BPE) [Sennrich+ 2016] を使用頻出単語は1つのトークンで表し珍しい単語は複数のサブワードで表現することで、限られた語彙数で多くの単語をカバーする ■ 例: “He likes playing tennis” => [“He”, “likes”, “play”, “##ing”, “tennis”] 入力トークンを埋め込みベクトルに変換するとき位置情報を付与する ○ Attention機構は位置情報を考慮しないので入力に位置情報を持たせるこれはペンです入力ベクトルトークン埋め込み sin・cos関数を使って定義位置埋め込み 28

https://aclanthology.org/P16-1162/

29.

Transformerによる事前学習・ファインチューニング 29

30.

転移学習 (transfer learning) タスクA (転移元タスク・事前学習タスク ) 数千万文～データセットA データセットB 共通のニューラルネットワーク学習済みモデルをコピー共通のニューラルネットワークタスクA用のニューラルネットワーク大規模データから得た知識を流用タスクB用のニューラルネットワーク予測A 事前学習（pre-training） ● タスクB (転移先タスク・下流タスク ) 数千～数万文予測B ファインチューニング（ fine-tuning） NLP分野の転移学習はTransformer出現以前から行われていたが、記憶能力に優れるTransformerの利用によって大きく性能が向上した 30

31.

Transformerに基づくモデル ● 使用しているTransformerの部位でおおまかに分類できる Transformer encoder Encoder部分のみを使用 ● BERT ● RoBERTa ● DeBERTa 入力テキストに対する予測が得意 Transformer decoder 両方を使用 ● T5 ● BART （本講演では扱わない）入力テキストで条件付けられた生成が得意（翻訳・要約など） Decoder部分のみを使用 ● GPT ● GPT-2 ● GPT-3 テキストの生成が得意 31

32.

Transformerに基づくモデル ● 使用しているTransformerの部位でおおまかに分類できる Transformer encoder Encoder部分のみを使用 ● BERT ● RoBERTa ● DeBERTa 入力テキストに対する予測が得意 Transformer decoder 両方を使用 ● T5 ● BART （本講演では扱わない）入力テキストで条件付けられた生成が得意（翻訳・要約など） Decoder部分のみを使用 ● GPT ● GPT-2 ● GPT-3 テキストの生成が得意 32

33.

Decoderベースのモデル GPT [Radfold+ 2018] (Generative Pre-trained Transformer) ● 言語モデリングによる事前学習 ○ ○ テキストを前から順番に読んで、次に来るトークンを予測するタスク正解ラベルをデータ自体から自動的に獲得し学習することが可能（自己教師あり学習 ; self-supervised learning) ⇨ 大規模なコーパスを用いて学習できる次のトークンは？ … Add & Norm Transformerのdecoder同様に前のトークンだけを見る Feed Forward Add & Norm × 12 ● Masked Multi-Head Attention … 入力テキスト ● 様々なジャンルの本7000冊のデータセットを利用 8GPUで１ヶ月学習 … 33

https://openai.com/blog/language-unsupervised/

34.

GPTのファインチューニング ● 下流タスクの入力を学習済みGPTを利用可能な表現に変換して利用する ○ 出力文ペア分類の例 … 例: ● GPT ● … </s> startトークン ● テキスト1 $ 区切りトークンテキスト2 テキスト1とテキスト2は同じ意味？テキスト1からテキスト2は推論可能？ </e> endトークンファインチューニングは事前学習と比べて計算時間は大幅に少ない ○ 1GPUで数分で学習できるタスクもある 34

35.

デモ: GPTを使ってテキストを生成してみる 35

https://colab.research.google.com/drive/1BVxJCzAnCCI47XkioYf-IPW3t8cOxnjA?usp=sharing

36.

より強力な生成モデル GPT-2 [Radford+ 2019] / GPT-3 [Brown+ 2020] ● ● GPT（パラメータ数1.17億）を巨大化したモデルGPT-2（パラメータ数15億）・GPT-3 （パラメータ数1750億）のテキスト生成能力は非常に強力 GPT-3は非常に強い生成能力があり、教師データが少ない場合や一切ない場合でも、高い精度の予測を行うことが可能 (zero-shot / few-shot learning) 英仏翻訳の例（ [Brown+ 2020]より） few-shot zero-shot 生成する 36

37.

Transformerに基づくモデル ● 使用しているTransformerの部位でおおまかに分類できる Transformer encoder Encoder部分のみを使用 ● BERT ● RoBERTa ● DeBERTa 入力テキストに対する予測が得意 Transformer decoder 両方を使用 ● T5 ● BART （本講演では扱わない）入力テキストで条件付けられた生成が得意（翻訳・要約など） Decoder部分のみを使用 ● GPT ● GPT-2 ● GPT-3 テキストの生成が得意 37

38.

Encoderベースのモデル BERT [Devlin+ 2019] (Bidirectional Encoder Representations from Transformers) ● 事前学習で2つのタスクを同時に解く（マルチタスク学習） ○ マスク言語モデル (masked language modeling; MLM) ■ 一部の単語をマスクして入力し、元々の単語を予測させる穴埋め問題最初のデモの例: "東北大学で[MASK]の研究をしています。" [MASK] は元々どんな単語？各単語の文脈付きベクトルを計算するときに前後両方にある単語を見ることができる（GPTでは前方にある単語しか見れなかった）次文予測タスク (next sentence prediction; NSP) ■ 2つの文AとBを入力し、文書内でBがAの直後の文だったかを予測 ■ ○ 38

https://aclanthology.org/N19-1423/

39.

元々のトークンは？ NSP 元々のトークンは？ Add & Norm Feed Forward × L (= 12, 24) Add & Norm BERT Multi-Head Attention 今日 [CLS]トークン [CLS] は [MASK] 天気明日 [SEP]トークン [SEP] も元々のトークンを隠す ● いい [MASK] [SEP] [SEP]トークン元々のトークンを隠す BERTの入力の埋め込みベクトルは3つの埋め込みの和で計算する ○ ○ ○ トークン埋め込み位置埋め込みセグメント埋め込み（1つ目と2つ目どちらの文か？） 39

40.

各種タスクのBERTのファインチューニング① 文ペア分類テキスト分類出力出力 … … [CLS] BERT BERT … … テキスト1 テキスト2 [SEP] [SEP] 質問応答（区間抽出） [CLS] テキストトークン毎のタグ付け（固有表現抽出など）区間の最初（or 最後）のトークンか？出力 … … … … [CLS] テキスト1 質問 BERT … [SEP] … … BERT … [SEP] テキスト2 … [SEP] ここから答えを探す [CLS] テキスト [SEP] 40

41.

各種タスクのBERTのファインチューニング② ● 9つのNLPタスクからなるGLUEベンチマークでGPTを超えるスコアを達成 2種類のサイズの BERTモデル層数入出力ベクトルの次元数パラメータ数 BERT (base) 12 768 110M BERT (large) 24 1024 340M 41

42.

デモ: BERTを用いたテキスト間類似度の判定 42

https://colab.research.google.com/drive/1KeslKDOxfpsLtQivu3-lSA89QEEuhr86?usp=sharing

43.

Transformerモデル使用のTips 1. 2. 3. 限られたGPUメモリで学習するには？長いテキストを扱うためには？高精度を達成するには？ 43

44.

限られたGPUメモリで学習するには？① ● ● BERTなどを自分でファインチューニングしようとすると、GPUメモリ不足によるエラー ”RuntimeError: CUDA out of memory. …” をほぼ必ず見ることになる。原因の候補としては次のようなものが挙げられる a. b. c. d. 大きなモデルを使っている長いテキストを扱っているバッチサイズが大きすぎる GPUメモリを使用しているリソースが解放されないまま残っている 44

45.

限られたGPUメモリで学習するには？② 精度を落とさずバッチサイズを減らす ● ● ● 学習時のGPUメモリ使用量はバッチサイズにおおよそ比例するので、バッチサイズを減らせばGPUメモリ使用量は減る一方でバッチサイズを小さくしすぎると学習が不安定になる勾配累積 (gradient accumulation) や分散学習で実効的なバッチサイズ (effective batch size) を保つことができる勾配累積 ● ● 複数バッチ分の勾配を蓄積してから重みを更新実効的なバッチサイズを（蓄積回数）倍にする分散学習（データ並列） ● ● 複数GPUでそれぞれ勾配を計算し、各 GPUで得られた勾配を集計して重みを更新実効的なバッチサイズを（ GPU数）倍に 45

46.

限られたGPUメモリで学習するには？③ バッチサイズを1にしてもメモリが足りない場合 ● ● モデルを小さくする・入力長を小さくするモデルの一部あるいは全部をfreezeしてファインチューニングする ○ ● 分散学習（モデル並列） ○ ● 入力に近い部分のパラメータをfreeze（更新せず固定）することで、計算グラフを保持する必要がなくなり消費メモリ量が減る巨大なモデルを複数GPUで分割して保持し計算を行う Gradient checkpointing ○ ○ 前向き計算時に計算結果全体ではなく一部のみ保持する ■ 誤差逆伝播のとき、残りの部分を保持した値から再計算する 🤗 TransformersではTrainingArgumentsから使用の有無を指定できる 46

https://huggingface.co/docs/transformers/main_classes/trainer#transformers.TrainingArguments.gradient_checkpointing

47.

長いテキストを扱うためには？① 問題点 & 素朴な方法 ● 通常のBERTモデルは512トークン以下の入力しか想定していない ○ ● 公開されているBERTにもっと長い入力を与えるとエラーになる素朴な方法 ○ ○ テキストを切り落として無理やり512トークンに収めるモデルの入力とするテキストの範囲をスライドさせながら順番にモデルに与える ■ イメージ: input_ids[ 0: 500]をモデルに与える input_ids[400: 900]をモデルに与える input_ids[800:1300]をモデルに与える … ○ 相対的な位置関係のみを考慮するモデル（後述するDeBERTaなど）を使用する 47

https://huggingface.co/bert-base-uncased

48.

長いテキストを扱うためには？② 長い系列を扱うことが得意なモデルを利用する ● Longformer [Beltagy+ 2020] やBig Bird [Zaheer+ 2020] は各トークンに対して attentionの計算対象となるトークンを絞ることでself-attentionの計算時に扱うトークン対の個数をO(長さ^2)からO(長さ)に落としている色のついているトークン間のみを attentionの計算対象にする（図は[Zaheer+ 2020]から引用） ○ ○ ● 計算時間とGPU使用メモリを O(長さ^2)からO(長さ)に落とすことに成功 Hugging Face Hubに登録されているLongformerやBig Birdは通常のモデルの8倍の系列長 (4096) を扱うことができる Attentionの計算を効率的に行うTransformer (efficient transformer) に関して他にも様々な研究が行われている [Tay+ 2022] 48

49.

高精度を達成するには？① より強力なモデルを使用する ● 同じモデルの種類ならば大きなモデルの性能が高い ○ ○ ● 例: BERT (large) > BERT (base) 一方で、大きなモデルは多くの計算資源を要求し、訓練も難しい傾向がある同等のサイズでBERTより高精度のモデルも提案されている ○ ○ 以下のモデルがよく使用されている ■ RoBERTa [Liu+ 2019]: 主に事前学習方法を改善 ■ DeBERTa [He+ 2021]: 主に位置の情報の取扱いを改善英語タスクでファインチューニングを行った場合、 DeBERTa-v3 > RoBERTa >= BERT という印象 49

50.

高精度を達成するには？② 追加の事前学習 & 追加のファインチューニング ● 解きたい下流タスクと同じ種類のタスクに対してファインチューニング済みのモデルを使用することで精度が改善できることが多い ○ ● 英語の質問応答タスクを扱いたい場合、SQuAD2.0（有名な質問応答データセット）でファインチューニングRoBERTaをファインチューニングした方が、通常のRoBERTaをファインチューニングするよりも高い精度を期待できる事前学習済みのモデルに対して、下流タスクと同じドメインのデータセットを用いて追加の事前学習を行うことで、精度を改善できることがある [Gururangan+ 2020] 50

51.

高精度を達成するには？③ アンサンブル学習 ● 複数モデルの出力を合わせることで単一のモデルより高い精度を実現する a. b. ● 複数のモデルの出力の（加重）平均を取る（averaging） ■ 異なる乱数シードで学習したモデル同士でも精度は向上する（seed averaging） ■ 予測の傾向が異なるモデル同士を組み合わせた方が高精度になりがちスタッキング（stacking） ■ 検証セットに対する各モデルの出力を入力とする2段階目のモデルを学習 ■ 過学習のリスクはあるが、上手く学習できればaveragingより高精度 ■ 詳細は「Kaggleで勝つデータ分析の技術」にアンサンブルに使用するモデルを増やせば当然計算コストは増加する 51

https://gihyo.jp/book/2019/978-4-297-10843-4

52.

関連書籍など ● 機械学習エンジニアのためのTransformers ○ ○ ● IT Text 自然言語処理の基礎 ○ ● 🤗 Transformersの開発者によって執筆本格的に 🤗 Transformersを使うなら目を通すべき NLPの基礎知識を幅広くカバーしつつ Transformerに関しても詳しく書かれている 🤗 Course (英語) ○ 本家によるチュートリアル 52

53.

宣伝 ● Kaggle（機械学習コンテスト）に関する本を出します『Kaggleに挑む深層学習プログラミングの極意（仮）』（講談社サイエンティフィック）小嵜耕平・秋葉拓哉・林孝紀・石原祥太郎ニューラルネットワークが使用される分野（画像・NLP）において、高精度のモデルを構築する方法を実例を交えながら紹介します 53

54.

54

55.

残りのトピック 55

56.

関連モデル: RoBERTa [Liu+ 2019] (Robustly Optimized BERT Pretraining Approach) ● モデルのアーキテクチャはBERTと全く同じだが、事前学習において以下の改善を導入し高精度を達成している a. b. c. d. マスクするトークンを動的に選択する事前学習タスクから次文予測タスクを除外するミニバッチのサイズを増やす（256 => 8129）文字ではなくバイト単位のBPEを使用（語彙数も30Kから50Kに増やす） 56

https://arxiv.org/abs/1907.11692

57.

[発展] 関連モデル: DeBERTa [He+ 2021] (Decoding-Enhanced BERT with Disentangled Attention) ● トークンの内容の埋め込みと位置の埋め込みを別々に扱う (disentangled attention) ○ ○ ● ● attentionの関連度の計算にはトークン対の相対的な位置関係を見る [MASK] を予測する部分で絶対的な位置の情報を補足する（enhanced mask decoder） SuperGLUE (GLUEの難しい版) ベンチマークのスコアで初めての人間超え継続して改善が行われている ○ ○ DeBERTa V2（トークン化の改善など） DeBERTa V3（事前学習タスクの改善など） 57

https://openreview.net/forum?id=XPZIaotutsD

58.

高精度を達成するには？④ [発展] 敵対的学習① ● Sharpness-aware Minimization (SAM) [Foret+ 2021] ○ ○ ○ 局所解の周りの平坦だとモデルの性能が良くなることが知られている下図左のような局所解ではなく下図中央のような局所解を見つけたい SAMでは敵対的摂動を重みに加えて勾配を計算することで平坦な局所解を探す ■ （ステップ１）今の重み w_t の周辺で損失最大の重み w_adv を求める ■ （ステップ２）w_adv における勾配を用いて w_t を更新するステップ１ステップ２図は [Foret+ 2021] より引用 58

https://openreview.net/forum?id=6Tm1mposlrM

59.

高精度を達成するには？④ [発展] 敵対的学習② ● 敵対的学習はNLPタスクのファインチューニングでも有効 [Bahri+ 2022] ○ ○ ○ ○ ○ ○ ● s s s s s s NLPを題材とした機械学習コンテストでは、SAM自体ではなく他の手法（[Wu+ 2020]）を元にした実装の利用が多い ○ 例: Feedback Prize - Evaluating Student Writingの1位チームのコード 59

60.

自然言語処理以外のモデル① [発展] Vision Transformer [Dosovitskiy+ 2021] ● ● 画像をパッチに分割し、各パッチのピクセルの値から入力ベクトルを作成 3億枚の画像からなるデータセット（JFT-300M）で事前学習（教師あり）することで既存手法より高精度を実現 ○ ● 逆にそれより小さいデータセットだと既存手法に負けている後続研究では、画像に特化した形で Transformerを組み込むことで精度を改善している [Liu+ 2021] 60

61.

自然言語処理以外のモデル② [発展] wav2vec [Baevski+ 2020] ● ● 畳み込みニューラルネットワーク（CNN）とTransformer encoderを組み合わせ、対照学習（contrastive learning）のテクニックを利用することで、音声データに対する自己教師あり学習を実現 BERTなどと同様に下流タスクに対してはファインチューニングして利用 [Baevski+ 2020] より引用 61

https://proceedings.neurips.cc/paper/2020/hash/92d1e1eb1cd6f9fba3227870bb6d7f07-Abstract.html

Transformersによる自然言語処理の実践

flowlight0

関連スライド

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

Unreal Engine5 Lumenの仕組みと肝心なところ

UE5レンダリングフロー総おさらい(2024) 基礎編！[CEDEC+KYUSHU 2024]

Meta XR SDK(V66-74)でQuestアプリを開発

最新の6.0で学ぶ！初めてのひとのためのSpring Security

猫でも分かる UE5.0, 5.1 におけるアニメーションの新機能について【CEDEC+KYUSHU 2022】

各ページのテキスト