---
title: パターン認識論 #14
tags:  #機械学習 #深層学習 #パターン認識  
author: [Akinori Ito](https://image.docswell.com/user/akinori-ito)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/VENYWRP3J8.jpg?width=480
description: 東北大学で2023年に開講していた「パターン認識論」のスライドです 本資料では、まず教師あり学習と教師なし学習の違いを説明した上で、入力のみから入力そのものや生成データを予測する自己教師あり学習の基本的考え方を示します。続いて、Word2Vecの代表的手法であるCBOWとSkip‑gram、さらに負例を用いたNegative Samplingの仕組みを解説し、Wikipedia2vecを用いた類似語例も紹介しています。画像や音声に対する自己教師あり学習の事例にも触れ、次に系列変換モデルSeq2Seqとその拡張として注意機構（Query／Key／Value、スケールドドット積、マルチヘッド注意、自己注意）を詳述します。Transformerの構造、位置エンコーディング、ブロック構成、生成過程を示し、最後に自然言語処理向け事前学習モデルBERTの入力表現、マスク言語モデルと次文予測タスク、ファインチューニング方法、さらに画像認識に応用されたVision Transformerについて説明しています。
published: April 16, 26
canonical: https://image.docswell.com/s/akinori-ito/ZMQXDE-2026-04-16-090445
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/VENYWRP3J8.jpg)

パターン認識論
第14回
伊藤 彰則
1


# Page. 2

![Page Image](https://bcdn.docswell.com/page/Y79PXM3PE3.jpg)

自己教師あり学習
(Self-Supervised Learning)
◦ 教師あり学習：入力とそのクラスラベル
◦ 入力からクラスラベルを予測するモデル
◦ 教師なし学習：入力のみ
◦ 入力を似た性質のものに分類（クラスタリング）
◦ 自己教師あり学習：入力のみ
◦ 入力から入力（あるいは入力から生成されるデー
タ）を予測するモデル
◦ 入力の特徴量を効率的に抽出する（表現学習）
2


# Page. 3

![Page Image](https://bcdn.docswell.com/page/G78D2LMX7D.jpg)

自己教師あり学習
(Self-Supervised Learning)
学習データ自体から手に入る
情報を予測
• データの一部を隠し、それ
を予測する
• データに変形を加え、無関
係なデータと識別する
ラベルなし
学習データ
（多い）
学習後
ラベル付き
学習データ
（少ない）
識別用
モデル
ラベル
3


# Page. 4

![Page Image](https://bcdn.docswell.com/page/L7LM2L3NJR.jpg)

自己教師あり学習
(Self-Supervised Learning)
◦ Word2Vec
◦ 単語をベクトル化する方法の一つ
◦ 自己教師あり学習によって学習する
◦ Continuous Bag-Of-Word (CBOW)とSkip-gram
の2通りの学習法がある
◦ CBOW
◦ ある単語の周辺の単語から当該単語を予測する
◦ Skip-gram
◦ ある単語から周辺の単語を予測する
4


# Page. 5

![Page Image](https://bcdn.docswell.com/page/4EMY8MDQEW.jpg)

CBOWとSkip-gram
今日
One-hot
vectors embed
の
天気
は
曇り
今日
今日
の
FC+
ReLU
の
天気
は
は
Softmax
曇り
曇り
CBOW
Skip-gram
5


# Page. 6

![Page Image](https://bcdn.docswell.com/page/PER95V4KJ9.jpg)

Negative Sampling
◦ 正しい答えを選ぶだけでなく、正しくない答えを選
ばない学習
今日
似るように学習
（損失を下げる）
の
天気
正例
は
ので
負例
全単語からラ
ンダムに選ぶ
似ないように学習
（損失を上げる）
曇り
6


# Page. 7

![Page Image](https://bcdn.docswell.com/page/P7XQKZ25EX.jpg)

例
◦ モデルはwikipedia2vecのモデルを利用
(https://wikipedia2vec.github.io)
◦ 「王」とのコサイン類似度が高い項目
ENTITY/中国帝王一覧
ENTITY/兄弟スポーツ選手一覧
ENTITY/消滅した政権一覧
ENTITY/女性君主の一覧
ENTITY/歴史書一覧
ENTITY/軍事指揮官の一覧
ENTITY/ヨーロッパの祖母
ENTITY/アジアの紛争一覧
ENTITY/古代末期のキリスト教
ENTITY/飛鳥時代以前の人物一覧
reorder(term1, -ord)
ENTITY/日羅関係
ENTITY/三国志演義の成立史
ENTITY/台湾の人物一覧
ENTITY/ロバート
ENTITY/東京都出身の人物一覧
ENTITY/新元史
ENTITY/倭・
倭人関連の朝鮮文献
ENTITY/イギリス君主一覧
ENTITY/双子の有名人の一覧
ENTITY/南史
ENTITY/夏商周年表
ENTITY/朝鮮の君主一覧
ENTITY/フランス君主一覧
ENTITY/国王
ENTITY/阪神タイガースの選手一覧
ENTITY/北史
ENTITY/中世ヨーロッパにおける教会と国家
ENTITY/作品がテレビドラマ化されたことがある漫画家一覧
ENTITY/前賢故実
ENTITY/伝説の生物一覧
0.0
0.2
0.4
similarity
7


# Page. 8

![Page Image](https://bcdn.docswell.com/page/37K958MR7D.jpg)

その他の自己教師あり学習
◦ 画像の特徴抽出モデルをSSLで学習
[Jaiswal+2021]
色の変化、回転、
拡大縮小など
8


# Page. 9

![Page Image](https://bcdn.docswell.com/page/LJ3WK2YGJ5.jpg)

その他の自己教師あり学習
◦ 音声などの予測による自己教師あり学習
[Aaron+ 2018]
9


# Page. 10

![Page Image](https://bcdn.docswell.com/page/8JDK3Z5NEG.jpg)

Seq2Seq
◦系列を変換するモデル
◦入力系列を潜在空間に写像する部分
（エンコーダ）と、潜在空間から出力
系列を生成する部分（デコーダ）から
なる
◦パターン認識のモデルではないが、極
めて重要なので取り上げる
10


# Page. 11

![Page Image](https://bcdn.docswell.com/page/VEPK4DGN78.jpg)

Seq2Seqによる機械翻訳
翻訳文
Cho, K. et al. Learning Phrase
Representations using RNN Encoder-Decoder
for Statistical Machine Translation. In: Proc.
EMNLP. 2014.
このモデル構造は、翻訳だけでなく、文生成・対
話・要約などにも使える
Encoder
Decoder
元言語の文
EOS
11


# Page. 12

![Page Image](https://bcdn.docswell.com/page/27VVX16Y7Q.jpg)

アテンションの導入
Luong, M. et al. Effective Approaches to
Attention-based Neural Machine Translation.
In: Proc. EMNLP, 2015. p. 1412-1421.
翻訳文
単語を出力するとき、その単語とすべての入力と
の関連度（アテンション）を計算し、アテンショ
ンで重みづけた入力の中間層出力を出力層に入れ
る
Attention Layer
Encoder
元言語の文
EOS
12


# Page. 13

![Page Image](https://bcdn.docswell.com/page/5JGLV2NW7L.jpg)

アテンションの導入
Attention layer
Context vector
×
× ×
×
× ×
内積
Encoder
元言語の文
Decoder
13


# Page. 14

![Page Image](https://bcdn.docswell.com/page/47QY6PQQEP.jpg)

Query/Key/Valueによる
アテンション
◦ QueryとKeyの類似度（内積）に基づいてValueを重みづける
仕組み (Scaled dot-product attention)
𝑸1
(𝑖)
𝑖
◦ 𝑄 = ⋮ , 𝑸𝑖 = 𝑞1 , … , 𝑞𝑑
𝑸𝑛
𝑲1
⋮ , 𝑲𝑖 = 𝑘1(𝑖) , … , 𝑘𝑑(𝑖)
◦𝐾 =
𝑲𝑚
𝑽1
(𝑖)
𝑖
◦ 𝑉 = ⋮ , 𝑽𝑖 = 𝑣1 , … , 𝑣𝑑
𝑽𝑚
14


# Page. 15

![Page Image](https://bcdn.docswell.com/page/KE4W4YNYJ1.jpg)

Query/Key/Valueによる
アテンション
◦アテンション計算
◦ Attention 𝑄, 𝐾, 𝑉 = softmax
= softmax
𝑇
𝑸
𝑲
1 1
1
⋮
𝑑 𝑸 𝑲𝑇
𝑛 1
⋯
⋯
𝑄𝐾 𝑇
𝑑
𝑉
𝑸1 𝑲𝑇𝑚
⋮
𝑸𝑛 𝑲𝑇𝑚
𝑉
◦ ただしここでのsoftmaxは（次ページ）
15


# Page. 16

![Page Image](https://bcdn.docswell.com/page/L71Y465NJG.jpg)

Softmax
◦ 𝒙 = (𝑥1 , … , 𝑥𝑁 )
◦ Softmax 𝒙
𝒙1
◦𝑋 = ⋮
𝒙𝑀
(exp(𝑥1 ),…,exp(𝑥𝑁 ))
=
σ𝑁
𝑖=1 exp(𝑥𝑖 )
Softmax 𝒙1
⋮
◦ Softmax 𝑋 =
Softmax 𝒙𝑀
16


# Page. 17

![Page Image](https://bcdn.docswell.com/page/G7WGXWWME2.jpg)

Query/Key/Valueによる
アテンション
Query
内積/ 𝑑
Key
Value
17


# Page. 18

![Page Image](https://bcdn.docswell.com/page/4JZL655ME3.jpg)

Query/Key/Valueによる
アテンション
Query
Softmax
Key
Value
18


# Page. 19

![Page Image](https://bcdn.docswell.com/page/YE6W2995EV.jpg)

Query/Key/Valueによる
アテンション
Query
×
×
×
×
×
×
Key
Value
19


# Page. 20

![Page Image](https://bcdn.docswell.com/page/GE5M2NNGE4.jpg)

Query/Key/Valueによる
アテンション
Query
×
×
×
×
×
+
×
Key
Value
20


# Page. 21

![Page Image](https://bcdn.docswell.com/page/9729455DJR.jpg)

マルチヘッドアテンション
◦ 入力の次元を分割して複数のアテンションを取
る
Query
Scaled dot-product
attention
Key
Value
21


# Page. 22

![Page Image](https://bcdn.docswell.com/page/DJY4MKKM7M.jpg)

マルチヘッドアテンション
◦ 入力の次元を分割して複数のアテンションを取
る
concat
FC
FC
FC
Head 1
Scaled dotproduct
attention
F F F F F F F FF FFF
C C C C C C C CC CCC
FC
FC
FC
FC
FC
FC
Head 2
Scaled dotproduct
attention
FC
FC
FC
F F F F F F F FF FFF
C C C C C C C CC CCC
22


# Page. 23

![Page Image](https://bcdn.docswell.com/page/V7NYWRR3E8.jpg)

マルチヘッドアテンション
◦ こんな感じで描く
Multi-Head Attention
Key
Value
Query
23


# Page. 24

![Page Image](https://bcdn.docswell.com/page/YJ9PXMMP73.jpg)

セルフアテンション
◦ Query, Key, Valueすべてに同じ値を入れる
◦ 系列の中の各ベクトルの関係性に基づいて出力を
計算する
Multi-Head Attention
Key Value Query
24


# Page. 25

![Page Image](https://bcdn.docswell.com/page/GJ8D2LLXJD.jpg)

Transformer
Vaswani, Ashish, et al.
&quot;Attention is all you need.&quot;
Advances in neural information
processing systems 30 (2017).
Seq2SeqモデルからRNN/LSTM層を
削除してしまい、アテンションだけ
で計算を行う
時間依存性は、入力の埋め込みベク
トルに正弦波を加算して表現する
(Positional Encoding)
25


# Page. 26

![Page Image](https://bcdn.docswell.com/page/LJLM2LLNER.jpg)

Positional Encoding
◦ Transformerには入力系列の順序の概念がな
いので、入力の値自体に順序を導入する
Multi-Head Attention
Query Key Value
d
i
pos
𝑝𝑜𝑠
sin
,
(𝑖−1)/𝑑
10000
𝑃𝐸 𝑝𝑜𝑠, 𝑖 =
𝑝𝑜𝑠
cos
,
10000(𝑖−2)/𝑑
𝑖 mod 2 = 1
𝑖 mod 2 = 0
26


# Page. 27

![Page Image](https://bcdn.docswell.com/page/47MY8MMQ7W.jpg)

Transformerブロック
Layer Normalization
+
FC×2
Layer Normalization
実際には各所に
Dropoutが入っている
+
Multi-Head Attention
Key Value Query
27


# Page. 28

![Page Image](https://bcdn.docswell.com/page/P7R95VVKE9.jpg)

Transformerによる生成
Key&amp;Value
Encoder
Decoder
Mask
28


# Page. 29

![Page Image](https://bcdn.docswell.com/page/PJXQKZZ57X.jpg)

Transformerによる生成
Key&amp;Value
Encoder
Decoder
29


# Page. 30

![Page Image](https://bcdn.docswell.com/page/3JK9588RJD.jpg)

Transformerによる生成
Key&amp;Value
Encoder
Decoder
30


# Page. 31

![Page Image](https://bcdn.docswell.com/page/LE3WK22GE5.jpg)

Transformerによる生成
Key&amp;Value
Encoder
Decoder
31


# Page. 32

![Page Image](https://bcdn.docswell.com/page/8EDK3ZZN7G.jpg)

Transformerによる生成
Key&amp;Value
Encoder
Decoder
32


# Page. 33

![Page Image](https://bcdn.docswell.com/page/V7PK4DDNJ8.jpg)

Transformerによる生成
Key&amp;Value
Encoder
Decoder
33


# Page. 34

![Page Image](https://bcdn.docswell.com/page/2JVVX11YJQ.jpg)

BERT
(Bidirectional Encoder Representations from Transformers)
◦ 自然言語処理用の事前学習モデル
◦ J. Devlin et al., “BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding” In Proc. NAACL-HLT, pp. 4171-4186, 2019.
◦ Transformerベース（Encoderのみ）
◦ さまざまなSSLで学習する
◦ マスク言語モデル(Masked LM)、後続文予測 (NSP)
34


# Page. 35

![Page Image](https://bcdn.docswell.com/page/5EGLV22WJL.jpg)

BERTへの入力
◦トークン埋め込み、位置埋め込み、
セグメント埋め込みを加算
35


# Page. 36

![Page Image](https://bcdn.docswell.com/page/4JQY6PPQ7P.jpg)

BERTのSSLタスク
◦ マスク言語モデル
◦ 単語の一部を[MASK]またはランダムに選んだ単語
に置き換え、元の単語を予測する
◦ 単語全体の15%を選び、そのうち80%を[MASK]に、10%
をランダムな単語に置き換える（残り10%はそのまま）
[CLS] Today
is
Sunday [SEP] It ‘s a sunny
day [SEP]
BERT
[CLS] Today [MASK] Sunday [SEP] It ‘s a [MASK] day [SEP]
36


# Page. 37

![Page Image](https://bcdn.docswell.com/page/K74W4YYYE1.jpg)

BERTのSSLタスク
◦ 後続発話予測 (Next Sentence Prediction)
◦ 与えられた2つの文が連続する文なのかどうかを識別する
IsNext
BERT
[CLS] Today is Sunday [SEP] It ‘s a sunny day [SEP]
37


# Page. 38

![Page Image](https://bcdn.docswell.com/page/LJ1Y466NEG.jpg)

BERTのファインチューニング
◦ 実際のタスクに
BERTを応用する
場合には、事前学
習モデルを微調整
する
38


# Page. 39

![Page Image](https://bcdn.docswell.com/page/GJWGXW4M72.jpg)

Vision Transformer (ViT)
Dosovitskiy, et al., An Image is Worth 16x16 Words: Transformers for Image
Recognition at Scale. In Proc. ICLR, 2020.
39