【深層学習による画像認識の基礎】1

>100 Views

April 30, 26

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

2026前期輪読会 #2 2026/04/30 深層学習による画像認識の基礎 第1章 画像認識の概要 京都大学工学部理工化学科 B3 岡本 和優 1

2.

アジェンダ 1.1 画像認識とは 1.2 基本的な画像分類の方法 1.3 画像認識の歴史の概略 1.4 機械学習とは まとめ 2

3.

第1章 画像認識の概要 — 章の位置付け 本章は 本書全体への導入 として、画像認識と機械学習(深層学習)の概要を整理する 章。 本章で扱う内容 画像分類 を題材にした、基本的なタスクの解き方とその難しさ 2000年代初期から現在に至るまでの画像認識の歴史 の概観 機械学習の基本的な枠組み 本章のゴール 「画像認識でやりたいこと」と「なぜ深層学習が必要になったのか」をストーリーで 掴む 3

4.

1.1 画像認識とは 画像認識(image recognition):与えられた画像を「理解」すること 「理解」の代表的な解釈 → 物体認識(object recognition) 画像に写っている物体を正確に認識することを目指すタスク群。 物体認識は、認識の 粒度 によって3つに大別される: 画像単位 → 画像分類(image classification) 矩形単位 → 物体検出(object detection) 画素単位 → 意味的領域分割(semantic segmentation) 4

5.

物体認識の3つの代表的タスク (a) 画像分類 (b) 物体検出 画像に写っている物体の名称のみを出力 名称に加えて、物体の位置を矩形で出力 例:「ヒツジ」「ベンチ」 例:(x, y, w, h) + クラス名 (c) 意味的領域分割 矩形ではなく 画素単位 で各物体の名称を出力 → よりリッチな情報量 本書ではこの3タスクが中心に取り上げられている (詳細クラス分類・属性認識・深度推定などは紙面の都合上割愛)。 5

6.

画像認識の目標と応用 目標:我々人間に匹敵する高度な視覚機能を計算機上で実現すること 応用例は多岐にわたる: 車の自動運転 監視カメラからの不審者検出 医用画像に基づく診断支援 顔認証 → 画像認識は「研究のための研究」ではなく、現実世界に直結する技術 6

7.

1.2 基本的な画像分類の方法 問い:計算機はどのようにして画像を「リンゴ」と認識するのか? 基本的な画像分類の工程は、大きく 2 段階 で構成される: 1. 画像特徴量の抽出(image feature extraction) 2. 分類(classification) イメージ: 入力画像 → [特徴量抽出] → 特徴ベクトル → [分類器] → クラス("リンゴ"など) 7

8.

1.2.1 画像特徴量の抽出 リンゴの特徴は 「赤くて丸いこと」 → これを画像から数値で取り出せれば認識できそ う。 画像特徴量(image feature)=認識の手がかりとなる情報 画像表現(image representation)/特徴ベクトル(feature vector)とも呼ばれ る 例:赤色の画素数(赤色度合い)・円形度 なぜ必要か? 画像は単に輝度値(画素値)が格子状に並んだデータ。そのままでは物体の特徴を捉えに くいため、画像認識に 適した数値表現に変換 する必要がある。 → 有効な画像特徴量を抽出することは、現在でも変わらず重要な工程。 8

9.

1.2.2 分類 特徴ベクトルが定まると、画像は 特徴空間(feature space) 内の1点として表現でき る(図1.2)。 分類(classification) 分類器(classifier) 各データにクラス情報を付与する操作 分割と割り当てを行うアルゴリズム 特徴空間を領域分割し、各領域にクラ 境界=識別境界 スを割り当てる (直線・曲線・円など) クラスは2つに限らない 例:赤色画素数 vs 円形度 の2次元空間 → 直線で「リンゴ/リンゴ以外」を分割 9

10.

1.3 画像認識の歴史の概略 優れた 画像特徴量 と 分類器 を設計することが画像認識の中心課題。 これまでに数多くの試行錯誤が行われてきた。 本書では画像認識の歴史を 3 つの時期 に分けて概説する: 1. 深層学習の台頭前(2000年代初期) 2. 深層学習の台頭後(2012年以降) 3. 現在(本書執筆時点:2024年3月) 補足:実際の画像認識の歴史は1960年代に始まる。深層学習が焦点のため、深層学習の 台頭時期を基準に区切っている。 10

11.

1.3.1 深層学習の台頭前 — 特徴量エンジニアリング 2000年代の画像認識では 画像特徴量の性能 = システム全体のボトルネック。 そのため、より良い画像特徴量の開発が盛んに行われていた。 画像特徴量を設計する際の重要な要件 スケール不変性をもたせること(物体の大きさに頑健) 計算コストを削減すること 特徴量の次元数を揃えること 代表的な手作りの画像特徴量 SIFT(scale-invariant feature transform)+ BoVW(bag of visual words) LBP(local binary pattern) GIST(global image structure tensor) HOG(histogram of oriented gradients)+ フィッシャーベクトル 11

12.

1.3.1 汎用的な画像特徴量の設計は難しい(図1.3) 実画像には様々なノイズが含まれる: 照明条件の変化 類似物体の混入 物体サイズの違い 画角の違い 同じ「リンゴ」でも、赤色度合いと円形度だけではうまく分類できない例が多数。 リンゴという 1クラス を分類するだけでも難しい 数十〜数千クラスを認識するための特徴量を 手動設計 するのは困難を極める 結果として、当時の画像認識器の性能は 頭打ち の傾向に 12

13.

1.3.2 深層学習の台頭後(2012年〜)深層学習の衝撃 2012年 ILSVRC(ImageNet Large Scale Visual Recognition Challenge) それまで 2012年 誤分類率の改善幅は 2%程度 深層学習モデルが 2位に10%以上の差 を付けて優勝 性能は頭打ちの傾向 画像認識界に大きな衝撃 深層学習(deep learning)=多層ニューラルネットワーク(DNN) を用いた機械学習 の方法論 画像特徴量の獲得と分類を 人手で設計せず、ネットワークとデータに委ねる 大量データで適切に最適化すれば、汎用的な画像特徴量が 内部表現として自動的に 獲得される 手動設計の特徴量よりも基本的に優れた性能を示す 13

14.

ネットワークエンジニアリング ネットワーク構造は、獲得される画像特徴量の質や分類精度に 大きな影響 を与える。 2012年以降 ネットワーク構造の作り込み(ネットワークエンジニアリング)が活発に行われた。 当時の深層学習の発展は、良いネットワーク構造の発見が牽引していたと言っても過言で はない。 いま広く使われているもの ResNet(3章で紹介) Transformer(4章で紹介) その他、当時開発された多くのネットワーク構造は今や忘れ去られている。 14

15.

1.3.3 現在(2024年3月時点)の画像認識 研究のトレンドが再びシフト きっかけ 自己教師あり学習(7章)の進展 自然言語の活用(8章)の進展 これらにより Web 上の膨大なデータを効率的に活用可能に わかってきたこと 膨大なデータが利用可能であれば、作り込まれたモデルよりも 汎用的な構造を持つDNN (例:Transformer) が十分に優れた性能を示す。 → ネットワーク構造の作り込みは以前ほど活発には行われなくなった。 大規模データを用いて汎用的なモデルを最適化することが一般的になりつつある。 それでも最先端モデルは 人間の画像認識能力には未だ及ばず、性能改善の研究は日々続け られている。 15

16.

1.4 機械学習とは 機械学習(machine learning) 手元にある観測データから、未観測データにも通用する汎用的な規則性(ルール) を見 出すことを目的とした方法論。 リンゴ画像分類の場合: 大量のリンゴ画像から、リンゴを認識するための 規則性(画像特徴) を抽出 あらゆるリンゴ画像を正しく分類することが目標 機械学習の枠組みは大別して2つ: 教師あり学習 教師なし学習 (supervised learning) (unsupervised learning) 入力データ + 正解ラベルのペアを使う 入力データのみを使う 本書はこれを主に扱う 例:クラスタリング、異常検知 16

17.

教師あり学習の仕組みと用語 観測データ = 入力データ + 対応するラベル(所望の出力結果)のペア 例:入力 = リンゴの画像 / ラベル = 「リンゴ」というクラス情報 学習の流れ: 入力データ → [機械学習モデル(例:NN)] → 予測ラベル ↑ 正解ラベルを正しく出力するよう最適化 用語の整理 学習データ/訓練データ(training data):観測データ 学習(training):モデルの最適化 テストデータ:学習に使わなかった未観測データ モデルの良し悪しは テストデータでの性能で評価 する 17

18.

まとめ 画像認識とは何か(1.1〜1.2) 歴史から見た深層学習の位置(1.3) 画像を「理解」するタスクの総称 〜2012:手作り特徴量+分類器、頭打 ち 代表3タスク:画像分類/物体検出/ 意味的領域分割 2012〜:DNNで自動獲得、ネットワ ーク作り込み 基本工程は特徴量抽出 + 分類の2段階 現在:大規模データ × 汎用構造 (Transformer等) 機械学習の枠組み(1.4) データから汎用的な規則性を見出す方法論 教師あり学習 / 教師なし学習に大別され、本書は主に教師あり学習を扱う 評価は 未観測のテストデータで行う ことが鉄則 18

19.

コラム:教師なし学習(補足) 教師なし学習では、観測データは 入力データのみ で構成される(ラベルなし)。 代表例 クラスタリング 異常検知 類似したデータ同士をグループ化する 大量の正常画像のみを用いて「正常ら ことを目的とする しさ」を表現するモデルを構築 そこから逸脱するサンプルを異常とし て検出 本書のスコープ 画像認識タスクの多くは教師あり学習として定式化されるため、本書では教師あり学習を 主に扱っている。 (教師なし学習の発展形である自己教師あり学習は7章で扱われている。) 19