【深層学習による画像認識の基礎】1

157 Views

April 30, 26

#画像認識 #深層学習 #機械学習 #物体認識 #特徴量抽出

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 31.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 24.4K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.9K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 20.5K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 15.9K

【物体検出】DINO

京都大学人工知能研究会KaiRA 14.6K

各ページのテキスト

2026前期輪読会 #2 2026/04/30 深層学習による画像認識の基礎第1章画像認識の概要京都大学工学部理工化学科 B3 岡本和優 1

アジェンダ 1.1 画像認識とは 1.2 基本的な画像分類の方法 1.3 画像認識の歴史の概略 1.4 機械学習とはまとめ 2

第1章画像認識の概要 — 章の位置付け本章は本書全体への導入として、画像認識と機械学習（深層学習）の概要を整理する章。本章で扱う内容画像分類を題材にした、基本的なタスクの解き方とその難しさ 2000年代初期から現在に至るまでの画像認識の歴史の概観機械学習の基本的な枠組み本章のゴール「画像認識でやりたいこと」と「なぜ深層学習が必要になったのか」をストーリーで掴む 3

1.1 画像認識とは画像認識（image recognition）：与えられた画像を「理解」すること「理解」の代表的な解釈 → 物体認識（object recognition）画像に写っている物体を正確に認識することを目指すタスク群。物体認識は、認識の粒度によって3つに大別される：画像単位 → 画像分類（image classification）矩形単位 → 物体検出（object detection）画素単位 → 意味的領域分割（semantic segmentation） 4

物体認識の3つの代表的タスク (a) 画像分類 (b) 物体検出画像に写っている物体の名称のみを出力名称に加えて、物体の位置を矩形で出力例：「ヒツジ」「ベンチ」例：(x, y, w, h) + クラス名 (c) 意味的領域分割矩形ではなく画素単位で各物体の名称を出力 → よりリッチな情報量本書ではこの3タスクが中心に取り上げられている（詳細クラス分類・属性認識・深度推定などは紙面の都合上割愛）。 5

画像認識の目標と応用目標：我々人間に匹敵する高度な視覚機能を計算機上で実現すること応用例は多岐にわたる：車の自動運転監視カメラからの不審者検出医用画像に基づく診断支援顔認証 → 画像認識は「研究のための研究」ではなく、現実世界に直結する技術 6

1.2 基本的な画像分類の方法問い：計算機はどのようにして画像を「リンゴ」と認識するのか？基本的な画像分類の工程は、大きく 2 段階で構成される： 1. 画像特徴量の抽出（image feature extraction） 2. 分類（classification）イメージ：入力画像 → [特徴量抽出] → 特徴ベクトル → [分類器] → クラス（"リンゴ"など） 7

1.2.1 画像特徴量の抽出リンゴの特徴は「赤くて丸いこと」 → これを画像から数値で取り出せれば認識できそう。画像特徴量（image feature）＝認識の手がかりとなる情報画像表現（image representation）／特徴ベクトル（feature vector）とも呼ばれる例：赤色の画素数（赤色度合い）・円形度なぜ必要か？画像は単に輝度値（画素値）が格子状に並んだデータ。そのままでは物体の特徴を捉えにくいため、画像認識に適した数値表現に変換する必要がある。 → 有効な画像特徴量を抽出することは、現在でも変わらず重要な工程。 8

1.2.2 分類特徴ベクトルが定まると、画像は特徴空間（feature space）内の1点として表現できる（図1.2）。分類（classification）分類器（classifier）各データにクラス情報を付与する操作分割と割り当てを行うアルゴリズム特徴空間を領域分割し、各領域にクラ境界＝識別境界スを割り当てる（直線・曲線・円など）クラスは2つに限らない例：赤色画素数 vs 円形度の2次元空間 → 直線で「リンゴ／リンゴ以外」を分割 9

10.

1.3 画像認識の歴史の概略優れた画像特徴量と分類器を設計することが画像認識の中心課題。これまでに数多くの試行錯誤が行われてきた。本書では画像認識の歴史を 3 つの時期に分けて概説する： 1. 深層学習の台頭前（2000年代初期） 2. 深層学習の台頭後（2012年以降） 3. 現在（本書執筆時点：2024年3月）補足：実際の画像認識の歴史は1960年代に始まる。深層学習が焦点のため、深層学習の台頭時期を基準に区切っている。 10

11.

1.3.1 深層学習の台頭前 — 特徴量エンジニアリング 2000年代の画像認識では画像特徴量の性能 = システム全体のボトルネック。そのため、より良い画像特徴量の開発が盛んに行われていた。画像特徴量を設計する際の重要な要件スケール不変性をもたせること（物体の大きさに頑健）計算コストを削減すること特徴量の次元数を揃えること代表的な手作りの画像特徴量 SIFT（scale-invariant feature transform）+ BoVW（bag of visual words） LBP（local binary pattern） GIST（global image structure tensor） HOG（histogram of oriented gradients）+ フィッシャーベクトル 11

12.

1.3.1 汎用的な画像特徴量の設計は難しい（図1.3）実画像には様々なノイズが含まれる：照明条件の変化類似物体の混入物体サイズの違い画角の違い同じ「リンゴ」でも、赤色度合いと円形度だけではうまく分類できない例が多数。リンゴという 1クラスを分類するだけでも難しい数十〜数千クラスを認識するための特徴量を手動設計するのは困難を極める結果として、当時の画像認識器の性能は頭打ちの傾向に 12

13.

1.3.2 深層学習の台頭後（2012年〜）深層学習の衝撃 2012年 ILSVRC（ImageNet Large Scale Visual Recognition Challenge）それまで 2012年誤分類率の改善幅は 2%程度深層学習モデルが 2位に10%以上の差を付けて優勝性能は頭打ちの傾向画像認識界に大きな衝撃深層学習（deep learning）＝多層ニューラルネットワーク（DNN）を用いた機械学習の方法論画像特徴量の獲得と分類を人手で設計せず、ネットワークとデータに委ねる大量データで適切に最適化すれば、汎用的な画像特徴量が内部表現として自動的に獲得される手動設計の特徴量よりも基本的に優れた性能を示す 13

14.

ネットワークエンジニアリングネットワーク構造は、獲得される画像特徴量の質や分類精度に大きな影響を与える。 2012年以降ネットワーク構造の作り込み（ネットワークエンジニアリング）が活発に行われた。当時の深層学習の発展は、良いネットワーク構造の発見が牽引していたと言っても過言ではない。いま広く使われているもの ResNet（3章で紹介） Transformer（4章で紹介）その他、当時開発された多くのネットワーク構造は今や忘れ去られている。 14

15.

1.3.3 現在（2024年3月時点）の画像認識研究のトレンドが再びシフトきっかけ自己教師あり学習（7章）の進展自然言語の活用（8章）の進展これらにより Web 上の膨大なデータを効率的に活用可能にわかってきたこと膨大なデータが利用可能であれば、作り込まれたモデルよりも汎用的な構造を持つDNN （例：Transformer）が十分に優れた性能を示す。 → ネットワーク構造の作り込みは以前ほど活発には行われなくなった。大規模データを用いて汎用的なモデルを最適化することが一般的になりつつある。それでも最先端モデルは人間の画像認識能力には未だ及ばず、性能改善の研究は日々続けられている。 15

16.

1.4 機械学習とは機械学習（machine learning）手元にある観測データから、未観測データにも通用する汎用的な規則性（ルール）を見出すことを目的とした方法論。リンゴ画像分類の場合：大量のリンゴ画像から、リンゴを認識するための規則性（画像特徴）を抽出あらゆるリンゴ画像を正しく分類することが目標機械学習の枠組みは大別して2つ：教師あり学習教師なし学習 (supervised learning) (unsupervised learning) 入力データ + 正解ラベルのペアを使う入力データのみを使う本書はこれを主に扱う例：クラスタリング、異常検知 16

17.

教師あり学習の仕組みと用語観測データ＝入力データ＋対応するラベル（所望の出力結果）のペア例：入力 = リンゴの画像 / ラベル = 「リンゴ」というクラス情報学習の流れ：入力データ → [機械学習モデル(例:NN)] → 予測ラベル ↑ 正解ラベルを正しく出力するよう最適化用語の整理学習データ／訓練データ（training data）：観測データ学習（training）：モデルの最適化テストデータ：学習に使わなかった未観測データモデルの良し悪しはテストデータでの性能で評価する 17

18.

まとめ画像認識とは何か（1.1〜1.2）歴史から見た深層学習の位置（1.3）画像を「理解」するタスクの総称〜2012：手作り特徴量＋分類器、頭打ち代表3タスク：画像分類／物体検出／意味的領域分割 2012〜：DNNで自動獲得、ネットワーク作り込み基本工程は特徴量抽出 + 分類の2段階現在：大規模データ × 汎用構造（Transformer等）機械学習の枠組み（1.4）データから汎用的な規則性を見出す方法論教師あり学習 / 教師なし学習に大別され、本書は主に教師あり学習を扱う評価は未観測のテストデータで行うことが鉄則 18

19.

コラム：教師なし学習（補足）教師なし学習では、観測データは入力データのみで構成される（ラベルなし）。代表例クラスタリング異常検知類似したデータ同士をグループ化する大量の正常画像のみを用いて「正常らことを目的とするしさ」を表現するモデルを構築そこから逸脱するサンプルを異常として検出本書のスコープ画像認識タスクの多くは教師あり学習として定式化されるため、本書では教師あり学習を主に扱っている。（教師なし学習の発展形である自己教師あり学習は7章で扱われている。） 19