畳み込みニューラルネットワークによる画像分類について

1.4K Views

October 20, 24

#cnn #deep learning #image #classification #深層学習 #画像分類 #コンペティション #CNN #アンサンブル学習

スライド概要

About image classification using convolutional neural networks

Masato MIWADA

@masato_miwada

スライド一覧

土木技術者として社会インフラの維持管理業務に携わっておりました。今は第二のキャリアとしてAI・機械学習技術者としてメーカーにて仕事をしています。学生時代、「動画像による洪水流の表面流速計測技術」について研究開発しておりました。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

河川流計測における画像解析技術の実用化

stiv float-ptv 河川工学土木工学画像計測

Masato MIWADA 2.5K

偏りのある時系列データの分類について

time series deep learning

Masato MIWADA 2.2K

t-SNE（t分布型確率的近傍埋め込み法）による高次元データの可視化について

t-sne 高次元データ

Masato MIWADA 2K

画像による脳腫瘍の検出

yolov8 sam object detection ai deep learning

Masato MIWADA 845

慣性センサーログの効果的な可視化と分類について

deep learning t-sne

Masato MIWADA 340

河川流計測における画像解析技術の実用化

stiv float-ptv 河川工学土木工学画像計測

Masato MIWADA 191

各ページのテキスト

日本絵画に描かれた人物の顔分類に機械学習で挑戦！！（ミワダマサト）三和田将人

成果物について日本画に描かれた人物を複数クラスに分類する学習器（モデル）を深層学習で作成正答率：Cross Validation（CV） = 80.8％（Ensambled）、スコア：Leader Board （LB） = 0.8830 コンペの成績順位 2位（34人中）正答率（ACC）： 77.5% コンペの成績：7 / 30クラス順位 11位/34人（上位４割以内）  学習期間：3日  試作品（精度が出るまで）：10日（13日）  現在の成績まで：10日（23日）

成果物の作成について

データセットについて出典：情報・システム研究機構データサイエンス共同利用基盤施設人文学オープンデータ共同利用センター『顔コレデータセット』, DOI:10.20676/00000353. 画像データ：256x256, 24bit （学習データ：4,238枚、試験データ：1,060枚） • 画像の枚数が少ない（一般に分類一つあたり、最低、1,000枚は必要） • 全体的に男性の画像が多いなど、分類に偏りがある • 「女性×武士」は１枚しかない • 見分けのつかない画像もある

開発環境ソフトウェア • Python 3.7.x • Tensorflow 2.x （-DirectML, -Metal） • matplot lib 3.5.x • numpy 1.21.x • Pandas 2.0.x • Scikit-learn 1.4 アーキテクチャ：事前学習済みモデル（ImageNet） • mobile-net • DenseNet121 • VGG19 ハードウェア ⚫ Google Colab（無課金、T4GPU）× ３（Linux） ⚫ Lenovo 「IdeaPad Flex 5 14ALC7 (2022年製)」（Windows11 HOME）演算装置：AMD Ryzen 7 5700U with Radeon Graphics 1.80 GHz • Frequency （ Base:1.8GHz, Max 4.3GHz ） • Cores : 8, Threads : 16, Cache : 4MB L2 / 8MB L3 ⚫ MacBook Air M1 2020 演算装置：Apple M1チップ • Frequency：3.2GHz • CPU Cores：8, GPU Cores：7

解析の流れ計算条件：50（Early Stopping） ⚫ Epoch ⚫ ミニバッチサイズ： 50枚 ⚫ 最適化手法： Adam（学習率 = 0.001） ⚫ データ拡張：水平反転、回転、拡縮 ⚫ 交差検証： 9 回（層化K-分割交差検証） ⚫ 学習期間：3日 ⚫ 試作品（精度が出るまで）：10日（13日） ⚫ 現在の成績まで：10日（23日）

畳み込みニューラルネットワーク（CNN）について • ディープラーニングとは「深いニューラルネットワークでの最小二乗法」である（東京大学松尾教授） • ディープラーニングとは「非線形問題における最適化」である。 • CNNとは、学習中に画像にフィルタリング処理に加え、特徴量を自動的に検出するディープラーニングの一手法である。東京大学数理・情報教育研究センター, 二反田篤史, , 「3-4 深層学習の基礎と展望」, http://www.mi.u-tokyo.ac.jp/pdf/3-4_dl_basic_and_future.pdf, 2021 から

http://www.mi.u-tokyo.ac.jp/pdf/3-4_dl_basic_and_future.pdf

心掛けたこと ⚫ 泥臭くても、「一歩、一歩」と確実に進めていく！！ ⚫ 解答（過去の同じコンペの記事）をすぐに見ない！！ ⚫ 理屈があっているなら、自分が選んだツールで結果を出す！！ ⚫ 無課金で勝つ！！（与えられた環境を十分に活かす練習）当初はラベルデータ（CSVファイル）からExcelでバッチファイルを作成して、学習用画像を各フォルダに振り分けデータセットを作成していた。 → 現在ではPythonでデータセットの作成可能。

苦労、実践したこと開始時期： CNNとはなんぞや？＆なんでディープラーニングが良いのか？実装時期 1. GPUメモリにデータが乗り切らず、精度がでない（クリア後、試作段階が完成） → ミニバッチでデータを分割し学習させる(TensorflowのimageDataGenerator型） 2. データ数が足りない。 → データ拡張（Data Augmentation：DA）を適用 3. 一回学習させた程度では、十分な精度を得られない。 → 交差検証（Cross Validation：CV）を導入 4. データに分布の偏りがある。 → CVの層化K-分割交差検証を用いる 5. 正答率（ACC）： 77.5%、LB：0.7764 コンペの成績：7 / 30クラス順位 11位/34人（上位４割以内）単体のモデルだけでは、どうしても６位までしかいけない → 複数のモデルを作成して、アンサンブル（多数決）をとる

10.

苦労、実践したこと開始時期： CNNとはなんぞや？＆なんでディープラーニングが良いのか？実装時期 1. GPUメモリにデータが乗り切らず、精度がでない（クリア後、試作段階が完成） → ミニバッチでデータを分割し学習させる(TensorflowのimageDataGenerator型） 2. データ数が足りない。 → データ拡張（Data Augmentation：DA）を適用 3. 一回学習させた程度では、十分な精度を得られない。 → 交差検証（Cross Validation：CV）を導入 4. データに分布の偏りがある。 → CVの層化K-分割交差検証を用いる 5. 正答率（CV）： 80.8%、LB：0.8688 コンペの成績：4 / 30クラス順位 6位/34人（上位2割以内）単体のモデルだけでは、どうしても６位までしかいけない → 複数のモデルを作成して、アンサンブル（多数決）をとる

11.

苦労、実践したこと開始時期： CNNとはなんぞや？＆なんでディープラーニングが良いのか？実装時期 1. GPUメモリにデータが乗り切らず、精度がでない（クリア後、試作段階が完成） → ミニバッチでデータを分割し学習させる(TensorflowのimageDataGenerator型） 2. データ数が足りない。 → データ拡張（Data Augmentation：DA）を適用 3. 一回学習させた程度では、十分な精度を得られない。 → 交差検証（Cross Validation：CV）を導入 4. データに分布の偏りがある。 → CVの層化K-分割交差検証を用いる 5. 正答率（CV）： 80.8%、LB：0.8830 コンペの成績：2 / 30クラス順位 2位/34人（上位1割以内）単体のモデルだけでは、どうしても６位までしかいけない → 複数のモデルを作成して、アンサンブル（多数決）をとる

12.

モデル毎の損失関数の値と正答率の推移 mobile-net CV = 80.8% Time = 2hour Loss DenseNet121 CV =78.4% Time = 4.7hour Loss Accuracy Accuracy VGG19 CV =76.0% Time = 10hour Loss Accuracy

13.

成果物について（再掲）日本画に描かれた人物を複数クラスに分類する学習器（モデル）を深層学習で作成正答率： CV = 80.8％（Ensambled）、スコア： LB = 0.8830 コンペの成績順位 2位（34人中）  学習期間：3日  試作品（精度が出るまで）：10日（13日）  現在の成績まで：10日（23日）

14.

今回の振返りと今後について ⚫ 結果を出したので過去のコンペ記事を解禁すると上位者は、「性別」と「階級」で分けて学習器をそれぞれ複数作成し、２段階でアンサンブルをしていたようだった。 → 当時のLBは0.9000ポイント以降が上位をひしめき合っていたので、自分の成績では３位以内に入れなかっただろう。 ⚫ 今回でDNNの一手法とツールの使い方がわかったので、他分野（信号データなどの時系列分析やテキスト分析）にも広げたい。 ⚫ 一方で、これまで習得したテーブルデータと画像の機械学習について複雑な課題に取り組みレベルを上げるとともに、直接的に企業へ売り込める作品を製作していきたい。

15.

売込みポイント ⚫ 新しい技術や概念を習得できる能力大学院で培われた、技術開発の経験 ⚫ とにかく、早く、試作品を作成できる能力公務員時代に培われた、手堅く進めて個々を積み上げる手法（古い意味でのハック：Hack） ⚫ ざっくりと大枠を理解し、説明できる能力学生時代からの心掛け ⚫ 仮説と検証を積み重ねる能力これまでの人生で培ってきたもの

16.

ご清聴ありがとうございました

17.

参考にした情報源公式情報  Tensorflow公式リファレンス（日、英）・・・ https://www.tensorflow.org/  MicroSoft Learn（英）・・・ https://learn.microsoft.com/en-us/windows/ai/directml/gpu-tensorflow-plugin  Apple Developper（英）・・・ https://developer.apple.com/metal/tensorflow-plugin/ ブログなど  Qiita（日）・・・ https://qiita.com/  teratail（日）・・・ https://teratail.com/  Stack Overflow（日、英）・・・ https://stackoverflow.com/  Kaggle（英）・・・ https://www.kaggle.com/  Analytics Vidhya（英）・・・ https://www.analyticsvidhya.com/blog/  Medium（英）・・・ https://medium.com/  GitHub（日、英）・・・ https://github.com

畳み込みニューラルネットワークによる画像分類について

Masato MIWADA

関連スライド

河川流計測における画像解析技術の実用化

偏りのある時系列データ の分類について

t-SNE（t分布型確率的近傍埋め込み法）による高次元データの可視化について

画像による脳腫瘍の検出

慣性センサーログの効果的な可視化と分類について

河川流計測における画像解析技術の実用化

各ページのテキスト

偏りのある時系列データの分類について