2025/02/28 学部卒業研究発表『認識タスクに適した熱赤外線画像着色モデルに関する研究』@東北大学

>100 Views

March 04, 25

スライド概要

profile-image

東北大学工学部電気情報物理工学科

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

学部卒業研究 研究室ゼミ 認識タスクに適した 熱赤外線画像 着色モデルに関する研究 Infrared Image Coloring Model for Image Recognition Tasks Any feedback is welcome! 東北大学 大町宮崎研究室 学部4年 谷内寛人 Hiroto TANIUCHI, 4th year undergraduate, IICLab, Tohoku University 東北大学広報活動 キャラクター・研一

2.

目次 1. 導入 ー赤外線画像の着色ー 2. 関連研究 ー宇川モデルー 3. 宇川モデルの発展性, 研究の動機, 提案手法 4. 実験 5. 結果, 考察 6. 結論, 展望 2025/02/28(Fri) 大町・宮崎研究室 学部4年 谷内寛人 2

3.

Outline 1. Introduction 2. Ugawa’s Model 3. Motivation, Approach, Proposal 4. Experiment 5. Result 6. Conclusion 2025/02/28(Fri) 大町・宮崎研究室 学部4年 谷内寛人 3

4.

1. 導入 ー赤外線画像の着色ー “色”, 特に“色彩”について研究したい! ...環境変化に強い頑健なセンサとして熱赤外線カメラが注目されている 特徴 応用例 物体の熱を捉える 照明を必要としない=夜でも使える 悪天候でも使用可能 自動運転[1] ht tps:/ /ww w.fli r.com /gl oba lassets/ news/ 120 0x6 28_ auton omou sv ehi cl e.jpg 可視光画像 https://www.mi.t.u-tokyo.ac.jp/static/projects/mil_multispectral/det_result.png 2025/02/28(Fri) 熱赤外線画像 救助活動[1] 防犯 ht tps:/ /ww w.fli r.jp/gl oba lassets/ defense/ solu tio n-an dl andi ng-pa ges/ui s/ se arch-re scu e-be nner .jpg/ co nstrai n11 30x 0-20 105 106 68.jp g ht tps:/ /shop pi ng.w tw.jp/cdn/ sh op/ fil es/00 000 000 077 6 _k ZHOT 5k.p ng?v= 168 751 477 6 大町・宮崎研究室 学部4年 谷内寛人 4

5.

1. 導入 ー赤外線画像の着色ー 可視光..RGB画像 (Visible Light) 熱赤外線..TIR画像 (Thermal InfraRed) 環境の影響を強く受け 天候・照明の変化に頑健 る 状況が理解しやすい https://www.mi.t.u-tokyo.ac.jp/static/projects/mil_multispectral/det_result.png 難 視認性が低く状況理解が困 https://www.mi.t.u-tokyo.ac.jp/static/projects/mil_multispectral/det_result.png 熱の画像情報 色情報テクスチャ TIR画像から生成した擬似RGB画像 る 状況が理解しやすい 2025/02/28(Fri) 天候・照明の変化に頑健 ...と期待され 大町・宮崎研究室 学部4年 谷内寛人 5

6.

2. 関連研究 ー宇川モデルー ・大町∙宮崎研究室2023年度卒業生の宇川さんが提案したモデル ・TICC-GAN[3](敵対的生成ネットワークの一つ)をベースラインに使用 ・セグメンテーションモジュールからの特徴マップを参照することで 物体の意味を適切に反映した着色画像を生成 〜2023/11/25 駅伝のおもひで〜 2025/02/28(Fri) 大町・宮崎研究室 学部4年 谷内寛人 6

7.

2. 関連研究 ー宇川モデルー GANを利用した従来の着色モデル 逆伝播 判別器 生成器 TIR画像 𝐼(元画像) ෠ 擬似RGB画像 𝑉(生成画像) 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 コンテンツ損失 知覚的損失 Total Variation損失 敵対的損失 RGB画像 𝑉(GT) 2025/02/28(Fri) 大町・宮崎研究室 学部4年 谷内寛人 7

8.

2. 関連研究 ー宇川モデルー 宇川モデル 逆伝播 ※イメージ図 セグメンテーション モジュール 𝑀𝑎𝑠𝑘 クラス画像 判別器 クラスマスク 𝑉෠𝑀𝑎𝑠𝑘 全画像 判別器 着色モジュール 逆伝播 TIR画像 𝐼(元画像) ෠ 擬似RGB画像 𝑉(生成画像) 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 コンテンツ損失 知覚的損失 Total Variation損失 敵対的損失 クラス敵対的損失 RGB画像 𝑉(GT) 2025/02/28(Fri) 大町・宮崎研究室 学部4年 谷内寛人 8

9.

3. 宇川モデルの発展性, 研究の動機 着眼点 宇川モデルは認識モデルにとって自然な画像を生成できない 実験, 考察 宇川モデル ・擬似RGB画像 𝑉෠ をRGB画像で学習済セグメンテーションモデル 𝑀𝑜𝑑𝑒𝑙 𝑆 に入力。分類性能は高くなかった。 ・もし、RGB画像で学習済のモデルに入力してもうまく動作する ならば、一般公開されているパラメタをTIR画像に適用できる ・すなわち”人にとって”だけでなく”画像認識モデルにとって” の自然さも考慮しながら変換を行いたい。 大規模認識モデル (セグメンテーション, 物体認識) 動機 ෡ を, RGB画像で訓練済みの認識モデル 着色結果 𝑽 (セグメンテーション, 物体検出etc)の入力に利用したい 9

10.

3. 宇川モデルの発展性, 研究の動機 ①可視光画像②熱赤外線画像③アノテーション情報 が同一シーン上で揃ったデータセットが必要 MFNet データセット ・街路や交通の画像 ・画素数 H480×W640 ・昼間:train 410枚, val 205枚, test 205枚 夜間:train 374枚, val 187枚, test 188枚 計1542枚/全1606枚 ・8クラス分類 (car, person, bike, curve, car stop, guardrail, color cone, bump, 無分類) ①可視光画像 ②熱赤外線画像 ③アノテーション情報 同 一 シ ー ン 10

11.

4. 実験方法 TIR⇨RGBのモデル 宇川モデル ・MFNet_TIR (昼間)→MFNet_RGB(昼間)を学習 ・宇川モデルのセグメンテーションモジュールは, FLIR及びIRVIデータセットにて事前学習させる TIR&RGB Segのモデル MFNet (論文値参考) ・比較対象 ・MFNet_RGB&TIR (昼) →MFNet_Seg(昼)を学習 RGB Segのモデル DeeplabV3 ・MFNet_RGB(昼間) →MFNet_Seg(昼間)を学習 ・学習済パラメタを利用 諸条件 ・optimizer: SGD ・lr: 1e-3 ・GPU: RTX A6000, GeForce RTX 3090 11

12.

4. 実験方法 5つの実験条件 Seg RGB TIR 比較条件1 pix2pix 宇川モデル 類似性評価: PSNR, FID DeeplabV3 類似性評価: Accuracy, mIoU ICRNet 比較条件2 MFNet 12

13.

4. 実験方法 5つの実験条件 Seg RGB TIR 比較条件1 pix2pix 宇川モデル 類似性評価: PSNR, FID DeeplabV3 類似性評価: Accuracy, mIoU ICRNet 比較条件2 MFNet 13

14.

5. 定性評価 入力画像 Ground Truth 宇川モデル Ground Truth DeeplabV3 TIR RGB (TIR⇨)RGB Seg (RGB )Seg 14

15.

5. 定量評価 着色モデル 評価指標 ドメイン pix2pix 宇川モデル ICRNet TIR ⇨ RGB TIR ⇨ RGB TIR ⇨ RGB PSNR (⇧) 28.3 FID (⇩) 158.6 着 色 性 能 比較条件1 セグモデル ドメイン 評価指標 DeeplabV3 TIR⇨RGB Seg TIR⇨RGB Seg TIR⇨RGB Seg トレードオフ? 認 識 可 能 性 比較条件2 MFNet RGB Seg RGB&TIR Seg Accuracy (⇧) 0.184 0.591(参考)[4] mIoU (⇧) 0.145 0.649(参考)[4] 15

16.

4. 実験方法 5つの実験条件 Seg RGB TIR 比較条件1 pix2pix 宇川モデル 類似性評価: PSNR, FID DeeplabV3 類似性評価: Accuracy, mIoU ICRNet 比較条件2 MFNet 16

17.

5. 考察 DeeplabV3の分類性能が極端に低い 各クラスの画素単位 出現頻度合計 ①MFNetはTIR情報をconcatした4チャネルの画像を 入力とする=より豊富な情報を参照できる=有利 Unlabelled(class0): 276868334 pixel=92.2% ②MFNetデータセットはクラス情報が不均衡 ・総画素数のうち無分類の画素は9割以上、 分類済クラスの中でもCarが半分以上を占める ・不均衡に強い損失を採用してaccuracyを改善した クラス 0 1 2 3 4 5 6 7 8 CrossEntropy 0.91 0.52 0.0 0.0 0.0 0.0 0.0 0.0 0.0 C.B. + Focul + Dice 0.91 0.75 0.0 0.0 0.0 0.0 0.0 0.0 0.0 (SegNet[4])(参考) 0.97 0.89 0.77 0.77 0.43 0.32 0.0 0.0 0.0 損失関数 (MFNet[4])(参考) 2025/02/28(Fri) 0.97 0.56 0.91 0.75 0.77 0.33 0.0 0.72 0.71 大町・宮崎研究室 学部4年 谷内寛人 Car(class1): 12315474 pixel=4.1% 17

18.

5. 考察 分類性能が極端に低い 各クラスの画素単位 出現頻度合計 ①MFNetはTIR情報をconcatした4チャネルの画像を それにしても値が悪すぎる 入力とする=より豊富な情報を参照できる=有利 →実装の際,参照先が間違っていた ②MFNetデータセットはクラス情報が不均衡 Unlabelled(class0): 276868334 pixel=92.2% 可能性もある? ・総画素数のうち無分類の画素は9割以上、 分類済クラスの中でもCarが半分以上を占める ・不均衡に強い損失を採用してaccuracyを改善 クラス 0 1 2 3 4 5 6 7 8 CrossEntropy 0.91 0.52 0.0 0.0 0.0 0.0 0.0 0.0 0.0 C.B. + Focul + Dice 0.91 0.75 0.0 0.0 0.0 0.0 0.0 0.0 0.0 (SegNet[4])(参考) 0.97 0.89 0.77 0.77 0.43 0.32 0.0 0.0 0.0 損失関数 (MFNet[4])(参考) 2025/02/28(Fri) 0.97 0.56 0.91 0.75 0.77 0.33 0.0 0.72 0.71 大町・宮崎研究室 学部4年 谷内寛人 Car(class1): 12315474 pixel=4.1% 18

19.

5. 結論 貢献 ・TIR, RGB, Segの3ドメインが同一シーン上に揃っているデータセットに 宇川モデルを適用し、画像生成性能の高さを確認した ・データセットの分布不均衡に強い損失関数を適用し、認識性能を向上した 展望 ・学習元データセットの不均衡は分類性能に大きな影響を与える →前景物体が大きく捉えられたデータセット(三ドメイン一体)を探す →交通状況の把握という目的を踏まえ、MFNetの認識性能を向上させる →画像データセットを自作する ・DeeplabV3にも4チャネル画像を訓練させてみる →4チャネル目(TIR)を宇川モデルに生成させるアーキテクチャの提案 ・MFNetには物体検出データも格納されている →セグメンテーション以外の認識タスクへの汎化 2025/02/28(Fri) 大町・宮崎研究室 学部4年 谷内寛人 19

20.

3. 提案手法 ICRNet (Infrared Image Coloring for Recognition Tasks) セグメンテーション モジュール 逆伝播 ※イメージ図 𝑀𝑎𝑠𝑘 クラス画像 判別器 クラスマスク MFNet データセット 𝑉෠𝑀𝑎𝑠𝑘 逆伝播 全画像 判別器 着色モジュール ② 逆伝播 ෠ 擬似RGB画像 𝑉(生成画像) TIR画像 𝐼(元画像) 可視光画像で訓練済みの セグメンテーションモデル 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቐ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 𝑆 … 𝑆𝑒𝑔𝑚𝑒𝑛𝑡𝑎𝑡𝑖𝑜𝑛 ① RGB画像 𝑉(GTその1) 𝑆መ コンテンツ損失 知覚的損失 Total Variation損失 敵対的損失 クラス敵対的損失 セグメンテーション損失 ③ セグメンテーション 画像 𝑆(GTその2) 20

21.

2. 関連研究 ー宇川モデルー GANを利用した従来の着色モデル 逆伝播 判別器 生成器 TIR画像 𝐼(元画像) ෠ 擬似RGB画像 𝑉(生成画像) 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 コンテンツ損失 知覚的損失 Total Variation損失 敵対的損失 RGB画像 𝑉(GT) 2025/02/28(Fri) 大町・宮崎研究室 学部4年 谷内寛人 21

22.

2. 関連研究 ー宇川モデルー 宇川モデル 逆伝播 ※イメージ図 セグメンテーション モジュール 𝑀𝑎𝑠𝑘 クラス画像 判別器 クラスマスク 𝑉෠𝑀𝑎𝑠𝑘 全画像 判別器 着色モジュール 逆伝播 TIR画像 𝐼(元画像) ෠ 擬似RGB画像 𝑉(生成画像) 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 コンテンツ損失 知覚的損失 Total Variation損失 敵対的損失 クラス敵対的損失 RGB画像 𝑉(GT) 2025/02/28(Fri) 大町・宮崎研究室 学部4年 谷内寛人 22

23.

3. 提案手法 提案手法: ICRNet セグメンテーション モジュール 逆伝播 ※イメージ図 𝑀𝑎𝑠𝑘 クラス画像 判別器 クラスマスク MFNet データセット 𝑉෠𝑀𝑎𝑠𝑘 逆伝播 全画像 判別器 着色モジュール ② ෠ 擬似RGB画像 𝑉(生成画像) TIR画像 𝐼(元画像) 可視光画像で訓練済みの セグメンテーションモデル 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቐ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 𝑆 … 𝑆𝑒𝑔𝑚𝑒𝑛𝑡𝑎𝑡𝑖𝑜𝑛 ① RGB画像 𝑉(GTその1) ③ 逆伝播 𝑆መ コンテンツ損失 知覚的損失 Total Variation損失 敵対的損失 クラス敵対的損失 セグメンテーション損失 セグメンテーション 画像 𝑆(GTその2) 23

24.

おわり ご清聴ありがとうございました! We eagerly await YOUR feedback! 終 制作・著作 ━━━━━ ⒾⒾⒸ

25.

参考文献 [1] FLIR Systems homepage https://www.flir.jp/ [2] Satoshi Ugawa. A Study on Thermal Infrared Image Colorization Based on Semantic Information, 2024. [3] X. Kuang et al. ‘Thermal infrared colorization via conditional generative adversarial network’, Infrared Physics & Technology, vol. 107, p. 103338, Jun. 2020, doi: 10.1016/j.infrared.2020.103338. [4] Qishen Ha, Kohei Watanabe, Takumi Karasawa, Yoshitaka Ushiku, Tatsuya Harada. MFNet: Towards Real-Time Semantic Segmentation for Autonomous Vehicles with MultiSpectral Scenes. The 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2017), 2017. https://www.mi.t.u-tokyo.ac.jp/static/projects/mil_multispectral/ [5] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros, “Image-To-Image Translation With Conditional Adversarial Networks”.

26.

修士での展望, 研究アイデア 学部研究を継続 ・セグメンテーション以外のタスクへの汎化 =MFNetに含まれている物体検出データの利用 ・宇川モデルの軽量化 https ://www.mi.t.u-tokyo.ac.jp/static/projects/mil_mult ispectral/det_res ult.png 色彩に関連のある他のテーマ ・カラー画像における色が持つ情報量…モノクロに変換すると失われる意味 情報の大きさを評価する ・パッケージ等の表示が色弱者にとってどの程度見やすいかを定量的に評価 する ・気持ちやテーマを単語で入力すると, それに従ったスライドの配色を提 するサービスの実装 2025/02/28(Fri) 大町・宮崎研究室 学部4年 谷内寛人 26

27.

補助資料 〜損失の計算〜 GANを利用した従来の着色モデル 〜損失計算〜 逆伝播 判別器 生成器 TIR画像 𝐼 (元画像) ෠ 生成画像) 擬似可視光画像 𝑉( 𝐿𝑎𝑑𝑣 𝐿𝐷 逆伝播 𝐿𝑐𝑜𝑛 𝐿𝑝𝑒𝑟 𝐿𝑡𝑣 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 可視光画像 𝑉 (GT) 2025/02/28(Fri) 大町・宮崎研究室 学部4年 谷内寛人 27

28.

補助資料 〜損失の計算〜 宇川モデル 〜損失計算〜 セグメンテーション モジュール 逆伝播 𝑀𝑎𝑠𝑘 クラスマスク 𝑉෠𝑀𝑎𝑠𝑘 𝑉𝑀𝑎𝑠𝑘 クラス画像 判別器 𝐿𝑐𝑙𝑎𝑠𝑠 𝐿𝐷𝑐𝑙𝑎𝑠𝑠 逆伝播 全画像 判別器 着色モジュール TIR画像 𝐼 (元画像) ෠ 生成画像) 擬似可視光画像 𝑉( 𝐿𝑎𝑑𝑣 𝐿𝐷 逆伝播 𝐿𝑐𝑜𝑛 𝐿𝑝𝑒𝑟 𝐿𝑡𝑣 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቊ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 可視光画像 𝑉 (GT) 2025/02/28(Fri) 大町・宮崎研究室 学部4年 谷内寛人 28

29.

補助資料 〜損失の計算〜 提案手法 ICRNet セグメンテーション モジュール 逆伝播 ※イメージ図 𝑀𝑎𝑠𝑘 クラス画像 判別器 クラスマスク MFNet データセット 𝑉෠𝑀𝑎𝑠𝑘 逆伝播 全画像 判別器 着色モジュール ② TIR画像 𝐼 逆伝播 ෠ 擬似可視光画像 𝑉 可視光画像で訓練済みの セグメンテーションモデル 𝐼 … 𝐼𝑛𝑓𝑟𝑎𝑟𝑒𝑑 𝑟𝑎𝑦 ቐ 𝑉 … 𝑉𝑖𝑠𝑖𝑏𝑙𝑒 𝑟𝑖𝑔ℎ𝑡 𝑆 … 𝑆𝑒𝑔𝑚𝑒𝑛𝑡𝑎𝑡𝑖𝑜𝑛 𝑆መ ① 可視光画像 𝑉 (GTその1) ③ セグメンテーション 画像 𝑆 (GTその2) コンテンツ損失 知覚的損失 Total Variation損失 敵対的損失 クラス敵対的損失 セグメンテーション損失 29

30.

補助資料 〜MFNet〜 マルチスペクトル画像は、ネッ トワークに渡される前にRGB 画像とIR画像に分離され、そ の後、プロセスは各ステップを 別々にエンコードする。RGB エンコーダーとIRエンコー ダーの出力は、デコード・ス テップで融合される。エンコー ダーの下位層の情報は、ショー トカットを使ってデコーダーの 上位層に追加される。このモデ ルはエンドツーエンドで学習で きる。ミニインセプションと ショートカットブロックの詳細 を図2に示す。 2025/02/28(Fri) 大町・宮崎研究室 学部4年 谷内寛人 30

31.

補助資料 〜MFNet〜 2025/02/28(Fri) 大町・宮崎研究室 学部4年 谷内寛人 31

32.

補助資料 〜宇川モデル 生成器の損失関数〜 2025/02/28(Fri) 大町・宮崎研究室 学部4年 谷内寛人 32