深層学習を用いた物件外観画像による築年代推定法の検討

>100 Views

May 28, 25

スライド概要

綾部 響己, 岡本 一志, 柴田 淳司, 原田 慧, 軽部 幸起: 深層学習を用いた物件外観画像による築年代推定法の検討, 第39回人工知能学会全国大会, 2025.5, 大阪府大阪市.

profile-image

Data Science Research Group, The University of Electro-Communications

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

深層学習を用いた物件外観画像による 築年代推定法の検討 綾部 響己 ,岡本一志 ,柴田 淳司 ,原田 慧 ,軽部 幸起 1:電気通信大学 2:東京都立産業技術大学院大学 2025.05.28 年度 人工知能学会全国大会 2025 1 / 25

2.

はじめに 不動産物件の築年代 物件価格や家賃に大きな影響を与える[Ota+, 2021] 建物の老朽化状況や維持管理コストにも深く関係 [Osaragi+, 2006] 建築基準法の改正などにより,災害リスクの評価 に重要[Sugino+, 2016] 課題 築年代情報は固定資産税の守秘義務により一般に非公開 ↓ 2025.05.28 外観画像から築年代を推定するモデルの構築が行われている 年度 人工知能学会全国大会 2025 2 / 25

3.

関連研究①:築年代推定の先行事例(1/3) Li+ (2018) データ:オーストラリア・ビクトリア州(520,694枚) 回帰タスク モデル:SIFT+CNN(複数アーキテクチャ) 比較モデル:AlexNet, ResNet18, ResNet50, DenseNet161 精度:MAE 10.7年,RMSE 12.1年(DenseNet161が最良) 特徴:複数CNNアーキテクチャを比較し,DenseNet161が最も高精度 2025.05.28 年度 人工知能学会全国大会 2025 3 / 25

4.

関連研究①:築年代推定の先行事例(2/3) Ogawa+ (2023) データ:神戸市ストリートビュー(28,133枚) 分類タスク(耐震基準改正年ごと,6クラス) モデル: CNNベース + Transformerベース(複数アーキテクチャ) 比較モデル: ShuffleNetV2, MobileNetV2, VGG19, ResNet101, ResNeSt101, T2T-ViT T-19, Swin Transformer Small, Swin Transformer Base 精度:swin-transformerで正解率0.68 特徴:Transformerベースモデルが高精度 2025.05.28 年度 人工知能学会全国大会 2025 4 / 25

5.

関連研究①:築年代推定の先行事例(3/3) Huang+ (2024) データ:カナダのGoogle Street View(99,546枚) 分類タスク(20年ごと,6クラス) モデル:EfficientNet-V2-S(事前学習済み) 精度:正解率 0.70(トロント),0.36(モントリオール) 特徴:地域による精度のばらつきが大きい 2025.05.28 年度 人工知能学会全国大会 2025 5 / 25

6.

関連研究②:課題と本研究の位置づけ 既存研究は限定地域・小~中規模データでの検証が中心 → 地域属性による精度低下や、モデルの汎用性が課題 分類タスクでのアプローチが主流 → 精度向上の余地が大きい 全国規模・大規模データセットで 地域に依存しない高精度な築年代推定を目指す 2025.05.28 年度 人工知能学会全国大会 2025 6 / 25

7.

リサーチクエスチョン RQ. 高精度で地域に依存しない汎用的な築年代推定が可能なアーキテクチャ はどのようなものか? 方法 1. 全国規模で大量の画像を持つデータセットを用いて,画像認識において有用とされる アーキテクチャの性能を比較 2. 地域別の精度を比較し,地域属性に依存しないロバストなアーキテクチャが何かを分析 3. 推定結果に関する分析を行い,モデルやデータセットの妥当性を検証 2025.05.28 年度 人工知能学会全国大会 2025 7 / 25

8.

実験アプローチ 回帰問題として,外観画像を1枚入力し,築年代を推定 推定された築年代と実際の築年代を6つの区分にわけ,6クラス分類で評価(~1962, 1963~1971,1972~1980,1981~1989,1990~2001,2002~)[Ogawa+,2023] 2025.05.28 年度 人工知能学会全国大会 2025 8 / 25

9.

データセット データセット LIFULL HOME'S 国立情報学研究所が提供 不動産物件に関する属性情報と画像 学習用: 8,321,576枚の外観画像 テスト用: 774,711枚の外観画像 2025.05.28 年度 人工知能学会全国大会 2025 9 / 25

10.

バギングによるアプローチ 精度と汎化性能の向上が目的 2025.05.28 年度 人工知能学会全国大会 2025 10 / 25

11.

データの前処理 Split 分割の工夫 一つの物件に複数の外観画像が 含まれている → 物件単位でsplitを分けることで, 同一物件が異なるsplitに分散しないように 設定 同一物件の削除 物件ID以外の特徴量が一致している 物件を削除 → データの重複によるリークを防止 2025.05.28 データセット 外観画像枚数 (枚) テストデータ 774,711 学習データ 8,489,774 訓練データ Split 1 6,789,816 訓練データ Split 2 6,792,014 訓練データ Split 3 6,791,339 訓練データ Split 4 6,791,429 訓練データ Split 5 6,794,498 年度 人工知能学会全国大会 2025 11 / 25

12.

比較手法 ( ) 画像をパッチに分割し,自己注意機構を用いて特徴を抽出するトランスフォーマー ベースのアーキテクチャ 1. Vision Transformer ViT 2. VGG16 16 深さ 層のCNNで,シンプルで高精度な画像分類に強みを持つ古典的なアーキテクチャ 3. ResNet101_V2 101 層の深層構造を持つ残差ネットワークであり,残差ブロックを通じて効率的に 学習を進めることが可能 4. ShuffleNetV2 計算コストが低く軽量で,特にモバイルデバイス向けに最適化されたCNN 5. MobileNetV2 深さ方向の畳み込みやリニアボトルネックを特徴とするアーキテクチャ 2025.05.28 年度 人工知能学会全国大会 2025 12 / 25

13.

評価指標 回帰評価指標 MAE (平均絶対誤差) RMSE ( (中央絶対誤差) クラス分類での正解率 [Ogawa+,2023] 6つの区分にビン化 (~1962,1963~1971,1972~1980, 1981~1989,1990~2001,2002~) 正解率 = 正しく分類された事例数 全事例数 6 (平均二乗誤差の平方根) MedAE 2025.05.28 分類評価指標 ) ( ) 年度 人工知能学会全国大会 2025 13 / 25

14.

回帰精度比較 学習データの平均値(1999年)を返すモデルと比較 LiらによるCNNベースのモデル[Li+, 2018]のMAE(10.689) ,RMSE(12.121) を考慮すると,良好な推定精度を達成 特にViTとResNet101_V2が高い推定精度 2025.05.28 年度 人工知能学会全国大会 2025 14 / 25

15.

回帰精度比較 ViT VGG16 MobileNet 高精度なモデルは推定値と真値が一致する45度線上にデータが乗っている 横の広がりは,そのアーキテクチャの汎化性能を示していると考えられる 縦の広がりがどのモデルでも確認された 2025.05.28 年度 人工知能学会全国大会 2025 15 / 25

16.

分類精度比較 ViT が0.790pt,ResNetが0.759pt の 正解率( )に対しても,両者が 高い推定精度を達成 swin-transformer[Ogawa+, 2023] 0.679 2025.05.28 年度 人工知能学会全国大会 2025 16 / 25

17.

各築年代区分における正解率 築年代 区分 学習画像枚数 ViT VGG16 ResNet101_V2 ShuffleNetV2 MobileNetV2 -1962 11,026 0.355 0.007 0.379 0.093 0.000 1963-1971 86,891 0.360 0.029 0.439 0.083 0.003 1972-1980 351,115 0.485 0.216 0.602 0.181 0.047 1981-1989 1,338,764 0.662 0.582 0.796 0.548 0.384 1990-2001 2,977,270 0.890 0.758 0.769 0.787 0.755 2002- 3,724,708 0.805 0.671 0.762 0.646 0.624 Overall 8,489,774 0.790 0.658 0.759 0.650 0.595 古い物件ではResNetの方が当たり,新しい物件ではViTの方が当たる 古い物件の予測精度が課題 2025.05.28 年度 人工知能学会全国大会 2025 17 / 25

18.

高精度モデルの地域別精度(MAE) 学習時の画像枚数によらない 推定精度を発揮 ViTとResNet101_V2どちらも地域属性 によらず安定した回帰精度を達成 2025.05.28 地域 学習画像枚数 ViT ResNet101 北海道 355,034 3.296 3.250 東北 76,186 2.647 2.667 関東 3,930,969 2.817 2.936 中部 987,962 2.725 2.795 近畿 1,749,341 3.379 3.179 中国 366,162 2.398 2.099 四国 318,919 1.480 2.423 九州 705,201 2.585 2.829 全国 8,489,774 2.856 2.925 年度 人工知能学会全国大会 2025 18 / 25

19.

推定誤差に関する分析(分布) ViT VGG16 のような高精度モデルでは多くのデータが誤差0付近に分布 MobileNetでは,全体に広く分布 予測誤差が+100年のデータが存在している 一方,その反対はなく,大きくても-50年程度 どれも正規分布と仮定して分析が可能 MobileNet_V2 ViT 2025.05.28 年度 人工知能学会全国大会 2025 19 / 25

20.

推定誤差に関する分析(Q-Qプロット) ViT VGG16 MobileNet_V2 正規分布に比べて,負の誤差が少なく,正の誤差が大きい傾向 MobileNetでは負の誤差がうまく適合 真値よりも新しいと推定してしまうケースが多い 2025.05.28 年度 人工知能学会全国大会 2025 20 / 25

21.

による推定結果の分析(正解年 ->推定年) ViT 推定誤差1年以内 1993 年 ->1992.16年 2014 年->2013.62年 1971 2014 2025.05.28 推定誤差20年程度 年 年 年 年 年 ->1991.86年 1925 ->2006.01 年->1992.63年 1889 ->1988.02 年度 人工知能学会全国大会 2025 推定誤差80年以上 21 / 25

22.

ラベルノイズの分析 分析の結果,外観ではない画像が含まれていることが判明 2025.05.28 年度 人工知能学会全国大会 2025 22 / 25

23.

ラベルノイズの分析 分類項目 画像枚数(枚) 外観全体 859 外観の一部 89 非外観 37 その他 15 合計 1000 外観の一部と分類された画像には,玄関のみの画像 や,階段部分のみの画像などが該当 外観ではないものと分類された画像には,内観の画像 や駐輪場の画像などが該当 その他に分類された画像として,間取り図の画像や, 周辺地域の地図,工事中のために外観が認識できない 画像などが該当 1. 外観ではない画像が外観とラベリングされるラベルノイズ 2. 真値である築年代が誤っているラベルエラー が含まれていることを確認 2025.05.28 年度 人工知能学会全国大会 2025 23 / 25

24.

おわりに 本研究のまとめ データセットを学習し,築年代推定モデルの性能を比較 ViTとResNet101_V2が高精度で地域に依存しない汎用的な築年代推定アーキテクチャ であることが示唆(RQ) LIFULL HOME'S 今後の課題 データクリーニングやデータ拡張等の利用による精度向上の検証 事前学習済みモデルの利用 地域別に学習したモデルによる精度検証 不動産業界での実用化に関する応用を目指す 2025.05.28 年度 人工知能学会全国大会 2025 24 / 25

25.

参考文献 [Ota+, 2021] A. Ota, H. Takahashi, T. Kaneda: Factor Analysis of the Rent Using Space Syntax Measures, Jpn. Real () Estate Sci., 31 4 , 109-118, 2021. [Osaragi+, 2006] T. Osaragi, S .Kawata: Forecasting the Number of Buildings by Using Probability Function of ( ), 41-46, 2006. [Suginao+, 2016]杉野 未奈, 山室 涼平, 小林 素直, 村瀬 詩織, 大村 早紀, 林 康裕: 2016年熊本地震における益城町 の建物被害の分析, 日本地震工学会論文集, 16(10), 69-83, 2016. Remainder, Architecture and Planning, 71 609 [Huang+, 2024] W. Huang, A. W. Olson, E. B. Khalil, S. Saxe: Image-based prediction of residential building attributes with deep learning, J. of Industrial Ecol., 1–15, 2024. [Li+, 2018] Y. Li, Y. Chen, A. Rajabifard, K. Khoshelham, M. Aleksandrov: Estimating Building Age from Google Street View Images Using Deep Learning, in Proc. Int. Conf. Geogr. Inf. Sci., 2018. [Ogawa+, 2023] Y. Ogawa, C. Zhao, T. Oki, S. Chen, Y. Sekimoto: Deep Learning Approach for Classifying the Built Year and Structure of Individual Buildings by Automatically Linking Street View Images and GIS Building Data, IEEE Selected Topics Applied Earth Observations Remote Sensing, 16, 1740-1755, 2023. 株式会社LIFULL: LIFULL HOME'Sデータセット, 国立情報学研究所情報学研究データリポジトリ, 2015. 2025.05.28 年度 人工知能学会全国大会 2025 25 / 25