8.5K Views
May 16, 24
スライド概要
2024年4月27日に開催された「第88回 Machine Learning 15minutes! Hybrid」にて発表した資料となります。Machine Learning 15 minutes! は機械学習に関するLTを複数人で行い、最新の技術や機械学習のプラットフォーム状況などを共有、議論する場です。第88回ではLIFULLから【基盤モデルCLIPを活用した不動産広告画像品質評価】と題して、不動産業界における大規模言語モデルの基盤モデルの活用に向けた研究開発事例を紹介しました。
LIFULL HOME'Sを運営する株式会社LIFULLのアカウントです。 LIFULLが主催するエンジニア向けイベント「Ltech」等で公開されたスライド等をこちらで共有しております。
基盤モデルCLIPを活用した 不動産広告画像の品質評価 株式会社LIFULL グループデータ本部 データサイエンスG 嶋村 昌義 Copyright© LIFULL All Rights Reserved.
目次 1. 背景 a. b. 画像情報の重要性 画像分類モデルの作成に伴う労力 2. 関連研究 a. b. CLIP(Contrastive Language-Image Pre-Training) CLIP IQA(Image Quality Assessment) 3. 課題 a. どのようにCLIPのラベルを設定すると適切な評価ができるのか 4. アプローチ a. 効率的なゼロショット学習の方法を模索 5. 画像品質評価の今後 Copyright© LIFULL All Rights Reserved. 2
はじめに Copyright© LIFULL All Rights Reserved. 3
自己紹介 嶋村 昌義 経歴 ● 2009年にインターネット・情報通信分野で博士(工学)取得 ● 産官学連携研究員・特任助教にて学術研究(約6年) ● 受託開発会社にて大学や企業研究所案件を担当(約6年) ● 2019年にLIFULLへ中途入社 LIFULLでの取り組み ● 研究開発PJ全般のマネジメントに従事 ● イノベーションマネジメント委員会に所属 ● データ横断チーム内でデータマネジメントにも従事 Copyright© LIFULL All Rights Reserved. 4
グループデータ本部データサイエンスグループの位置付け LIFULL LIFULL HOME’S事業本部 プロダクト エンジニアリング部 LHプロダクトの開発や運用 データ統括U 事業データの分析(アナリスト) イノベーション開発室 生成AIなど新たな取り組みに挑戦 テクノロジー本部 全社基盤の構築や運用 グループデータ本部 LIFULLグループで生まれるデータを安全に、 効果的に活用できるようにすること データサイエンス G Copyright© LIFULL All Rights Reserved. ● ● 活用価値のあるデータの創出 データを活用した機能や サービスの研究開発 5
LIFULL HOME’S Copyright© LIFULL All Rights Reserved. 6
本日の発表内容 物件広告画像の品質や魅力を定量的に評価できないか? Copyright© LIFULL All Rights Reserved. 7
背景・関連研究 Copyright© LIFULL All Rights Reserved. 8
背景: 画像が購買活動に影響しうるのか 楽天技術研究所の論文 [1] 画像品質(4種)とCTRの関連を分析 画像を加工することでCTRが向上(向上率で平均115.7%) Expediaの事例 [2] 写真の掲載数が多いとエンゲージメント率やエンゲージメントタイムが増加 人手で撮影サポートをすることで、予約率が上昇し、成約率も70%増加、 宿泊予約泊数が前年比で150%~900%増と大幅に改善。 eBayの論文 [3] 画像品質が購買活動に大きな影響を与えていることを分析 Copyright© LIFULL All Rights Reserved. [1] Y. Chae, et al., "Enhancing Product Images for Click-Through Rate Improvement," Proc. 25th IEEE ICIP, pp. 1428-1432, 2018. [2] 宿泊施設サイトの画像が予約成約率に与える影響を実証実験、バスルーム画像などが高影響―エクスペディア, 2016. [3] W Di, et al., “Is a picture really worth a thousand words? - on the role of images in e-commerce,”. Proc. 7th ACM WSDM, pp. 633–642, 2014. 9
背景: 画像分類モデルの作成に伴う労力 ③画像からコンバージョン (CV)しやすさを予測 ①画像単体で 品質スコアを直接算出 ②画像の相対比較 画像 画像A 画像 & vs. & 品質スコア (0~1) 画像B CVフラグ (0 or 1) 学習データ収集の 労力 △ ✕ ◯ 作成したモデルの 汎用性や解釈性 ◯ ◯ △ Copyright© LIFULL All Rights Reserved. 10
関連研究: CLIP(Contrastive Language-Image Pre-Training) Copyright© LIFULL All Rights Reserved. https://github.com/OpenAI/CLIP 11
関連研究: CLIP IQA(Image Quality Assessment) J. Wang, et al., “Exploring CLIP for Assessing the Look and Feel of Images,” arXiv, 2022. Copyright© LIFULL All Rights Reserved. 12
課題設定 Copyright© LIFULL All Rights Reserved. 13
物件画像で試してみた例 観点A 観点B 観点C 観点F 観点E 観点D 観点A 観点B 観点C 観点F 観点E 観点D ※実在の物件ではなく生成 AIを用いて架空の物件を生成 Copyright© LIFULL All Rights Reserved. https://github.com/IceClear/CLIP-IQA を使用 14
課題設定 https://github.com/IceClear/CLIP-IQA/blob/v2-3.8/configs/clipiqa/clipiqa_attribute_test.py # classnames=[ # ['Aesthetic photo.', 'Not aesthetic photo.'], # ['Happy photo.', 'Sad photo.'], # ['Natural photo.', 'Synthetic photo.'], # ['New photo.', 'Old photo.'], # ['Scary photo.', 'Peaceful photo.'], # ['Complex photo.', 'Simple photo.'], # ]), 品質評価の観点毎に、テキストラベルのペアを与える必要がある →課題「どのようなラベルペアを与えれば適切に評価できるのか?」 Copyright© LIFULL All Rights Reserved. 15
ラベル決定の難しさ ~たとえば「新しさ」で評価した場合~ # 同じ単語を繰り返した場合 ['new', 'old'], ['new new', 'old old'], ['new new new', 'old old old'], 0.30 0.12 0.05 # 語順の入れ替えた場合 ['good new', 'bad old'], ['new good', 'old bad'], 0.61 0.84 どの要因が効くのか直感的にはわからない・・・ Copyright© LIFULL All Rights Reserved. 16
画像品質情報の生成 Copyright© LIFULL All Rights Reserved. 17
アプローチ「ラベルチューニング」 ②評価観点で主観評価 ③ラベルペアを生成 ⑤比較評価(② vs. ④) ④CLIP-IQAの評価値を算出 ①評価観点を定義 Copyright© LIFULL All Rights Reserved. 18
アプローチ「ラベルチューニング」 ②評価観点で主観評価 ③ラベルペアを生成 ⑤比較評価(② vs. ④) ④CLIP-IQAの評価値を算出 今回は6つの観点で評価 ①評価観点を定義 Copyright© LIFULL All Rights Reserved. 19
アプローチ「ラベルチューニング」 被験者が4点満点で評価 ②評価観点で主観評価 ③ラベルペアを生成 ⑤比較評価(② vs. ④) ④CLIP-IQAの評価値を算出 ①評価観点を定義 Copyright© LIFULL All Rights Reserved. 20
アプローチ「ラベルチューニング」 生成AIを用いて大量生成 ②評価観点で主観評価 ③ラベルペアを生成 ⑤比較評価(② vs. ④) ④CLIP-IQAの評価値を算出 ①評価観点を定義 Copyright© LIFULL All Rights Reserved. 21
アプローチ「ラベルチューニング」 ②評価観点で主観評価 ③ラベルペアを生成 ⑤比較評価(② vs. ④) ④CLIP-IQAの評価値を算出 ①評価観点を定義 ③のラベルで大規模処理 Copyright© LIFULL All Rights Reserved. 22
アプローチ「ラベルチューニング」 ②評価観点で主観評価 ③ラベルペアを生成 ⑤比較評価(② vs. ④) ④CLIP-IQAの評価値を算出 ①評価観点を定義 誤差を定義して適した ラベルを半自動で選定 Copyright© LIFULL All Rights Reserved. 23
アプローチ「ラベルチューニング」 被験者が4点満点で評価 生成AIで大量に生成 ②評価観点で主観評価 ③ラベルペアを生成 ⑤比較評価(② vs. ④) ④CLIP-IQAの評価値を算出 誤差を定義して適した ラベルを半自動で選定 ③のラベルで大規模処理 今回は6つの観点で評価 ①評価観点を定義 工程⑤で選定したラベルペアを推論で使用 Copyright© LIFULL All Rights Reserved. 24
大規模な推論処理 ※2024/4/24時点 仮に1物件に画像が10枚だとしても約150万枚の処理が必要 DWH(データウェアハウス)に格納 DWH 対象データの取得 Queue GPUインスタンス GPUインスタンス GPUインスタンス GPUインスタンス GPUインスタンス GPUインスタンス DWH https://www.lifull.blog/entry/2020/12/02/000000 弊社独自のアプリケーション実行基盤KEELを活用することで効率的に大規模な推論処理が可能 Copyright© LIFULL All Rights Reserved. 25
評価結果 Copyright© LIFULL All Rights Reserved. 26
画像品質評価情報の今後の活用 今回生成した画像品質評価に関する情報を用いて、 以下の活用を模索していきたい。 1. 推薦エンジンで特徴量としての活用 2. コンバージョンしやすい画像の特徴を分析 3. 画像品質評価情報を活用した画像の自動補正 など Copyright© LIFULL All Rights Reserved. 27
まとめ Copyright© LIFULL All Rights Reserved. 28
まとめ 1. 背景 a. 画像情報の重要性 2. 関連研究 a. CLIP IQA 3. 課題設定 a. どのようにCLIPのラベルを設定すると適切な評価ができるのか 4. アプローチ a. 生成AIと主観評価を活用したラベルペアの自動選定 5. 画像品質評価の今後の活用 a. 推薦エンジン、コンバージョン要因分析、自動補正、等 Copyright© LIFULL All Rights Reserved. 29