176 Views
May 09, 25
スライド概要
カメラで撮影した商品が店舗内のどこにあるかを示してくれる店舗内画像検索システムです。
第63回CV勉強会@関東で発表しました。
CLIP による店舗内商品検索 株式会社サイバーエージェント AI Lab 石田 岳志
こんなものを作りました パートナーであるサツドラホールディングス株式会社様の EZOHUB TOKYO で撮影しています https://youtu.be/DJr6GduJtSM
品出しとは 3
品出し 商品を倉庫から出して店頭に並べる作業
品出し スーパーやドラッグストアの品物は この作業によって並べられている ● 作業量が多い ● 深刻な人手不足 パートナーであるサツドラホールディングス株式会社様の EZOHUB TOKYO で撮影しています
品出しのポイント ● 商品の場所をよく覚えておく
実際の店舗 サツドラ北八条店 ※許可を得て画像を掲載しています
品出しのコツ 商品の場所をよく覚えておく ※許可を得て画像を掲載しています
品出しのコツ 商品の場所をよく覚えておく 無理 ※許可を得て画像を掲載しています
商品の場所を覚えるのは大変... ● コンピュータに任せられないか? ○ ○ ○ 物体認識 地図作成 情報検索 パートナーであるサツドラホールディングス株式会社様の EZOHUB TOKYO で撮影しています
一般物体認識 ● 全く役に立たない ● 個別商品は学習されていない パートナーであるサツドラホールディングス株式会社様の EZOHUB TOKYO で撮影しています
バーコードを読んで商品を当てるのはどうか カメラの解像度が足りない 棚に近づけば認識できるが、店舗全域をカバーするのが大変 パートナーであるサツドラホールディングス株式会社様の EZOHUB TOKYO で撮影しています
提案手法 店員さんは商品の現物を持っているはずなので、商品画像で店舗内を検索すればいい 入力画像 検出結果 検出領域 パートナーであるサツドラホールディングス株式会社様の EZOHUB TOKYO で撮影しています
利用したもの:CLIP テキストと画像を同じ潜在空間に埋め込める Webから収集した画像と説明文の対応を学習しているため、個別商品の細かい認識が可能なはず Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning. PMLR, 2021.
商品検索の仕組み 1. 検索対象画像から候補領域を抽出 2. 候補領域を CLIP でエンコーディング 3. 入力画像を CLIP でエンコーディング 4. 2 と 3 を比較し、最も近い対象領域を検出結果とする パートナーであるサツドラホールディングス株式会社様の EZOHUB TOKYO で撮影しています
工夫: EdgeBoxes による候補領域生成 ● ● 今回のタスクでは大事なのは ○ 雑でもいいから ○ GPU を使わずに ○ 大量の候補領域を生成すること 候補領域生成にOpenCV の EdgeBoxes を利用している ● Segment Anything Model や Region Proposal Network は GPU を必要とするうえ、 精度が高すぎて “行儀が良すぎる” パートナーであるサツドラホールディングス株式会社様の EZOHUB TOKYO で撮影しています
テキスト入力 17
テキストでも動く 検出結果 入力 ‘cocoa’ パートナーであるサツドラホールディングス株式会社様の EZOHUB TOKYO で撮影しています
英語は文字レベルで読めているらしい 入力 ‘water’ パートナーであるサツドラホールディングス株式会社様の EZOHUB TOKYO で撮影しています
英語は文字レベルで読めているらしい 入力 ‘band aid’ パートナーであるサツドラホールディングス株式会社様の EZOHUB TOKYO で撮影しています
ただし日本語は苦手のよう 検出結果 入力 ‘お茶’ パートナーであるサツドラホールディングス株式会社様の EZOHUB TOKYO で撮影しています
テキスト検索の動作 1. 検索対象画像から候補領域を抽出 2. 候補領域を CLIP でエンコーディング 3. 入力テキストを CLIP でエンコーディング 4. 2 と 3 を比較し、最も近い対象領域を検出結果とする ← これが日本語に対応できれば日本語検索も可能なはず パートナーであるサツドラホールディングス株式会社様の EZOHUB TOKYO で撮影しています
地図との対応付け 23
店舗地図との対応付け 地図復元 マッチング 3次元地図 商品位置提示 検索対象画像 検索結果画像 パートナーであるサツドラホールディングス株式会社様の EZOHUB TOKYO で撮影しています
店舗地図の作成 COLMAP で店舗画像から地図を作成 パートナーであるサツドラホールディングス株式会社様の EZOHUB TOKYO で撮影しています
店舗地図上で商品位置を示す 動画では点群地図と、商品を見つけることができる視点を表示している https://youtu.be/aMoku95fsxo パートナーであるサツドラホールディングス株式会社様の EZOHUB TOKYO で撮影しています
今後の展望 ● 多様な入力インターフェースに対応できると、お客さんにも使ってもらえる ○ ● 商品の固有名詞に対応したい ○ ● テキスト等でも検索できるようになると、お客さんが商品を探すときにも使える データの用意と学習が大変そう ... どうすれば... 商品位置をわかりやすく提示したい ○ 点群地図よりも、もっと読みやすいフォーマットで
サイバーエージェントで取り組む利点 ● 実社会に容易に展開できる ○ 社内に多様なサービス・展開先を持っているため、 実装したものを容易に現場に持っていける ○ ● データセットで完結するのではなく、実社会の問題を解ける 多くの協力体制 ○ サービスを実際に作っている人も、 言語処理やビジョンの研究をしている人もいる