SAM 3 × アノテーション — ワンダリアアプリの画像認識AIを支える基盤作り

271 Views

June 02, 26

スライド概要

ワンダリアアプリの生き物をリアルタイムで認識するオンデバイスAIの開発において、独自のデータセット構築に必要な膨大なアノテーション作業が開発サイクルを遅らせる課題となっていました。本スライドでは、この課題を解決するために最新のビジョン基盤モデル「SAM 3」を活用し、アノテーション作業を劇的に効率化する内製基盤を構築した事例を紹介しています。

【主な見どころ】
- SAM 3の実用例: SAM 2からの進化点を含め、テキストや画像例で指示する「概念プロンプト」と、クリックや矩形で指定する「インスタンス指定プロンプト」を実務でどう活用しているかを解説しています。
- システムの工夫: OSSの「Label Studio」を拡張してSAM 3と統合し、人間がチェック・修正を行う「Human-in-the-Loop」を中心としたシステム設計について紹介しています。
- 運用と事業インパクト: プロンプトの特性に応じた開発者とアノテーターの使い分けや、作業時間を1400時間から75時間(95%削減)へと大幅に短縮した成果についてまとめられています。

【こんな方におすすめ】
- 画像認識AIの開発やアノテーション業務に携わっているエンジニア・プロジェクトマネージャー
- SAM 3などの最新ビジョンモデルの実務への組み込み事例に関心がある方
- AI開発サイクルの高速化や業務効率化の手法を探している方

profile-image

DeNA が社会の技術向上に貢献するため、業務で得た知見を積極的に外部に発信する、DeNA 公式のアカウントです。DeNA エンジニアの登壇資料をお届けします。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

SAM 3 × アノテーション — ワンダリア アプリの画像認識AIを支える基盤作り 孫 卓凡 AI・データ戦略統括部 AI技術開発部 ビジョン&スポーツG 株式会社ディー・エヌ・エー © DeNA Co., Ltd. 1

2.

自己紹介 孫 卓凡 IT本部AI・データ戦略統括部AI技術開発部 ビジョン・スポーツグループ 大学時代 東京大学 電子情報工学科 → 学際情報学府 ● 研究内容:Text-to-3D生成、360度映像 2025年4月 株式会社ディー・エヌ・エーに新卒入社 2025年8月~ ワンダリアアプリのAI開発 趣味:筋トレ、映画、猫 © DeNA Co., Ltd. 2

3.

目次 1 ワンダリアアプリのAI開発について 2 SAM3について 3 SAM3を活用したアノテーション 4 ワンダリアアプリAI開発における運用・事業インパクト 5 まとめ © DeNA Co., Ltd. 3

4.

01 ワンダリアアプリのAI開発につ いて © DeNA Co., Ltd. 4

5.

ワンダリアアプリのオンデバイスAI 施設内の映像にスマホを向け、映像中の生き物をリアルタイムで認識 → 生き物カード取得 © DeNA Co., Ltd. 5

6.

ワンダリアアプリのAI開発の背景 高速なAI開発サイクルが求められる AI開発が体験成立するための最終工程 映像制作 映像制作 開 業 AI開発 AI開発 映像磨き上げ AI開発 開 業 AI開発サイクルの高速化により、映像をさらに磨き上げる時間を創出 → お客様へ最大のDelight提供💡 © DeNA Co., Ltd. 6

7.

ワンダリアアプリのAI開発の課題 独自データセット構築におけるアノテーション作業 膨大なフレーム数・生き物数 → AI開発サイクルが遅くなる © DeNA Co., Ltd. 7

8.

ワンダリアアプリのアノテーション基盤の位置付け AI開発サイクルを早めるために 最新ビジョン基盤モデルSAM3による物体トラッキングを活用した 内製アノテーション基盤を開発・運用 劇的なアノテーション効率化 最も映像数が多いzoneにおいて アノテーション作業時間を 1400時間 → 75時間 に大幅短縮 © DeNA Co., Ltd. 8

9.

02 SAM3 について © DeNA Co., Ltd. 9

10.

Segment Anything [1] ● Segment Anything:画像用セグメンテーションモデル、物体をクリックや物体を囲む矩 形から物体のマスクを生成 出典: [2](一部トリミング) © DeNA Co., Ltd. [1] Kirillov et al., "Segment Anything." arXiv, 2023. [2] Carion et al., "SAM 3: Segment Anything with Concepts." arXiv, 2025. 10

11.

SAM2 [1] ● SAM2 : Segment Anythingを動画に拡張し、一部のフレームのクリックや矩形から動画全 体にわたる対象物体の追跡マスクを生成 → 物体トラッキングとして活用 SAM SAM2 出典: [2](一部トリミング) © DeNA Co., Ltd. [1] Ravi et al., "SAM 2: Segment Anything in Images and Videos." arXiv, 2024. [2] Carion et al., "SAM 3: Segment Anything with Concepts." arXiv, 2025. 11

12.

SAM3 [1] ● SAM3: SAM2のクリックや矩形による指示のトラッキング精度向上に加え、テキストや画 像例の提示によって対象物のトラッキングが可能 → 最も今回のトラッキングタスクに適しているビジョン基盤モデル SAM2 SAM3 出典: [1] © DeNA Co., Ltd. [1] Carion et al., "SAM 3: Segment Anything with Concepts." arXiv, 2025. 12

13.

03 SAM3を活用したアノテーション © DeNA Co., Ltd. 13

14.

SAM3を活用したアノテーションシステムの工夫点 アジャイル方式 「Human-in-the-Loop」中心の設計思想 ● アノテーション品質の担保 ○ ● © DeNA Co., Ltd. ● 自動追跡のズレや誤認識が発生する前提 1で、人間の介在でチェック、修正でき るシステム シーンに応じたトラッキング制御 ○ トラッキングする範囲を自由に設定 ○ シーンや対象物の特性に応じて、プロン プト方式を切り替え、アノテーション効 率を向上 短期間で初代バージョンを作り、アノテー ションに投入 ○ ● 初代バージョンはスクラッチから 実際の作業で生じる課題やフィードバック を吸収してバージョンアップ 14

15.

SAM3を活用したアノテーションツール概要 OSSのLabel Studio を機能拡張し、SAM3バックエンドと統合 拡張 Labelstudio UI SAM3バックエンド 追跡範囲指定 プロンプト追加 API 呼び出し プロンプト+追跡範囲 Labelstudio ML SDK仕様に準拠 したサーバーエンドポイント プロンプト種別に応じて、 指 定フレーム範囲に対し、 SAM3 による推論 (結果をLabelstudio形式に変換) UI上トラッキング結果表示 必要に応じて修正 © DeNA Co., Ltd. レスポンス トラッキング結果 (bbox) 15

16.

プロンプトの種類 以下のプロンプトをシーンとトラッキング対象に合わせて使い分け。 概念プロンプト 指示方法: インスタンス指定プロンプト 指示方法: ● テキストによる指示 ● クリックによる点指定 ● 代表的な画像例の提示 ● 矩形(Bounding Box)指定 提示された概念または例に該当するすべての物体をト ラッキングする場合に使用 © DeNA Co., Ltd. 特定の個体を明示的に指定し、精密なトラッキングを行 う場合に使用します。 16

17.

概念プロンプト トラッキング範囲指定 → テキストまたは個体例で指定 → 該当する全物体をトラッキング © DeNA Co., Ltd. 17

18.

概念プロンプトの強み・課題 ● ✅ 集団を一気にアノテーション可能 ● ❌ 体系的なベストプラクティスが存在せず、シーンごとのプロンプトの与え方の経験則 (試行錯誤)が必要 ● ❌ 特殊なドメインでは精度が低い場面が多い ● ❌ 推論失敗時における部分的なリカバリーが困難なケースが多く、作業の巻き戻りリス クを伴う ● ❌ インスタンス指定プロンプトと比較して推論実行に時間がかかる © DeNA Co., Ltd. 18

19.

インスタンス指定プロンプト トラッキング範囲指定 → 複数フレームにプロンプト追加(Box) → 対象物体をトラッキング © DeNA Co., Ltd. 19

20.

インスタンス指定プロンプト トラッキング範囲指定 → 複数フレームにプロンプト追加(Point) → 対象物体をトラッキング © DeNA Co., Ltd. 20

21.

インスタンス指定プロンプトの強み・課題 ● ✅ 幅広いドメインのシーンに対して高精度なトラッキング可能(手修正が少ない) ● ✅ アノテーション対象のコントロール性が高い ● ✅ 推論処理が高速 ● ✅ 作業が標準化しやすい ● ❌ 一体ずつプロンプトを与える必要がある © DeNA Co., Ltd. 21

22.

04 ワンダリアアプリAI開発における 運用・事業インパクト © DeNA Co., Ltd. 22

23.

プロンプトの特徴を踏まえた使用者ごとの運用 概念プロンプト 強み インスタンス指定プロンプト 集団の一括処理 幅広いドメインに対する 高精度トラッキング 作業アプローチ プロンプトの試行錯誤(職人技) 一体ずつプロンプトを与える(標準化) 推論スピード 遅 速 コントロール性 低 高 失敗時の対応 リカバリー困難 手修正で対応しやすい 主な使用者 開発者側(タスク依頼側) 概念プロンプトの活用による高密度 タスクの自動化・削減 アノテーター 確実性とタスク標準化を重視したイン スタンス指定プロンプト運用 © DeNA Co., Ltd. 23

24.

事業インパクト アノテーション作業時間を劇的に削減 お客様へのDelightを最大化 最も映像数が多いzoneにおいて、手作業で 1400時間必要なアノテーション作業を75時 間に短縮(95%削減) 高速かつ高品質なAI開発のサイクルを実現し、映 像体験を磨き上げる時間を創出 映像制作 AI開発 磨き上げ AI開発 開業 SAM3 + Labelstudio アノテーションツールを横展開し、社内他のプロジェクトでも活用 © DeNA Co., Ltd. 24

25.

05 まとめ © DeNA Co., Ltd. 25

26.

まとめ ● アノテーション基盤構築 ○ 「Human-in-the-Loop」中心設計 ■ ○ アジャイル的な開発 ■ ● Labelstudio と SAM3 の統合で実現 最新AI技術を最速で価値に 運用 ○ 開発者側(アノテーション依頼側):概念プロンプトの活用による高密度タスクの 自動化・削減 ○ ● © DeNA Co., Ltd. アノテーター:確実性と標準化を重視したインスタンス指定プロンプト運用 事業インパクト ○ 高速かつ高品質なAI開発のサイクルを実現し、お客様へのDelightを最大化 ○ 他のプロジェクトにも横展開 26

27.

Appendix. © DeNA Co., Ltd. 27

28.

インスタンス指定プロンプト: SAM3 vs SAM2 © DeNA Co., Ltd. 28

29.

インフラ構成 GCS bucket アノテーション対象動画 GCS bucket データバックアップ Cold startの場合 取得 Cold startの場合 バックアップ 着手動画名 (または修正対象ファイル) Cloud Run Main image(Labelstudio) + Sidecar(SAM3) © DeNA Co., Ltd. アノテーション作業 結果ファイル(json)を Google Driveにアップロード 29

30.

© DeNA Co., Ltd. 30