手と物体とのInteractionを検出するアプリケーションの開発

1.2K Views

January 11, 23

#Computer Vision #Natural Language Processing #Web Application #Hand Detection #Object Detection

スライド概要

https://techblog.morphoinc.com/entry/2023/01/11/100219

モルフォ

@Morpho

スライド一覧

モルフォは“画像処理×AI技術”の研究開発型企業として、ソフトウェア事業をグローバルに展開しています。テックブログにて画像処理・AIに関する情報をお届けしています。・コーポレートサイト：https://www.morphoinc.com/ ・テックブログ：https://techblog.morphoinc.com/

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

HiPPO/S4解説

モルフォ 52.4K

JDLA主催CVPR2024技術報告会ーコンピュータビジョン技術の最前線ー

cvpr ai deep learning gaussian splatting 基盤モデル学会報告

モルフォ 44.5K

A Brief Survey of Schrödinger Bridge (Part II)

モルフォ 16.7K

JDLA主催CVPR2025 技術報告会ーコンピュータビジョン技術の最前線ー

cvpr ai deep learning gaussian splatting 学会報告

モルフォ 15K

Deep Unrolling ~Learned ISTA (LISTA)~

モルフォ 11.6K

紹介論文_S. H. Chan, X. Wang, and O. A.Elgendy, ”Plug and Play ADMM for Image RestorationFixed Point Convergence and Applications”

画像復元

モルフォ 5.4K

各ページのテキスト

手と物体とのInteractionを検出するアプリケーションの開発インターンシップ最終報告会山本航輝 1

目次 1. 開発背景 2. Webアプリケーション概要 3. 手と物体の検出・分類 4. 文の出力 5. Webアプリケーションの実装 6. 改善点・課題 2

目次 1. 開発背景 2. Webアプリケーション概要 3. 手と物体の検出・分類 4. 文の出力 5. Webアプリケーションの実装 6. 改善点・課題 3

Vision-Languageデータセットの拡充大規模pre-trained + fine-tuning 4 imgae: https://ego4d-data.org/ 用のデータが必要データセットのアノテーションコスト問題 VLデータセットにおける情報の不足大規模なVLデータセットの多くは画像（動画）＋キャプション ex) Ego4D（7TBのデータセット https://ego4d-data.org/） domain-specificなタスク(料理動画からのレシピ生成等)には不十分手と物体の関係を自動で検出できればrichな情報を持つデータセットが作れる

https://ego4d-data.org/

目次 1. 開発背景 2. Webアプリケーション概要 3. 手と物体の検出・分類 4. 文の出力 5. Webアプリケーションの実装 6. 改善点・課題 5

アプリケーション概要手と物体のInteractionを文として出力入力：画像 or 動画出力：アノテーションされた画像手の状態を表すテンプレート文手と物体の検出：Hand Object Detector 物体の分類：EfficientNet 言語モデルによる文章生成までは至らなかった… 6

目次 1. 開発背景 2. Webアプリケーション概要 3. 手と物体の検出・分類 4. 文の出力 5. Webアプリケーションの実装 6. 改善点・課題 7

MediaPipeによる手の検出 8 最初の戦略手を検出するモデル＋物体を検出するモデル各モデルの出力を利用 MediaPipe Hand Tracking https://mediapipe.dev/ Googleが公開しているMLフレームワークの一種手の追跡・各pointの検出（三次元）バラバラのモデルでは厳しい各モデルの出力をどう利用するのか物体の三次元座標取得が難しい出典： https://google.github.io/mediapipe/ solutions/hands

Hand Object Detectorによる検出手の状態と物体を検出 Understanding Human Hands in Contact at Internet Scale Hand Side, Hand State, Bounding Boxを付与 N: 接触なし（No Contact） S: 自身に触れている（ex: 胸に手を当てる） O: 他人に触れている P: Portableな物体に触れている F: Portableでない物体に触れている (ex; テーブルなど) 画像：https://github.com/ddshan/hand_object_detector 9

10.

システム概要 10 Faster RCNN(FRCNN) + Lossの追加による学習 RCNN: Region based Convolutional Neural Networks 出典：https://github.com/ddshan/hand_object_detector

https://github.com/ddshan/hand_object_detector

11.

Loss追加による学習 Loss追加によって学習を回す FRCNNの出力に全結合層を２つ追加 𝒔 ∈ 𝑹𝟐 : 手の左右を表す２次元ベクトル 𝒄 ∈ 𝑹𝟓 : Contactの状態を表す5次元ベクトルそれぞれのクロスエントロピー誤差𝑳𝒔𝒊𝒅𝒆 , 𝑳𝒔𝒕𝒂𝒕𝒆 を最小化するよう学習 𝑳𝒔𝒊𝒅𝒆 𝒔′ , 𝒔 = − 𝒊 𝒔′ 𝒊 𝒍𝒐𝒈 𝒔 𝒊 , 𝒔’は教師ベクトル学習の詳細データセット: DOH100 Backbone: ResNet-101 Batch size: 1 Epoch: 8 11

12.

EfficientNetによる物体の分類 12 検出されたObject ⇒ 物体名軽量かつ高精度なEfficientNetを使用 MMClassification 様々な画像分類モデルが公開されている生成モデルやトラッキングも EfficientNet 画像：https://www.gettyimages.co.jp/editorial-images Class: BasketBall Score: 49.0%

13.

目次 1. 開発背景 2. Webアプリケーション概要 3. 手と物体の検出・分類 4. 文の出力 5. Webアプリケーションの実装 6. 改善点・課題 13

14.

手の状態を文として出力モデルの出力からテンプレート文を作成テンプレート： {Hand Side} Hand: {Hand Statusに応じた文} No Contact ⇒ No Contact Self Contact ⇒ Self Interaction Other person ⇒ Contacting with another person Portable Object ⇒ Contacting with {EfficientNetによる分類結果} Stationary Object ⇒ Contacting with stationary object Stationary Objectの分類はうまくいかない（ほとんどのStationary Objectは見切れている） 14

15.

目次 1. 開発背景 2. Webアプリケーション概要 3. 手と物体の検出・分類 4. 文の出力 5. Webアプリケーションの実装 6. 改善点・課題 15

16.

Web開発フレームワークの選定 Streamlit HTML, CSSの知識が必要ない機械学習を利用したWeb appに用いられることが多い Flask Streamlitよりも自由度が高い HTML, CSSの知識は必要 Django データベースや認証機能に強い学習コストは高め 16

17.

Streamlit 導入コストが低い https://streamlit.io/ pipによるインストールだけで使える（仮想環境は必須？？公式はpipenv推奨）学習コストが低い Webアプリに必要な機能が簡単に書ける HTML, CSSの知識を必要としない ⇒ 学習状況の把握やモデルのデモに最適 17

https://streamlit.io/

18.

ディレクトリ構成 18 Hand Object Detector用のフォルダ EfficientNet用のフォルダ Streamlitが呼び出すプログラム

19.

実際の画面 19 画像をアップロードアノテーションされた画像を表示手の状態を文章で出力

20.

Streamlitを触ってみてデモ用のUI開発が早いとりあえずデモを見せるのによさそう各機能の実装が簡単 Pythonだけで書ける（HTML, CSS不要）色々な機能があらかじめ容易されているデプロイも容易（らしい） https://streamlit.io/cloud Streamlit Cloudへの登録とGithubで出来る 20

https://streamlit.io/cloud

21.

目次 1. 開発背景 2. Webアプリケーション概要 3. 手と物体の検出・分類 4. 文の出力 5. Webアプリケーションの実装 6. 改善点・課題 21

22.

言語モデルによる文生成 Occlusion問題物体の全体を検出できない ⇒ 前フレームの情報を使う？テンプレート文 ⇒ 柔軟な文の生成テンプレート文では『手が何をしているか』はわからない Right Hand: Contacting with pen. ⇒ Right Hand: Writing paper. フレームレベルではなく動画レベルでの生成動作の情報が必要 CopyNetを活用？(https://arxiv.org/abs/1603.06393) Object + State + verb ⇒ Transformer + CopyNet 22

https://arxiv.org/abs/1603.06393

23.

インターンシップを通して「課題 ⇒ 手法の検討 ⇒ 実装 ⇒ 公開」の体験課題 ⇒ 手法の検討の部分が重要 Vision-Languageの知識不足単純なComputer Vision + 自然言語処理ではない Computer Vision, 自然言語処理に関する幅広い知識ももちろん欠かせない機械学習の知識だけではダメライブラリの依存関係やメモリ効率などコンピューターサイエンスの知識は重要コードは綺麗に書きましょう（自戒も込めて 23