LiveKit Agents で作るサーバサイド WebRTC AI エージェント

5.8K Views

October 22, 24

#WebRTC #AI #LiveKit #サーバサイド #エージェント

スライド概要

WebRTC Meetup Tokyo #28 LT

こーのいけ

@kounoike

スライド一覧

色々変なことをやってる人

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ts-live紹介

新宿御苑.wasm

こーのいけ 5.9K

有名Webサイトで使っているWasmを読んでみる話

こーのいけ 1.8K

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.7M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.4M

UE5レンダリングフロー総おさらい(2024) 基礎編！[CEDEC+KYUSHU 2024]

ue5 unreal engine ue-rendering

エピックゲームズジャパン 1.2M

Meta XR SDK(V66-74)でQuestアプリを開発

spatial anchor unity quest pro shaperecognizeractivatestate oculus integration transformfeaturestateprovider building blocks transformrecognizeractivestate ovrsemanticclassification jointdeltaprovider ovrscenemanager jointvelocityactivestate オクルージョン sequenceactivestate scene manager ambisonic depth api metaxraudiosource playerlocomotor meta xr sdk quest3 ovrplayercontroller マルチモーダル meta haptics studio direct touch ui meta xr haptics sdk ovrspatialanchor ovrtrackedkeyboard hapticclipplayer fingerfeaturestateprovider hapticclip ワイドモーションモード wmm mruk mr utility kit voice sdk jointrotationactivestate meta horizon os ui set asw application spacewarp ovr metrics tool unityscene manager colocation discovery コロケーション mx ink passthrough camera api hand tracking microgestures webcamtexturemanager passthroughcamerautils cameraviewermanager hand pose selector recorder

あうぜん 1.2M

各ページのテキスト

LiveKit Agents で作るサーバサイド WebRTC AI エージェント 2024/10/22 WebRTC Meetup Tokyo 28 こーのいけ 1

Whoami こーのいけ X: ko_noike GitHub他: kounoike 色々やってるフリーランスエンジニア IoT/画像処理/音声処理/映像処理/リアルタイムコミュニケーション最近やったこと国内のPerlコードゴルフコンペに参加。半日強でトップをかっさらう → https://zenn.dev/kounoike/articles/20241007-yapcjapan2024-perlbatross 2

https://zenn.dev/kounoike/articles/20241007-yapcjapan2024-perlbatross

サーバサイド AI エージェント Wasm/WebGPUなどでクライアントサイド（ブラウザ）でのAI活用が盛ん →クライアントサイドでの処理が向かないユースケース ➢クライアントの処理能力が貧弱 ➢推論モデルをクライアントに配布したくない ➢偽装クライアントで処理を誤魔化されると困る（監視など） →サーバサイドでの推論処理が向いている（「サーバ」と言っているが、WebRTC SFUから見ればクライアント） 3

サーバサイドAIエージェントの実装 ➢ネイティブのWebRTCクライアントライブラリ ➢受信ストリームの映像からフレーム、音声からサンプルの取得 ➢推論結果に基づいた変換後のストリームの送信 ➢DataChannelによるデータ送信 ➢ルーム作成・ユーザの接続・切断などをトリガーにしたWebhook等 ➢ジョブの起動管理 ➢水平スケーリング 4

LiveKit Agents ➢LiveKit （SFU/クラウドSFUサービス）が提供しているAIエージェント作成用ライブラリ ➢今のところ Python, JavaScript ➢SFUサーバ側にエージェント管理の機能、それに対するクライアント実装 →Webhookなどが不要。エージェント側でグローバルにポート開ける必要なし ➢ルームの作成 or ユーザの参加をトリガーに対応するジョブを起動 ➢エージェントのスケーリングに対応 ➢ワーカーを複数起動すればサーバ側が自動的にジョブを割り振ってくれる ➢AIエージェントで良く使う機能を「プラグイン」として提供 ➢流行りのOpenAI Realtime APIへの接続例もあり 5

LiveKit 情報アップデート 2024/08 料金プランの変更 ➢有料プランに月額最低価格が追加 ➢$50/mo, $500/mo ➢基本的に転送量のみの従量課金→転送量＆接続時間 ➢転送量単価は値下げ ➢同時接続数制限 ➢$50/moプラン: 1000、$500/moプラン: 無制限 6

エージェントの構成 1. エージェントの起動 2. ユーザの参加 3. ジョブの送信 4. エージェントの参加公式ドキュメントより 7

コード例: 顔検出 ➢映像から顔検出して四角を描画して送り返す ➢音声は処理しない ➢1ルーム1ユーザが前提 ➢OpenCVの顔検出（FacerDetectorYN: CPU推論） ➢全フレーム処理する性能が出ないので、間に合わないフレームは無視 Agent LiveKit クラウド受信タスク最新フレーム処理タスク映像ストリーム 8

コード例 9

10.

受信タスク 10

11.

12.

コード例: 音声エージェント ➢LiveKitのexamples ➢音声パイプラインエージェント VAD(Voice Activity Detection) →STT(Speech-To-Text) →LLM(Large Language Model) →TTS(Text-To-Speech) 12

13.

初期化接続して参加者待ちパイプライン作成起動して最初の一言 13

14.

気になるところ ➢スケーリングさせたときのVM増加等のトリガ ➢インフラ側との関係が強いので、そっち側で何とかする？ ➢VMを減らすとき/デプロイ時の断絶 ➢「接続済みは処理を続けるが、新規接続を受け付けない」みたいなモードあるか？ ➢接続済みの処理が全部終わったら終了、みたいなことが出来るか？ ➢推論リソース（GPU）の効率的活用 ➢推論部分を別サーバにした方がいいかも ➢エンコード・デコードのHWA ➢LiveKitのクライアントライブラリ自体にHWA対応が入ってないような…？ 14