543 Views
June 18, 25
スライド概要
XRミーティング登壇資料。
Azure AI FoundryはAIエージェントの開発、運用等に利用できるプラットフォームです。その中でプレビュー版として提供されているVoice Live APIがあります。Azure AI Foundry上のエージェントやモデルを音声会話で利用できるAPIで言語、アバター表示等も可能なサービスです。今回はAIエージェントやモデルを利用したXRコンテンツを作るためにUnityで音声会話する為の実装をした話を紹介しました。
実装の解説記事はこちら https://qiita.com/miyaura/items/ad30d4ba11aa6f0adb14
ICT業界でソフトウェアエンジニア/アプリケーションアーキテクトを担当。 社内ではXR関連技術に関する啓もう活動や技術支援に従事。 業務の傍ら、XR(特にMixed Reality領域)についての開発技術の調査、開発などを行っています。 また、「大阪駆動開発」コミュニティ所属しており、日々の調査で得た知見はコミュニティを通して情報発信を行っています。
Azure AI FoundryのVoiceLiveAPIを MiRZAで使ってみた話 2025/06 XRミーティング @takabrz1 Takahiro Miyaura
宮浦 恭弘 (Miyaura Takahiro) Microsoft MVP for Mixed Reality 2018-2025 XRは趣味です 大阪駆動開発(とHolomagicians)コミュニティに生息 HoloLens日本販売してからxR系技術に取組む 新しい技術や、MRに使えそうな技術を調べる 技術Tips : https://qiita.com/miyaura https://zenn.dev/miyaura 最近興味があって取り組んでいるもの ○ Microsoft Mesh ○ Snapdragon Spaces ○ Mixed Reality Toolkit v3.0.0 ○ Vision Proもそろそろ・・・ @takabrz1 ※よかったらこれを機にお知り合いになってください
ふとやりたくなったので調査をしました。 2025/06/18 © 2025 Takahiro Miyaura 3
音声でAIエージェントと お話しするアプリを作ってみたくて… 2025/06/18 © 2025 Takahiro Miyaura 4
1 目次 簡単にAzure AI Foundryについて 2 Voice Live API ってなに? 3 Unityで実装する 4 MiRZAで動かしてみる 5 まとめ
1 目次 簡単にAzure AI Foundryについて 2 Voice Live API ってなに? 3 Unityで実装する 4 MiRZAで動かしてみる 5 まとめ
Azure AI Foundry Model Catalog Copilot Studio Visual Studio Foundational models Open-source models Azure AI Foundry portal Task models Industry models Evaluations GitHub + Azure AI Foundry SDK Customization Azure OpenAI Service Azure AI Search Azure AI Agent Service Microsoft Azure Azure AI Content Safety Governance
Azure AI Foundry 2025年5月 GA されました! Azure AI Foundry Agent Service Securely build, deploy, and scale AI agents with ease 開発、デプロイ、本番にわたってエージェントの運用を可能にし、 モデル、ツール、フレームワーク、ガバナンスをインテリジェント・エージェントを構築するためのプラットフォーム 「Azure AI Foundry」の中心となる機能 柔軟なモデル選択 Flexible model selection データとアクションの活用 Knowledge and tools マルチエージェント接続 ai.azure.com Orchestration エンタープライズグレード セキュリティ Enterprise-grade security
1 目次 簡単にAzure AI Foundryについて 2 Voice Live API ってなに? 3 Unityで実装する 4 MiRZAで動かしてみる 5 まとめ
Azure AI Foundry Voice Live API 概要 リアルタイム音声対話エージェント向けAPI(プレビュー) かんたんにリアルタイム音声対話エージェントを利用できる ○音声認識・生成AI・音声合成を統合したエンドツーエンドAPI ○WebSocketベースでサーバー間連携が容易 主な特徴 ○Azure OpenAI Realtime APIとの高い互換性(ほぼ一緒) ○15以上の言語ロケール対応、140以上のロケールで600超の音声合成ボイス ○アバター連携(音声と同期したビジュアル出力も可能) ○複数の生成AIモデル(GPT-4o, GPT-4o-mini, Phiなど)から選択可能 ○おそらくAzure AI Foundry上で作った自分のAIエージェントも使用できる(ようになるはず) ○関数呼び出し(Function Calling)やVoiceRAGパターン対応 公式のサイト情報 https://learn.microsoft.com/en-us/azure/ai-services/speech-service/voice-live?wt.mc_id=WDIT-MVP-5003104 2025/06/18 © 2025 Takahiro Miyaura 10
Azure AI Foundry Voice Live API 概要 Azure AI Foundryポータル上でも試すことはできる 2025/06/18 © 2025 Takahiro Miyaura 11
AIエージェントをXR系で使う時は 文字よりも音声入力の方が使いやすい 音声入力機能を拡張できるこの仕組みはよさそう 2025/06/18 © 2025 Takahiro Miyaura 12
1 目次 簡単にAzure AI Foundryについて 2 Voice Live API ってなに? 3 Unityで実装する 4 MiRZAで動かしてみる 5 まとめ
注意事項 Voice Live APIはプレビュー版 • 全機能実装されていない 2025/06/18 © 2025 Takahiro Miyaura 14
Unityで実装する 基本はAzure OpenAI ServiceのRealtime APIをほぼ同じ Webscoketでつなぐだけ ○ エンドポイント wss://<your-ai-foundry-resource-name>.cognitiveservices.azure.com /voice-live/realtime ?api-version=2025-05-01-preview&model=<model-name> ○ 音声の仕様(デフォルト) ○ 送信音声:PCM16,24KHz ○ 応答音声:PCM16,24KHz ○ データはJson形式、音声情報はバイトコードをBase64でエンコード・デコード 2025/06/18 © 2025 Takahiro Miyaura 15
Websocketのライブラリって何がいいんですかね。 Websocket-csharpはよく出てくるんですが。。。 ○ DLL作るのにVisual Studioでしようとしたけどバージョンが古い ○ Nuget上でもそろそろ10年更新ない。 今回は Netly というライブラリを利用 Unity Asset StoreでFreeのもの ○ https://assetstore.unity.com/packages/tools/network/netly-tcp-udprudp-http-websocket-225473 2025/06/18 © 2025 Takahiro Miyaura 16
1 目次 簡単にAzure AI Foundryについて 2 Voice Live API ってなに? 3 Unityで実装する 4 MiRZAで動かしてみる 5 まとめ
MiRZAはちょっと大変だった。 • Javaライブラリの開発がいる ※なくてもイケそうだけど実装が煩雑になる。 2025/06/18 © 2025 Takahiro Miyaura 18
MiRZA のマイクを使う サンプリン周波数の仕様の上限等が実はちょっとわからない。。。 Javaのライブラリ作るところからスタート MiRZAのマイク仕様(公式のサンプルからは。。。) ○ 44.1Khz, 16bit, モノラル? MiRZA Libraryを使って、録音する部品をJavaでつくって。。。 作ったJavaをUnityでC#から呼び出して使う。 自分で作ったコードはこちら https://github.com/TakahiroMiyaura/MiRZANativeLibrary 2025/06/18 © 2025 Takahiro Miyaura 19
1 目次 簡単にAzure AI Foundryについて 2 Voice Live API ってなに? 3 Unityで実装する 4 MiRZAで動かしてみる 5 まとめ
まとめ AIエージェントを音声使って会話してみるとどうなるかためしてみた ○Azure AI FoundryのVoice Live API ○AIエージェントやモデルを簡単に音声会話で利用できる ○今はまだ、プレビュー版 ○Unityでも問題なく動作させられた ○発話をデータ変換して送ればXR系のデバイスなら活用できそう ○MiRZAでも動かせる(準備がちょっと大変) XR系と組合せるなら音声やジェスチャーでAIエージェントと 疎通できる方が使いやすいし、色々なアイデアが出てきそう。 2025/06/18 © 2025 Takahiro Miyaura 21
Qiita記事にしました。 Azure AI Foundry Voice Live APIをUnityで使う実装解説 ○ ○ ○ ○ Voice Live APIについての解説 Unityでの実装方法 Play Modeで動作確認 MiRZAで動かす件は別途記事にします。 https://qiita.com/miyaura/items/ad30d4ba11aa6f0adb14 2025/06/18 © 2025 Takahiro Miyaura 22
大阪駆動開発 関西を中心に、IT系のおもしろそうなことを 楽しんでやるコミュニティ