gpt-realtime-1.5 モデルでｽﾀｯｸﾁｬﾝ

1.4K Views

March 15, 26

#azure #ai #スタックちゃん #gpt-realtime-1.5 #M5Stack CoreS3 #組み込み開発 #AI対話

スライド概要

なごあずのイベントで登壇した資料です。2026/03/14(土)15:30 〜 17:30
https://75az.connpass.com/event/383389/

Hiroki Nomura

@shirokuma

スライド一覧

愛知 / SE / Azure / AzPoC部

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

チャットアプリ失敗談！製造業業務への生成AI導入

Hiroki Nomura 3.9K

GitHub Copilot CLI × M365 Work IQ 活用ネタ

ai githubcopilot

Hiroki Nomura 3.6K

AzureでMCPサーバ！！どう活用する？

azure ai

Hiroki Nomura 3.3K

AzureでのAIエージェントはここから！　Azure Functions × AI

ai azure

Hiroki Nomura 3.2K

WorkIQ × GitHub Copilot ～エンジニアが使うならこれだ！～

Hiroki Nomura 1.7K

20250816_Azure AI Foundry Portal デモ

azure ai

Hiroki Nomura 1.3K

各ページのテキスト

gpt-realtime-1.5 モデルでｽﾀｯｸﾁｬﾝ 2026/03/14 なごあず #75 しろくま Hiroki, Nomura

プロフィールしろくま愛知県在住のエンジニアです。技術関係のブログを書いたり、登壇したりしています。所属 AzPoC部 #AzPoC なごあず #75azu Solution Architect AI Engineer Developer Administrator Network Engineer

今日話すこと組み込み開発初心者ですが、gpt-realtime-1.5 を使って M5Stack CoreS3 をｽﾀｯｸﾁｬﾝにしておしゃべりできるようにしました！！組み込みやIoTをやったことがない、ど初心者です。お手柔らかに優しいお気持ちでお聞きください… 1. ｽﾀｯｸﾁｬﾝって何？ & 使った技術 2. システム全体のアーキテクチャ 3. ハマったポイントと解決策 4. 中継サーバ & ツール呼び出し

ｽﾀｯｸﾁｬﾝってﾅﾆ？

https://protopedia.net/prototype/2345 https://protopedia.net/prototype/4052

https://protopedia.net/prototype/5496

https://protopedia.net/prototype/5496

あたしの子は、アタマダケ

きっかけは。。。 Maki-san https://x.com/yuma_prog

https://x.com/yuma_prog

ｽﾀｯｸﾁｬﾝとは？「コミュニケーションロボットを、あなたの手に」 M5Stackベースの手乗りサイズロボット作者: Shinya Ishikawa さんかわいい顔の表示と表情変化視線制御・音声出力・サーボ制御カスタムアプリ開発が可能 Apache 2.0 の完全オープンソース！！ハード設計・3Dデータ・ファームウェア全公開コミュニティ GitHub 1,300+ Stars / 148 Forks Discordコミュニティあり Xのｽﾀｯｸﾁｬﾝアカウントは、ｽﾀｯｸﾁｬﾝに関して投稿すると捕捉していいねくれます

10.

今回の実装で何ができるようになった？ｽﾀｯｸﾁｬﾝ + gpt-realtime-1.5 で実現したこと今回の実装で実現したこと: 話しかけるだけでリアルタイム応答 AIが感情判断して表情が自動変化ボタン操作不要！自然な対話リップシンクで口の動きも同期

11.

アーキテクチャ

12.

システムアーキテクチャ CoreS3 Node.js Azure OpenAI (ファームウェア) (中継サーバ) (Realtime API) ●マイク入力 ●PCM16→base64 ●音声認識 (STT) ●スピーカー出力 ●バックプレッシャー ●応答生成 (LLM) ●アバター表示 ●リップシンク WebSocket (LAN内) ●ツール呼び出し Azureだったら、 AppServiceとか ContainerAppsとかへ WebSocket (wss://Azure) ●音声合成 (TTS) ●VAD

13.

なぜ中継サーバを介すのか？ CoreS3から直接Azure OpenAIに接続しない5つの理由 1 2 3 4 5 TLS接続の計算負荷 TLSハンドシェイクはESP32系には重く不安定。Node.jsで安定した暗号化接続を確保音声エンコード変換 PCM16→base64変換を中継サーバが担当。CoreS3はraw PCMの送受信に集中できるバックプレッシャー制御 Azureの応答速度とCoreS3の処理速度のギャップをバッファリングで吸収ツール呼び出し処理 Function CallingのJSON解析・外部API連携をNode.jsで処理し結果だけ返す APIキーの安全管理ファームウェアへのキー埋め込みは漏洩リスク。サーバ側で秘匿管理

14.

M5Stack CoreS3を使いました。

15.

M5Stack CoreS3 ってどんなデバイス？主要スペック ●プロセッサ：ESP32-S3 デュアルコア（ 240MHz）この小さなデバイスに ●マイク：ES7210 デュアルマイクマイク・スピーカー・ディスプレイ・Wi-Fi が ●スピーカー：AW88298（1W）全部入ってる ●メモリ：Flash 16MB / PSRAM 8MB ●ディスプレイ：2.0" IPS（320×240）タッチ ●通信：Wi-Fi 2.4GHz / USB-C → 顔つきで対話させるのによさげ

16.

CoreS3 の中身をもう少し詳しく音声対話で重要なオーディオ周りの構成オーディオ構成その他のモジュールマイク（ES7210）ディスプレイデュアルマイク → ノイズに強い 2.0" IPS (320×240) サンプルレート: 16kHz / 16bit → アバター表情の表示に使用スピーカー（AW88298） Wi-Fi（ESP32-S3） 1W出力のクラスDアンプ内蔵 2.4GHz 802.11 b/g/n サンプルレート: 48kHz / 16bit → WebSocketで中継サーバに接続 ※ 同じI2Sバスを共有（後述） PSRAM 8MB → リングバッファの確保に活用

17.

開発環境セットアップ組み込み初心者でもこれだけ揃えればOK！必要なツール ●VSCode + PlatformIO拡張 ●C++ 拡張機能 ●Node.js 18+ ●Azureサブスクリプションセットアップ手順 ① Azure PortalでOpenAIリソース作成 East US 2 or Sweden Central ② Azure AI Foundryでモデルデプロイ gpt-realtime-1.5 を選択 ③ ファームウェア書き込み config.h → Build → Upload ④ 中継サーバ起動 npm install → .env設定 → npm run dev

18.

gpt-realtime-1.5って？

19.

従来モデルとRealtimeモデルの違い従来は3ステップ必要だった処理が、Realtimeモデルでは1ステップに！！従来方式（STT → LLM → TTS）音声入力 STT 音声認識テキスト LLM 推論 → 変換のたびにレイテンシが発生。感情・抑揚が失われるテキスト TTS 音声合成音声出力 → 低レイテンシ。抑揚・感情もそのまま伝わる Realtimeモデル（Speech-to-Speech）音声入力 gpt-realtime-1.5 音声 → 音声を直接処理！音声出力

20.

gpt-realtime-1.5 って何がすごいの？ Azure OpenAI の最新リアルタイム音声対話モデルテキストではなく「音声で直接」やりとりできる！！音声推論文字起こし精度指示追従 +5% +10% +7% 前世代比で改善前世代比で改善前世代比で改善

21.

中継サーバ & ツール呼び出し

22.

中継サーバの構成（TypeScript / Node.js） CoreS3とAzureのプロトコル差を吸収する中継役 DeviceServer（ポート8080） AzureRealtimeClient ●CoreS3からのWebSocket接続管理 ●Azure APIへの常時接続管理 ●PCM16バイナリ → base64 変換 ●session.updated の待機 ●JSONコマンド転送（表情・口パク） ●自動再接続（5秒間隔）

23.

ツール呼び出しで表情を自動制御！！ AIが会話の文脈から感情を判断して、自律的にアバターの表情を変える 1 2 3 4 5 ユーザーと会話 AIが感情判断 set_expression ツール呼出中継サーバが実行 CoreS3の表情変更！表情パターン: happy / sad / angry / sleepy / neutral ※プロンプトで感情判断ルールを指定

24.

VAD（Voice Activity Detection）サーバサイドVADで「ボタン操作なし」の自然な対話を実現！！ session.update の turn_detection で設定 500ms無音 → サーバが発話終了と判定 → 応答生成開始従来の音声対話 ① ボタンを押して話す ② ボタンを離す ③ 応答を待つ今回（VAD） ① ただ話しかけるだけ！ ② AIが自動で聞き取り ③ すぐ応答が返ってくる

25.

学んだこと・まとめ WebSocketリアルタイムストリーミング双方向常時接続でのデータフロー管理を学んだ ESP32のオーディオ制約 I2Sバス排他制御とメモリ管理の大切さプロデューサー / コンシューマーパターンリングバッファとバックプレッシャーの実装 AIツール呼び出し AIが自律的にハードウェアを制御する仕組みリアルタイムペース調整速度の不整合が起こる問題と解決方法組み込み初心者でも最新AIモデルと組み合わせれば面白いものが作れる！！

26.

ハマったポイントと解決策

27.

ハマり① I2Sバス排他制御問題解決策マイクとスピーカーが同じI2Sバスを共有 → 同時に使えない！切替ミスで音が壊れる状態マシンで排他制御を実装「停止 → 開始」の順序を厳密に管理状態遷移フロー IDLE MIC ACTIVE MIC STOP SPK START SPK ACTIVE IDLE

28.

ハマり② 音声データが速すぎる！！ AIは再生速度より速く音声を生成する（1秒分が0.3秒で到着） → バッファオーバーフロー & WebSocketバッファも溢れる解決① 1.5MBリングバッファ解決② バックプレッシャー制御 PSRAMに約32秒分を確保書込位置と読出位置を独立管理 → 速度不整合を吸収！ 1024バイトずつ分割してキュー管理前チャンク送信完了後に次を送信 → setImmediate() で実装

29.

製造業でも生成AI活用したい！名古屋LLM MeetUp#11 3/19(木) @なごのキャンパス

30.

Thank you !