Strands Agentsで作る自作スマートスピーカー

111 Views

December 12, 25

スライド概要

2025/12/12 【JAWS-UG神戸×IoT専門支部コラボ】IoTをこれからやる方も、もっとやっていきたい方も!
https://jawsug-kobe.connpass.com/event/375618/

profile-image

Engineer / AWS Community Builder / LINE API Expert / JAWS UG名古屋 運営 GIthub: http://github.com/Miura55 Blog: http://supernove.hatenadiary.jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

Strands Agentsで作る自作スマート スピーカー Koki Miura(@k_miura_io)

2.

自己紹介 • 三浦 耕生(こうき) • 名古屋在住 • バックエンドエンジニア • JAWS UG名古屋&神戸 運営 • 好きなAWSのサービス:Lambda、ECS、 IoT Core @k_miura_io koki.miura05

3.

re:Invent行った人?

5.

re:Inventで発表されたアップデート • Nova 2 シリーズがリリース • Bedrock Agent Coreが品質評価、エピソード記憶、双方向通信に対応 • Bedrock Knowledge Baseのマルチモーダル検索対応 • Strands AgentsのTypeScript版リリース • Amazon Connectの大量アップデート • S3 VectorsがGA • Lambda Durable Functions、Managed Instanceのリリース • EC2のM4 Macインスタンスがリリース • DatabaseのSaving Planを発表 など

6.

re:Inventで発表されたアップデート • Nova 2 シリーズがリリース • Bedrock Agent Coreが品質評価、エピソード記憶、双方向通信に対応 • Bedrock Knowledge Baseのマルチモーダル検索対応 • Strands AgentsのTypeScript版リリース • Amazon Connectの大量アップデート • S3 VectorsがGA • Lambda Durable Functions、Managed Instanceのリリース • EC2のM4 Macインスタンスがリリース • DatabaseのSaving Planを発表 など

7.

https://aws.amazon.com/jp/nova/models/?sc_channel=el

8.

https://aws.amazon.com/jp/nova/models/?sc_channel=el

9.

Nova 2 Sonic • AIでの自然でリアルタイムな会話を実現する 音声合成モデル • どれか一つの言語だけではなく、複数の言語 をネイティブに話せる • 前バージョンからポルトガル語とヒンディー語 に対応している o日本語は非対応

10.

何か遊べないか

11.

Strands Agentsで実装してみる • re:Inventのアップデートの一つにStrands Agentsの双方向ストリーミングが追加され た(Bidirectional streaming) • 試験的なリリースなので今後仕様変更す る可能性あり • リアルタイムな会話に対応しているモデル であればBedrock以外にも接続できる o Nova Sonic o Gemini Live API o Open AI Realtime API

12.

用意するもの • Raspberry Pi 5 • USBマイク • スピーカー

13.

DEMO

14.

いざというときのための動画 https://youtu.be/7fA4-sZpJLQ

15.

試してみて • Strands Agentsのセットアップ自体は複雑ではないけど、Bidirectの バックグラウンドで使われているPyAudioをセットアップするのがちょっ と手こずった • スピーカーやマイクのボリューム調整しないとループが発生する • 日本語は対応されてないけど、「日本語話して」的な声掛けするとカタ コトだけど日本語話した

16.

まとめ • Strands Agentsが双方向通信に対応したことでプログラムがテキストだけじゃない 音声のエージェントに対応されるようになった • ただ会話させるだけならシンプルだが、音量などの調整をしないと会話のループ が起きるので実運用するためには実装やパラメータを工夫する必要がありそう(仕 様変更される可能性があるのでそこまでやるかどうか悩ましいところ) • ChatGPTがリリースされてから5年でAIとマルチモーダルな会話ができる時代がす ぐそこまで来ている

17.

END