1.5K Views
February 05, 25
スライド概要
Module LLMによる AIスタックチャンの実装 M5Stack LLM 座談会 #02 2025.2.6 motoh
Contents 自己紹介 ● スタックチャンとは ● AIスタックチャンとは ● AIスタックチャンExの概要 ● AIスタックチャンEx 使用例 ● システムの概要、苦労した点など ● 今後の展望 ●
自己紹介 motoh ● 大学ではサークル、研究室で二足歩行 ロボットや自律移動ロボットの製作に励む ● 10年ほど組み込みソフトの請負開発 ● 現在は産業機器メーカーの研究開発 /趣味でスタックチャン開発/1児(6歳)の父 ● Twitter: https://x.com/motoh_tw ● Github: https://github.com/ronron-gh ● Hatena blog: https://mzmlab.hatenablog.com/
スタックチャンとは スタックチャンはししかわさんが開発、公開している、 手乗りサイズのスーパーカワイイコミュニケーション ロボットです。 ● Github: https://github.com/stack-chan ● Discord: https://discord.com/invite/eGhd9adnBm 出典:https://github.com/stack-chan 💐 2024年7月2日に3歳の誕生日を迎えました 累計1000体を突破しました 🎂
AIスタックチャンとは robo8080さんが開発した、AIによる会話が可能なスタックチャン ・ 各種AIサービスのWeb APIによる会話 LLM: ChatGPT STT: Google Cloud STT / Whisper TTS: VOICEVOX Wake Word: SimpleVox (by MechaUmaさん) Web APIのため 応答時間が課題。 ローカルLLMなら... ・ Arduino (Platformio)で開発 ・ 作り方動画、トラブルシュート等が豊富 Cosense: https://scrapbox.io/stack-chan/ AIスタックチャンをベースに、Module LLMにも対応した 『AIスタックチャンEx』を開発、公開しました https://github.com/ronron-gh/AI_StackChan_Ex https://protopedia.net/prototype/4052
AIスタックチャンExの概要 ● ● 利用可能なAIサービス (太字がExで追加) – LLM: ChatGPT / ModuleLLM – STT: OpenAI Whisper / Google Cloud STT / ModuleLLM ASR – TTS: OpenAI TTS / VOICEVOX / ElevenLabs / AquesTalk / ModuleLLM TTS – Wake Word: SimpleVox / ModuleLLM KWS YAMLで上記AIサービスの選択やAPIキー等の設定が可能 ※stackchan-arduinoライブラリ(https://github.com/stack-chan/stackchan-arduino by タカオさん)による ● その他 – ChatGPTのFunction Callingが利用可能 – ChatGPTのgpt-4oへのカメラ画像入力が可能(CoreS3) – SD Updaterに対応 (https://github.com/NoRi-230401/BinsPack-for-StackChan-Core2 by NoRiさん)
AIスタックチャンEx 使用例① Wake Word ModuleLLM KWS STT (音声→テキスト) ModuleLLM ASR (現在は英語、中国語のみ) LLM ModuleLLM (日本語可) TTS (テキスト→音声) ModuleLLM TTS (現在は英語、中国語のみ) https://x.com/i/status/1870656302667665684
AIスタックチャンEx 使用例② Wake Word ModuleLLM KWS STT (音声→テキスト) Google STT (日本語可) ※要インターネット LLM ModuleLLM (日本語可) TTS (テキスト→音声) AquesTalk (日本語可) STTに Whisperを 利用できれ ば... https://x.com/i/status/1865581975962317213
システムの概要、苦労した点など
システムブロック図 M5Stack Core Module LLM Ubuntu StackFlow ユーザ アプリ M5Module -LLM ライブラリ KWS Uart SYS ASR LLM TTS
M5Module-LLMライブラリ を使う際の細かなポイント ● ASR – ● 変換途中の不完全なテキストが帰ってくるので、 完成したテキストが帰ってくるまで繰り返し取得する必要がある。 KWS→ASR – 内部的にはKWSで起動→ASRで音声認識という流れのようなので、 いきなりASRさせようとしてもうまくいかない。
M5Module-LLMライブラリ を使う際の細かなポイント ● LLM – ● 応答のテキストが細切れで帰ってくるので、繰り返し取得して結合する必要がある。 TTS – 渡したテキストのピリオド、カンマまでしか読まれないので、ピリオド、カンマで区切って 分ける必要がある。
今後の展望 ● 日本語に対応したい! – ● 公式リポジトリのdevブランチは既にWhisper対応している模様 引き続き情報収集していきます Function Callingに対応したい! 😊 – huggingfaceでFunction Callingに対応したQwen2-0.5Bベースの モデルを見つけ、つい昨日ModuleLLM上での実行に成功 – これから、StackFlowへの対応方法を調べていきます
スタックチャンはオープンソースのスーパーカワイイ コミュニケーションロボットです 一緒にスタックチャン×ModuleLLMの 可能性を探りましょう!