イラストで学ぶ音声認識改訂第2版 12. 音声対話システム

157 Views

June 05, 25

#音声認識 #音声対話システム #大規模言語モデル #LLM #音声合成

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 4.5K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4.1K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 3.6K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3.3K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.4K

プログラミング〈新〉作法 3. プログラムが動く仕組み

プログラミング

荒木雅弘 2.4K

各ページのテキスト

イラストで学ぶ音声認識改訂第2版 12. 音声対話システム 12.1 モジュール型音声対話システム 12.2 リアルタイム型音声対話システム 12.3 双方向型音声対話システム音声認識 VAD 明日の京都の天気ユーザ一日中晴れてよい天気でしょう音声合成 function calling / MCP LLM 画面表示 1

[beta]

12.1 モジュール型音声対話システム

従来の音声対話システム
音声入出力に対して発話理解・対話管理・応答生成モジュールを直列に結合
それぞれが独立に，小規模なデータで学習していたので性能が低かった
明日の京都の天気

音声認識

{
"task": "weather",
"date" : "2025-2-1",
"location" : "京都"

発話理解
}

対話管理
ユーザ

アプリ
ケーション

{
"weather": "晴れ"

音声合成

応答生成
晴です

}

2

12.1 モジュール型音声対話システム大規模言語モデルを用いた音声対話システム言語を処理する部分をまとめて大規模言語モデル（LLM）で実現 VAD（音声区間検出）の高度化やLLMとバックエンドの連携が容易になったことで，より自然で柔軟な対話が可能になった音声認識 VAD 明日の京都の天気ユーザ一日中晴れてよい天気でしょう音声合成 function calling / MCP LLM 画面表示 3

12.1 モジュール型音声対話システム音声対話システムの分類タスク指向対話システムレストラン予約や交通案内など，特定のタスクを遂行することを目的とした対話システムロールプレイング対話システム特定の役割を持つキャラクターと対話するシステム雑談対話システム特定の目的を持たず，日常的な会話を行うシステムいずれのタイプのシステムも，LLM のプロンプトや外部リソースとの接続方法を工夫することで実現可能 4

12.1 モジュール型音声対話システムタスク指向対話システム対話フローを定義し，LLMに指示することで安定したタスク進行が可能例：レストラン予約システムの対話フロー flowchart TD start([start]) --> ask_date ask_date --> ask_number_of_person ask_number_of_person --> ask_cuisine[和食,洋食] ask_cuisine --> confirmation{confirm} confirmation --> |yes| thank([thank]) confirmation --> |no| modify modify --> confirmation 5

12.1 モジュール型音声対話システムタスク指向対話システムのためのプロンプトの例以下の指示に従い，対話フローに応じて [タスクの特定] の対話システムを演じてください． ## 指示 * ひとつのシステムからの質問の後，ユーザの入力を待って，次の質問に移ってください * 確認が終了したら，[想定する出力] を JSON で出力してください * [例外事項への対処法の指示] ## 対話フロー [mermaidで記述] 6

12.1 モジュール型音声対話システムロールプレイング対話システムユーザとシステムが特定の役割を演じて対話を行うシステム主として対話による問題解決を行うための練習として，コールセンターのオペレータの訓練や一般の教育目的で用いられる 7

12.1 モジュール型音声対話システムロールプレイング対話システムのプロンプトの構造ロールプレイの指示キャラクタの設定対話場面の設定・ロールプレイ対話であることを明確に・システムの役割・ユーザの役割・タスクシステムが演じるキャラクタ・年齢、性別、性格など・発話の口調や長さなど・（必要に応じて）過去の経験・対話の場所、時刻など・背景情報 USER : ユーザの開始発話 ASSISTANT : 8

12.1 モジュール型音声対話システム雑談対話システム特定の目的を持たず，日常的な会話を行うシステム LLM を用いることによって，システムはかなり広範囲な話題に対応できるようになった過去の対話履歴を保存・活用することが重要 LangChain や LangGraph などのフレームワークで「メモリ」機能が実装可能 9

10.

12.1 モジュール型音声対話システム雑談対話システムのためのメモリ機能対話履歴を単純に追加プロンプトに追加 LLM ユーザ対話履歴を要約過去の対話履歴から関係する部分を検索して抽出 10

11.

[beta]

12.1 モジュール型音声対話システム

音声入力のコーディング (HTML内部でJavaScriptを使う例)
<!DOCTYPE html>
<html lang="ja">
<head>
<meta charset="UTF-8" />
</head>
<body>
<h2>SpeechRecognition APIのデモ</h2>
<button type="button" class="start">音声認識開始</butto
<div class="output"></div>
<script>
音声認識を利用
const recognition = new webkitSpeechRecognition();
recognition.lang = "ja";
日本語を指定
recognition.continuous = true;
recognition.onresult = ({ results }) => {
認識終了時の
const output = document.querySelector(".output");
処理
output.textContent = results[0][0].transcript;
};
「音声認識開始」
ボタンが押された
時の処理

const startButton = document.querySelector(".start"
startButton.addEventListener("click", () => {
recognition.start();
});
</script>
</body>
</html>

11

12.

12.1 モジュール型音声対話システム音声入力のコーディング (Python のライブラリを使う例) import speech_recognition as sr r = sr.Recognizer() with sr.Microphone(sample_rate=16000) as source: print("なにか話してください") audio = r.listen(source) print("音声を取得しました") try: print(f"認識結果 {r.recognize_openai(audio)}") except sr.RequestError as e: print(f"失敗！{e}") 12

13.

[beta]

12.1 モジュール型音声対話システム

音声出力のコーディング (HTML内部でJavaScriptを使う例)
<!DOCTYPE html>
<html lang="ja">
<head>
<meta charset="UTF-8">
</head>
<body>
<h1>Web Speech API TTSのデモ</h1>
<textarea id="text" rows="4" cols="50"
placeholder="ここにテキストを入力してください"></textarea><b
<button onclick="speak()">音声合成開始</button>
「音声合成開始」
<script>
ボタンが押され
function speak() {
た時の処理
const text = document.getElementById('text').value;
音声合成を利用
const utterance = new SpeechSynthesisUtterance(text)
speechSynthesis.speak(utterance);
音声合成開始
}
</script>
</body>
</html>

13

14.

12.1 モジュール型音声対話システム音声出力のコーディング (Python のライブラリを使う例) import pyttsx3 as pytts engine = pytts.init() engine.setProperty('rate', 170) engine.setProperty('voice', 'ja') engine.say("このライブラリはOSのTTSエンジンをラップしています．") engine.runAndWait() 14

15.

12.2 リアルタイム型音声対話システムリアルタイム型音声対話システムとはストリーミングで音声入出力を行うユーザ発話に対して遅延なく応答を返せるシステム発話に対する割り込みが生じても，適切に対応できるリアルタイム型音声対話システムの実装 WebSocket 等で音声信号の送受信を行い，認識・合成はサーバで行う認識では音声入力と並行して逐次的にトークン化を行い，LLM に入力する LLMが発話終了と判断した時点で応答文の生成を始める生成されるトークンを逐次的に音声合成器に送って音声出力を行う 15

16.

12.2 リアルタイム型音声対話システムリアルタイム型音声対話システムの構成初期リクエスト非同期に実行入力音声 Python 処理系リアルタイム API サーバ WebSocket JapaScript 処理系応答音声終了処理 16

17.

12.3 双方向型音声対話システム双方向型音声対話システムとは一定以上の長さの無音区間を音声終了としたターンの存在を前提としない音声入出力を大規模言語モデルで同時に処理する自然な割り込み・オーバーラップ・感情認識や感情表現も可能 Moshi：音声・テキストのマルチストリームを自己回帰的に処理 RVQ（Residual Vector Quantization）と事前学習モデルを用いて音声をトークン化 RQ Transformerで文脈を保持しつつ応答テキストと音声を生成システムの応答テキストは Inner Monologue としてトークン化されて自己回帰的な入力となる 17

18.

12.3 双方向型音声対話システム Moshi アーキテクチャトークン列を埋め込みでベクトルに変換したものを結合して LLM の入力とします．LLM の出力はベクトルで，そこから出力単語と音声合成用のトークンを作ります． RQ Transformer Depth Transformer 文脈情報意味・音響トークンテキストトークン Helium (LLM) ... ユーザ音声入力 Mimi (codec) Moshi 音声出力 ... + Mimi はトークンと音声信号の変換を行っているのですね． Mimi Inner Monologue ユーザシステム音声出力 18

19.

12.3 双方向型音声対話システム音声 codec Mimi 音声信号とトークンとの相互変換を行う敵対損失による学習 WavLM コサイン類似度に基づく蒸留 Lin+VQ Lin ... ... Lin + + Lin デコーダ ... エンコーダ ... 事前学習モデルから知識蒸留を行ったトークンも持つことで，意図や感情を反映した音声が合成されると考えられます． Lin+RVQ 入力意味トークン 1 音声トークン 7 12.5Hz 出力 19

20.

12.3 双方向型音声対話システム RQ Transformer 音声とテキストの両方の情報を同時に処理し，応答を生成する + 埋め込み LLM Temporal Transformer はテキストトークンと同等の情報を持っていると考えられるので，そこから音響トークンを生成するのは自然な考えですね．文脈 + テキストトークン + + + Depth Transformer トークン 20

イラストで学ぶ音声認識 改訂第2版 12. 音声対話システム

荒木 雅弘

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

プログラミング〈新〉作法 2. C言語からはじめよう

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

プログラミング〈新〉作法 1. はじめに

プログラミング〈新〉作法 3. プログラムが動く仕組み

各ページのテキスト

イラストで学ぶ音声認識改訂第2版 12. 音声対話システム

荒木雅弘