Azure AI Speech Service 音声翻訳の現状(2025年1月版)

1.2K Views

February 15, 25

スライド概要

第5回 Azure Travelers 勉強会 沖縄の旅( https://jat.connpass.com/event/334925/ )の登壇スライドです。
動画の音声を日本語から英語に翻訳するために使えるAzure AI Speech Serviceの機能と、それらの日本語対応状況についての話です。

profile-image

バックエンドエンジニア。  主にC#, Azure, Terraform, GitHub Actionsをいじっています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Azure AI Speech Service 音声翻訳の現状 (2025年1月版) 2025/2/15 第5回 Azure Travelers 勉強会 沖縄の旅 長瀬 マキ

2.

自己紹介 名前 • 長瀬マキ(yumaでもマキでもOK) • X: @yuma_prog コミュニティ • JAZUG, Azureわいがや会, Hack Everything., Azure AI Developers Community(JP) • AI駆動開発勉強会 Microsoft MVP for Azure(2024.08~) 好き • Azure PaaS, C#, Terraform • GitHub Actions, GitHub Copilot

3.

なぜ音声翻訳? • 英語のインタビュー動画撮影の依頼をいただいた • 事前に自分で録画、提出する形式だった

4.

インタビュー動画撮影の流れ • 質問に対してひとまず日本語で回答を作成 • ChatGPTで英語化 • 英語化した回答を読み上げながらインタビュー動画撮影

5.

インタビュー動画撮影の流れ • 質問に対してひとまず日本語で回答を作成 • ChatGPTで英語化 • 英語化した回答を読み上げながらインタビュー動画撮影 3回くらい練習して「あ、だめだこれ」となったので戦略変更

6.

英語を喋らない道を 追求する

7.

あれどうなった?

8.

Teamsの通訳エージェント 中国語(北京語)、英語、フランス語、ドイツ語、イタリア語、日本語、韓国語、ポルトガル語(ブラ ジル)、スペイン語を含む9つの言語をサポートすることから始めます。 この新しいエージェントは 2025 年初頭にパブリック プレビュー版として提供され、プレビュー版にア クセスするには Microsoft 365 Copilot ライセンスが必要です。 引用元:Introducing new agents in Microsoft 365 | Microsoft Community Hub

9.

Teamsの通訳エージェント 中国語(北京語)、英語、フランス語、ドイツ語、イタリア語、日本語、韓国語、ポルトガル語(ブラ ジル)、スペイン語を含む9つの言語をサポートすることから始めます。 この新しいエージェントは 2025 年初頭にパブリック プレビュー版として提供され、プレビュー版にア クセスするには Microsoft 365 Copilot ライセンスが必要です。 引用元:Introducing new agents in Microsoft 365 | Microsoft Community Hub Microsoft 365 Copilot ライセンスがないので試せない!

10.

Azure AI の Speech Service で実現するには

11.

Speech Service で動画の音声を翻訳する方法案 1. ビデオ翻訳×パーソナルボイス 2. 音声間翻訳×動画編集

12.

ビデオ翻訳×パーソナルボイス

13.

ビデオ翻訳×パーソナルボイス 動画の音声が翻訳されて、その人と似たボイスで翻訳された内容が発音される方法 • ビデオ翻訳 • ビデオの音声を翻訳してくれる機能 • ビデオ翻訳の概要 - 音声サービス - Azure AI services | Microsoft Learn • パーソナルボイス • 本人の声をもとに音声データを作り、その自身がしゃべっているように聞こえる • テキスト読み上げの概要 - 音声サービス - Azure AI services | Microsoft Learn

14.

ビデオ翻訳の現状 • 今回、リアルタイム翻訳は不要なのでこちらで十分 • まだ対応言語が少ない • 言語サポート - 音声サービス - Azure AI services | Microsoft Learn

15.

ビデオ翻訳の現状 • 今回、リアルタイム翻訳は不要なのでこちらで十分 • まだ対応言語が少ない • 言語サポート - 音声サービス - Azure AI services | Microsoft Learn 日本語未対応

16.

パーソナルボイスの現状 • 日本語対応している! • 言語サポート - 音声サービス - Azure AI services | Microsoft Learn • 個人用音声とは - Azure AI services | Microsoft Learn • プレビュー段階で申請が必要 • Azure AI Custom Neural Voice and Custom Avatar Limited Access Review • 今回は締め切りに追われすぎて間に合わなかった

17.

音声間翻訳×動画編集

18.

音声間翻訳×動画編集 音声だけ翻訳して、元の動画の音声とすり替える方法 • 音声間翻訳 • 音声テキスト変換&翻訳→テキスト音声変換 • 音声翻訳の概要 - Speech Service - Azure AI services | Microsoft Learn • 動画編集 • Clipchampを使って音声データを抽出&翻訳済み音声データにすり替え

19.

音声間翻訳×動画編集 音声だけ翻訳して、元の動画の音声とすり替える方法 • 音声間翻訳 「音声テキスト変換」時点で聞き間違えられてしまう! • 音声テキスト変換&翻訳→テキスト音声変換 • 音声翻訳の概要 - Speech Service - Azure AI services | Microsoft Learn • 動画編集 • Clipchampを使って音声データを抽出&翻訳済み音声データにすり替え

20.

今できる最大限簡単な方法で 要件を満たすソリューション

21.

テキスト音声変換(TTS)×口パク • テキスト音声変換 • ChatGPTに英語化してもらったテキストをSpeech Studioで読み上げ • 音声のスタイルを読み上げ個所によって調整することで感情を表現 • 一部音声しかスタイルに対応していないので注意 • cheerful, sad などを選べる • 音声のスタイルと役割 - 音声サービス - Azure AI services | Microsoft Learn • 口パク • Speech Studioで読み上げられる音声に合わせてにやつきながら口パクして録画

22.

テキスト音声変換(TTS)×口パク • テキスト音声変換 • ChatGPTに英語化してもらったテキストをSpeech Studioで読み上げ • 音声のスタイルを読み上げ個所によって調整することで感情を表現 • 一部音声しかスタイルに対応していないので注意 • cheerful, sad などを選べる • 音声のスタイルと役割 - 音声サービス - Azure AI services | Microsoft Learn • 口パク • Speech Studioで読み上げられる音声に合わせてにやつきながら口パクして録画 英語でインタビューに答えている動画 の完成 \ヤッタネ/