>100 Views
November 14, 25
スライド概要
とある合同勉強会でお話したスライドです。
システム維持PjM&SE #AWS/コミュニティ #営餃 #DevReljp #JBUG #BacklogWorld #JAWSUG #PRLT #開発PM勉強会/趣味 #バイク乗り #桃が好きなんです #富士山好き🗻51回登頂 #つれづれジャニ #ジャニタビ #ジャニソラ/著書📘http://amzn.to/3IUyM87
Amazon Polly の現状と 生成エンジン登場に見た大きな可能性 Journeyman | @beajourneyman Nov 2025
感謝の言葉(Pollyデモ)
Bedrock、生成AIと深く関わる Polly、音声の話しをします
Takeki Oizumi(Journeyman ジャニ) 所属:セゾンテクノロジー(遠隔地勤務可) JAWS-UG栃木運営(発起人) 仕事:Amazon Connect を基盤とした IVRシステムの開発保守リーダー 推しサービス:Amazon Connect / Polly 最近は Bedrock SNS:@beajourneyman 認定他: CLF/SAA/AIF/MLA/DEA/MLS,UGL,CB(AI Engineering)
AWSのコミュニケーションサービス https://youtu.be/oI8h4KDpIL0?si=PyhAPvXIvBrosdNi&t=1329
Amazon Polly とは?
業務では自動音声応答(IVR)で使用 旧サイトより
2024/05/08 Amazon Polly の 3 つの合 成音声 (英語) に対応した新生成エンジン https://aws.amazon.com/jp/about-aws/whatsnew/2024/05/generative-engine-three-english-polly-voices/
GA直後
この生成エンジンは Amazon Polly の最も高度なテキスト読み上げ (TTS) モデルです。さまざまな音声、言語、スタイルでトレーニングされて います。文脈に応じた韻律や、間の取り方、スペル、方言特性、外来語の 発音などを高い精度で表現します。生成型の合成音声は、感情表現に 富み、明快で口語的であるため、人間の声に驚くほど似ています。この新 しい音声は強力な機能を備えていながら低レイテンシーであるため、オン ライン会話のユースケースにも適しています。お客様は、人間に近い合成 音声を使用する、知識豊富なカスタマーアシスタント、バーチャルトレー ナー、広報として生成音声のペルソナをご利用いただけます。
何故、心躍ったのか? 音声チューニングがいらなくなる世界が来るから
2年半前に戻ります
2023/02/08 日本語ニューラル女性音声GA Kazuha&Tomoko
歓喜して、早速お客様提案したものの、 音声合成してみると拭えない違和感が orz...
Kazuha と Tomoko が活躍するために 必要なのは、 音声合成マークアップ言語(SSML) によるチューニング
音声合成マークアップ言語(SSML)とは? Speech Synthesis Markup Language ピッチ、発音、読み上げ速度、音量などのテキス ト読み上げの出力属性を微調整するために使用 できる XML ベースのマークアップ言語
与えているテキスト サーバーワークスさん、 合同勉強会を開催いただきありがとうございます!
チューニング後のデモ音声をお聞きください
SSMLによるチューニング(合同勉強会ver.) <speak> <prosody rate="90%"> <phoneme alphabet="x-amazon-pron-kana" ph="サーバーワ'ークス サン、">サーバーワークスさん、</phoneme> </prosody> <break time="0.05s"/><p>合同勉強会を開催いただき</p> <p>ありがとうございます!</p> </speak>
プロダクションレベルで頻出のタグ
タグ
用途
ユースケース
<break time="0.1s"/>
ブレイク(間)を入れる。
連続で話すコトで不自然に感じ
てしまうケースで非常に有効。
0.05秒などコンマ2単位で調整。
<p></p>
明確に文章の区切りを入れ 区切りを入れないと、人間だと
る。
息継ぎをしているようなケース
でも一気に発話してしまい違和
感になる。
<phoneme alphabet="x-amazonpron-kana" ph="オヘ'ンロ">お遍路
</phoneme>
読み上げを制御する。アク
セントを入れられる。
漢字読み上げ、イントネーショ
ンを制御できる。尚、標準語・関
西弁などの指定はできない
<prosody rate="80%"></prosody>
発話スピードを変える。
要メモな読み上げ(口座番号等)。
https://docs.aws.amazon.com/polly/latest/dg/supportedtags.html
日本語バージョンのGA、お待ちしてます! (チューニングがいらない世界が来て欲しい)
さらなる進化の大きなうねりを感じた そして、心が躍った
2024/12/03 Amazon Nova
生成AIは方言を理解している
生成AIに関西弁でお好み焼き屋を聞いた ほんまええで!大阪のたこ焼きといえば外せへんとこ、3つ教えたる わ。関西弁で説明したるさかい、よう聞いてや。 1. くくる 曽根崎店 ここのたこ焼きはめっちゃジューシーでふわふわしてんねん。外はカ リッとしてて中はトロトロ。タコもデカいし、ソースもええ感じやで。駅 近やから便利やし、行ったらアカンで! 2. たこ家 道頓堀くくる 本店~中略~ 3. たこ焼き やまちゃん 天王寺店 ~中略~ これらのお店、どこ行っても間違いあらへんで!大阪来たらぜひ食 べてみてや!うまいこと楽しんでってな!
この生成エンジンは Amazon Polly の最も高度なテキスト読み上げ (TTS) モデルです。さまざまな音声、言語、スタイルでトレーニングされて います。文脈に応じた韻律や、間の取り方、スペル、方言特性、外来語の 発音などを高い精度で表現します。生成型の合成音声は、感情表現に 富み、明快で口語的であるため、人間の声に驚くほど似ています。この新 しい音声は強力な機能を備えていながら低レイテンシーであるため、オン ライン会話のユースケースにも適しています。お客様は、人間に近い合成 音声を使用する、知識豊富なカスタマーアシスタント、バーチャルトレー ナー、広報として生成音声のペルソナをご利用いただけます。
学術研究やサビース利用が始まっている
生成AIによる方言継承の動きは始まっている
Amazon Nove Speech-to-Speech 登場の次に来るのは Polly と Bedrock が完全に統合した世界
その統合がもたらすのは… 各地の方言を理解し、不気味の谷を越えて流暢 に話し、人口減少社会の中で方言継承の力を 秘めている「AI音声エンジン」の誕生
そして…
2025/04/08 Amazon Nova Sonic 登場!
がしかし、日本語未対応…
日本語バージョンのGA、お待ちしてます! 以前、ニューラルエンジンが日本語化されたのは英語登場の2年半でした…
Share your lessons.
AWS 推しサービスを中心にQiitaに 書いているので、良かったらご覧ください https://qiita.com/beajourneyman
ご清聴いただき、ありがとうございます! ジャニ (Journeyman) | @beajourneyman
Appendix... Amazon Polly 数十の言語で高品質で自然な人間の声を展開 Amazon Polly ポータル Amazon Polly が 2 つの新しい日本語 NTTS 音声の提供を開始 2023/02/08 日本語ニューラ ル女性音声GA Supported SSML tags サポートされているSSMLタグのドキュメント AWS が 3 人の表現力豊かなアメリカ英語の声を備えた長文形式エンジンの提供を開始 2023/11/16 長文形式のエンジン追加 Amazon Polly の 3 つの合成音声 (英語) に対応した新生成エンジン 2024/05/08 今回ご紹介 3つの新しい長編ボイス 2024/11/14 英語・スペイン語音声追加
Appendix Amazon Bedrockにリアルタイムの音声会話をもたらす新しい音声合成モデル、Amazon Nova Sonicの発表 2025/04/08 Nova Sonic 登場 Amazon Nova Sonic で利用可能な音声 Nova Sonic ドキュメント Amazon Polly と SSML(音声合成マークアップ言語)に関する備忘録 弊Qiita関連ブログ Amazon Polly の最近のアップデートをふりかえり、生成AI時代の音声合成を考える 同関連ブログ
Appendix... 生成AI x 方言 記事 九州・沖縄方言の継承支援に資する音声対話型生成系AIの開発 生成AIで飲食店検索 「ぐるなび」が新アプリ 方言で特徴紹介も NHK WEB特集 最近、方言使ってますか? 素のChatGPTが使う大阪弁は何かヘンだが鹿児島弁は学習次第でほぼ完璧、“方言AI”が秘める可 能性とリスク
connpassグループ登録、ご参加お待ちしてます https://jawsug-tochigi.connpass.com/