316 Views
February 08, 25
スライド概要
JAWS-UG山梨第4回の登壇スライドです。
現状の Amazon Polly と生成エンジン登場にみた新たな可能性についてお話ししました。
システム維持PjM&SE #AWS/コミュニティ #営餃 #DevReljp #JBUG #BacklogWorld #JAWSUG #PRLT #開発PM勉強会/趣味 #バイク乗り #桃が好きなんです #富士山好き🗻51回登頂 #つれづれジャニ #ジャニタビ #ジャニソラ/著書📘http://amzn.to/3IUyM87
山梨 第4回 現状の Amazon Polly と 生成エンジン登場にみた新たな可能性 Journeyman | @beajourneyman Feb 2025
Journeyman ジャニ (Takeki Oizumi) 所属:セゾンテクノロジー(4月に社名変更) 2022年10月より遠隔地勤務可に 仕事:Amazon Connect を基盤とした IVRシステムの開発保守リーダー 推しサービス:Amazon Connect / Polly 最近は Bedrock SNS:@beajourneyman 認定: CLF / SAA / AIF
Bedrock、生成AIと深く関わる Polly、音声の話しをします
AWSのコミュニケーションサービス https://youtu.be/oI8h4KDpIL0?si=PyhAPvXIvBrosdNi&t=1329
Amazon Polly とは?
業務では自動音声応答(IVR)で使用
2024/05/08 Amazon Polly の 3 つの合 成音声 (英語) に対応した新生成エンジン New!! https://aws.amazon.com/jp/about-aws/whatsnew/2024/05/generative-engine-three-english-polly-voices/
この生成エンジンは Amazon Polly の最も高度なテキスト読み上げ (TTS) モデルです。さまざまな音声、言語、スタイルでトレーニングされて います。文脈に応じた韻律や、間の取り方、スペル、方言特性、外来語の 発音などを高い精度で表現します。生成型の合成音声は、感情表現に 富み、明快で口語的であるため、人間の声に驚くほど似ています。この新 しい音声は強力な機能を備えていながら低レイテンシーであるため、オン ライン会話のユースケースにも適しています。お客様は、人間に近い合成 音声を使用する、知識豊富なカスタマーアシスタント、バーチャルトレー ナー、広報として生成音声のペルソナをご利用いただけます。
何故、心躍ったのか? 音声チューニングがいらなくなる世界が来るから
2年前に戻ります
2023/02/08 日本語ニューラル女性音声GA Kazuha&Tomoko
Kazuha, Tomoko 誕生日おめでとう!!
歓喜して、早速お客様提案したものの、 音声合成してみると拭えない違和感が orz...
Kazuha と Tomoko が活躍するために 必要なのは、 音声合成マークアップ言語(SSML) によるチューニング
音声合成マークアップ言語(SSML)とは? Speech Synthesis Markup Language ピッチ、発音、読み上げ速度、音量などのテキス ト読み上げの出力属性を微調整するために使用 できる XML ベースのマークアップ言語
与えているテキスト JAWS-UG山梨第4回開催、おめでとうございます!番号は8074です。
チューニング前後のデモをお聞きください
SSMLによるチューニング(山梨支部 ver.)
<speak>
<phoneme alphabet="x-amazon-pron-kana" ph="ジョーズ
'">JAWS</phoneme>
<phoneme alphabet="x-amazon-pron-kana" ph="ユージ'ー">UG</phoneme>、
<phoneme alphabet="x-amazon-pron-kana" ph="ヤマ'ナシ">山梨
</phoneme>、 <break time="0.05s"/>
<p>第4回開催、おめでとうございます!</p>
<prosody rate="80%"><p>番号は8074です。</p></prosody>
</speak>
プロダクションレベルで頻出のタグ
タグ
用途
ユースケース
<break time="0.1s"/>
ブレイク(間)を入れる。
連続で話すコトで不自然に感じ
てしまうケースで非常に有効。
0.05秒などコンマ2単位で調整。
<p></p>
明確に文章の区切りを入れ 区切りを入れないと、人間だと
る。
息継ぎをしているようなケース
でも一気に発話してしまい違和
感になる。
<phoneme alphabet="x-amazonpron-kana" ph="オヘ'ンロ">お遍路
</phoneme>
読み上げを制御する。アク
セントを入れられる。
漢字読み上げ、イントネーショ
ンを制御できる。尚、標準語・関
西弁などの指定はできない
<prosody rate="80%"></prosody>
発話スピードを変える。
要メモな読み上げ(口座番号等)。
https://docs.aws.amazon.com/polly/latest/dg/supportedtags.html
日本語バージョンのGA、お待ちしてます! (チューニングがいらない世界が来て欲しい)
さらなる進化の大きなうねりを感じた そして、心が躍った
2024/12/03 Amazon Nova
生成AIは方言を理解している
生成AIに関西弁でお好み焼き屋を聞いた ほんまええで!大阪のたこ焼きといえば外せへんとこ、3つ教えたる わ。関西弁で説明したるさかい、よう聞いてや。 1. くくる 曽根崎店 ここのたこ焼きはめっちゃジューシーでふわふわしてんねん。外はカ リッとしてて中はトロトロ。タコもデカいし、ソースもええ感じやで。駅 近やから便利やし、行ったらアカンで! 2. たこ家 道頓堀くくる 本店~中略~ 3. たこ焼き やまちゃん 天王寺店 ~中略~ これらのお店、どこ行っても間違いあらへんで!大阪来たらぜひ食 べてみてや!うまいこと楽しんでってな!
この生成エンジンは Amazon Polly の最も高度なテキスト読み上げ (TTS) モデルです。さまざまな音声、言語、スタイルでトレーニングされて います。文脈に応じた韻律や、間の取り方、スペル、方言特性、外来語の 発音などを高い精度で表現します。生成型の合成音声は、感情表現に 富み、明快で口語的であるため、人間の声に驚くほど似ています。この新 しい音声は強力な機能を備えていながら低レイテンシーであるため、オン ライン会話のユースケースにも適しています。お客様は、人間に近い合成 音声を使用する、知識豊富なカスタマーアシスタント、バーチャルトレー ナー、広報として生成音声のペルソナをご利用いただけます。
学術研究やサビース利用が始まっている
生成AIによる方言継承の動きは始まっている
Amazon Nove Speech-to-Speech 登場の次に来るのは Polly と Bedrock が完全に統合した世界
その統合がもたらすのは… 各地の方言を理解し、不気味の谷を越えて流暢 に話し、人口減少社会の中で方言継承の力を 秘めている「AI音声エンジン」の誕生
Share your lessons.
AWS 推しサービスを中心にQiitaに 書いているので、良かったらご覧ください https://qiita.com/beajourneyman
首都圏のつながりを大切にしています 2018/10 群馬支部 2024/06 山梨支部 2025/02 栃木支部 2024/11 茨城支部
首都圏 Connecting the dots!!
connpassグループ登録お願いします!! https://jawsug-tochigi.connpass.com/
Appendix... Amazon Polly 数十の言語で高品質で自然な人間の声を展開 Amazon Polly ポータル Amazon Polly が 2 つの新しい日本語 NTTS 音声の提供を開始 2023/02/08 日本語ニューラ ル女性音声GA AWS が 3 人の表現力豊かなアメリカ英語の声を備えた長文形式エンジンの提供を開始 2023/11/16 長文形式のエンジン追加 Amazon Polly の 3 つの合成音声 (英語) に対応した新生成エンジン 2024/05/08 今回ご紹介 3つの新しい長編ボイス 2024/11/14 英語・スペイン語音声追加 Amazon Polly と SSML(音声合成マークアップ言語)に関する備忘録 弊Qiita関連ブログ Amazon Polly の最近のアップデートをふりかえり、生成AI時代の音声合成を考える 同関連ブログ
Appendix... 生成AI x 方言 記事 九州・沖縄方言の継承支援に資する音声対話型生成系AIの開発 生成AIで飲食店検索 「ぐるなび」が新アプリ 方言で特徴紹介も NHK WEB特集 最近、方言使ってますか? 素のChatGPTが使う大阪弁は何かヘンだが鹿児島弁は学習次第でほぼ完璧、“方言AI”が秘める可 能性とリスク
ご清聴いただき、ありがとうございます! ジャニ (Journeyman) | @beajourneyman