>100 Views
January 20, 25
スライド概要
Toranomon Tech Hub Update Award 2024 ~個人的にアツかったアップデートを語るLT大会~ の登壇スライドです。
システム維持PjM&SE #AWS/コミュニティ #営餃 #DevReljp #JBUG #BacklogWorld #JAWSUG #PRLT #開発PM勉強会/趣味 #バイク乗り #桃が好きなんです #富士山好き🗻51回登頂 #つれづれジャニ #ジャニタビ #ジャニソラ/著書📘http://amzn.to/3IUyM87
#tora_tech 個人的にアツかったAWSのコミュニケーション系 サービスのアップデート 2024 Journeyman | @beajourneyman Jan 2025
Journeyman ジャニ (Takeki Oizumi) 所属:セゾンテクノロジー(4月に社名変更) 2022年10月より遠隔地勤務可に 仕事:Amazon Connect を基盤とした IVRシステムの開発保守リーダー 推しサービス:Amazon Connect / Polly 最近は Bedrock SNS:@beajourneyman 認定: CLF / SAA / AIF
コミュニケーションサービスとは? https://youtu.be/oI8h4KDpIL0?si=PyhAPvXIvBrosdNi&t=1329
Bedrock、生成AIと深く関わる 音声の話しをします
Amazon Polly とは?
業務では自動音声応答(IVR)で使用
2024/05/08 Amazon Polly の 3 つの合 成音声 (英語) に対応した新生成エンジン New!! https://aws.amazon.com/jp/about-aws/whatsnew/2024/05/generative-engine-three-english-polly-voices/
この生成エンジンは Amazon Polly の最も高度なテキスト読み上げ (TTS) モデルです。さまざまな音声、言語、スタイルでトレーニングされて います。文脈に応じた韻律や、間の取り方、スペル、方言特性、外来語の 発音などを高い精度で表現します。生成型の合成音声は、感情表現に 富み、明快で口語的であるため、人間の声に驚くほど似ています。この新 しい音声は強力な機能を備えていながら低レイテンシーであるため、オン ライン会話のユースケースにも適しています。お客様は、人間に近い合成 音声を使用する、知識豊富なカスタマーアシスタント、バーチャルトレー ナー、広報として生成音声のペルソナをご利用いただけます。
何故、心躍ったのか? 音声チューニングがいらなくなる世界が来るから
2023/02/08 日本語ニューラル女性音声GA Kazuha&Tomoko
歓喜して、早速お客様提案したものの、 音声合成してみると拭えない違和感が orz...
Kazuha と Tomoko が活躍するために 必要なのは、 音声合成マークアップ言語(SSML) によるチューニング
音声合成マークアップ言語(SSML)とは? Speech Synthesis Markup Language ピッチ、発音、読み上げ速度、音量などのテキス ト読み上げの出力属性を微調整するために使用 できる XML ベースのマークアップ言語
与えているテキスト Toranomon Tech Hub Update Award 2024 ~個人的にアツかったアッ プデートを語るLT大会~ 開催おめでとうございます!
チューニング前後のデモをお聞きください
SSMLによるチューニング(#tora_hub ver.) <speak> <phoneme alphabet="x-amazon-pron-kana" ph="トラノモ'ン ">Toranomon</phoneme> <phoneme alphabet="x-amazon-pron-kana" ph="テ'ックハブ'">Tech Hub</phoneme>、<break time="0.05s"/> Update Award 2024 ~個人的にアツかったアップデートを語るLT大会 ~、<break time="0.05s"/> <p>開催おめでとうございます!</p> </speak>
プロダクションレベルで頻出のタグ
タグ
用途
ユースケース
<break time="0.1s"/>
ブレイク(間)を入れる。
連続で話すコトで不自然に
感じてしまうケースで非常に
有効。0.05秒などコンマ2単
位でチューニングする。
<p></p>
明確に文章の区切りを入れる。 区切りを入れないと、人間だ
と息継ぎをしているような
ケースも一気に発話してしま
い。違和感になる。
<phoneme alphabet="x読み上げを制御する。アクセン 漢字読み上げ、イントネー
amazon-pron-kana" ph="オ トを入れられる。
ションを制御できる。尚、標
ヘ'ンロ">お遍路
準語・関西弁などの指定は
</phoneme>
できない
https://docs.aws.amazon.com/polly/latest/dg/supportedtags.html
日本語バージョンのGA、お待ちしてます! (チューニングがいらない世界が来て欲しい)
さらなる進化の大きなうねりを感じた
2024/12/03 Amazon Nova
生成AIは方言を理解している
生成AIに関西弁でお好み焼き屋を聞いた ほんまええで!大阪のたこ焼きといえば外せへんとこ、3つ教えたる わ。関西弁で説明したるさかい、よう聞いてや。 1. くくる 曽根崎店 ここのたこ焼きはめっちゃジューシーでふわふわしてんねん。外はカ リッとしてて中はトロトロ。タコもデカいし、ソースもええ感じやで。駅 近やから便利やし、行ったらアカンで! 2. たこ家 道頓堀くくる 本店~中略~ 3. たこ焼き やまちゃん 天王寺店 ~中略~ これらのお店、どこ行っても間違いあらへんで!大阪来たらぜひ食 べてみてや!うまいこと楽しんでってな!
Amazon Nove Speech-to-Speech 登場の次に来るのは Polly と Bedrock が完全に統合した世界
その統合がもたらすのは… 各地の方言を理解し、不気味の谷を越えて流暢 に話し、人口減少社会の言語文化を保全する力 を秘めている完全自律型音声エンジンの誕生
個人的にアツかった!!
Share your lessons.
Appendix... Amazon Polly 数十の言語で高品質で自然な人間の声を展開 Amazon Polly ポータル Amazon Polly が 2 つの新しい日本語 NTTS 音声の提供を開始 2023/02/08 日本語ニューラ ル女性音声GA AWS が 3 人の表現力豊かなアメリカ英語の声を備えた長文形式エンジンの提供を開始 2023/11/16 長文形式のエンジン追加 Amazon Polly の 3 つの合成音声 (英語) に対応した新生成エンジン 2024/05/08 今回ご紹介 3つの新しい長編ボイス 2024/11/14 英語・スペイン語音声追加 Amazon Polly と SSML(音声合成マークアップ言語)に関する備忘録 弊Qiita関連ブログ
AWS 推しサービスを中心にQiitaに 書いているので、良かったらご覧ください https://qiita.com/beajourneyman
日帰りも可能 満員御礼!! https://jawsug-tochigi.connpass.com/event/342140/
ご清聴いただき、ありがとうございます! ジャニ (Journeyman) | @beajourneyman