文字起こしの楽園を探して

0.9K Views

March 22, 25

#文字起こし #音声認識 #AWS Transcribe #Whisper #Python

スライド概要

ひまプロLT
https://teamhimapro.connpass.com/event/338895/

yabako kobayashi

@1285917

スライド一覧

新技術に興味津々なエンジニア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ひまプロリスナー流CI_CDのススメ

podcast

yabako kobayashi 881

ひまプロリスナー的負債脱却のアプローチ

yabako kobayashi 694

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.7M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.5M

UE5レンダリングフロー総おさらい(2024) 基礎編！[CEDEC+KYUSHU 2024]

ue5 unreal engine ue-rendering

エピックゲームズジャパン 1.3M

Meta XR SDK(V66-74)でQuestアプリを開発

spatial anchor unity quest pro shaperecognizeractivatestate oculus integration transformfeaturestateprovider building blocks transformrecognizeractivestate ovrsemanticclassification jointdeltaprovider ovrscenemanager jointvelocityactivestate オクルージョン sequenceactivestate scene manager ambisonic depth api metaxraudiosource playerlocomotor meta xr sdk quest3 ovrplayercontroller マルチモーダル meta haptics studio direct touch ui meta xr haptics sdk ovrspatialanchor ovrtrackedkeyboard hapticclipplayer fingerfeaturestateprovider hapticclip ワイドモーションモード wmm mruk mr utility kit voice sdk jointrotationactivestate meta horizon os ui set asw application spacewarp ovr metrics tool unityscene manager colocation discovery コロケーション mx ink passthrough camera api hand tracking microgestures webcamtexturemanager passthroughcamerautils cameraviewermanager hand pose selector recorder

あうぜん 1.2M

各ページのテキスト

文字起こしの楽園を探して

自己紹介小林将太(@yabakobayashi) ■ ■ ■ システム全般開発(インフラ、Webアプリ) オンプレとクラウドをいったりきたり PHPとGoをいったりきたり ○ PHPからGoへのマイグレーション 2

〜レッド・グリーン・ファクタリングのループを回しましょうってよく言われますが、これ何かというとノリさんが以前のエピソードでお話しした通り、こうなるといいなみたいなテストケースを〜 #325 📩テストについてのリアルな悩みに回答！！スモールテストって知ってる？ 3

https://podcasts.apple.com/jp/podcast/ひまじんプログラマーの週末エンジニアリングレッスン/id1601084785?i=1000686892568

〜今ちょうど考えているところでま答えはないんですけど。で、そのうちの一つなんで。選択肢としては、ノリさんが以前言ってたリファクタリングしてみるっていうところがやっぱり効いてくるのかなとは思うんです。 #297 勉強している人も教えている人も知りたい「わかる」技術 4

https://podcasts.apple.com/jp/podcast/ひまじんプログラマーの週末エンジニアリングレッスン/id1601084785?i=1000675538791

文字で検索してラジオの内容を振り返りたい 5

文字起こしの選定基準 ● ● ● ● それなりに精度があるコストは安め APIがある並列で出来るといい

初期構成 ● ● 音声ファイルをpythonで短く加工 ○ pydubを使用 OpenAPIに10分&24MB以内でリクエスト ○ 返却された値を後で結合

一々、分割して保存してOpenAPIに投げてる

やってみた感想 ● ● 文字起こし精度が割と高いただし1リクエスト10分&24MBだけの制限があるので無駄がすごい OpenAPIのWhisperはユースケースとしてリアルタイム翻訳をターゲットにしてるっぽい

10.

phase2 ● OSS版whisperを使用 ○ GPU次第で精度も自由 ○ OpenAPI時にあった制限もなし

https://github.com/openai/whisper

11.

やってみた感想 ● ● ● 文字起こし精度がかなり高い OpenAPIへの料金や制限が発生しないただしインスタンスに求めるスペックが高い ○ ○ ﬀmpegのインストール GPU コストを気にしないなら、これが一番早くて高精度だと思います

12.

これって誰が言ったかも分かるかも 12

13.

話者分割 13

14.

Whisperでは話者分割はできない ● ● ● やるにはpyannoteなどのモデルが必要さらにGPUも必要労力を費やして出力されたものが大したことないものだと割とショック

15.

AWS Transcribe ● ● ● ● 文字起こしのマネージドサービス従量課金(無料枠あり) 話者分離可能並列実行可能 15

16.

Transcribeジョブの構成 ● ● S3をインプットとして文字起こし出力はjson形式でS3に保存される

17.

こんな感じで出力される ● ● transcriptが文字起こし全文 itemsの中が話者分割。。。だが

18.

分割されすぎ！！！

19.

内容確認 ● 中身を見る感じspeaker_labelで誰が言ったかを単語レベルで判別してるっぽい ○ ● 最初の番組紹介は 97%の確率でかいちさんなのでspk_0はかいちさんだと思われるなのでラベルレベルでくっつければ会話になっているかな？

20.

ラベル変わったら、切り替えるなど地味に面倒な処理

21.

ちゃんと話者分割されてる！

22.

やってみた感想 ● 文字起こし精度はまぁまぁ ○ ● 文字起こし速度はWhisperより早い ○ ● 日本語対応は 2019年からだけど当時から精度は上がっているのか？まぁ使っているモデルにもよるでしょうけども並列で実行できるのはかなりよい

23.

おまけ Nottaでもやってみた

24.

まとめ ● 精度速度コスト話者分割 OpenAPI Whisper 高中中不可能 OSS Whisper 最高中〜高速高不可能 AWS Transcribe 中高速中可能 Transcribeが自分の要件に合っていた ○ ● 他はインスタンスが必要なのが結構コスト的に精神負荷が高いラジオレベルであれば精度はそれほど必要でない

25.

皆さんもよいPodcastライフを 25

26.

ご清聴ありがとうございました 26