Whisperを使ったみて_思ったこと

>100 Views

August 29, 23

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Whisperを使ったみて 思ったこと 2023/08/29 Uncode合同会社 成田 孝

2.

自己紹介 Uncode合同会社代表 小学校からプログラミングしてます 趣味:読書、サウナ、猫 システム開発、プログラミングスクール、エンジニアコミ ュニティの運営

3.

余談

4.

「子ネコの写真」を見ると集中力が維持できる 2012年の広島大学大学院総合科学研究科で、幼い動物のかわい い写真をみた後には、注意を必要とする作業の成績がよくなる ことが実験によってわかりました。 幼い動物(子犬や子猫)の写真7枚を好きな順番に並び換えるという作業を1分半行わせたとこ ろ、手先の器用さを必要とする課題(実験1)や指定された数字を数列から探して数える課題 (実験2)の成績が、写真を見る前と比べて、それぞれ44%、16%向上しました。 出典:広島大学

6.

気を取り直して

7.

経緯 とある音声を文章化、そして文章を元に特定のフォーマット へ変換するツールの作成依頼 文章を元に特定のフォーマットへ変換する方法については ChatGPTによるナレッジがあった 音声を文章化する部分についてなるべくコストをかけずに作 成したい

8.

音声テキスト化の方法を調査する 要件 APIで連携できるもの お金がかからない 実装が楽

9.

OpenAI社でライブラリを 提供している???

10.

Whisper使えそう! ChatGPTのAPIもどうせ使うので相性良いかも。。。

11.

Whisperとは? OpenAI社から提供されてる音声をテキスト化するモデル 日本語を含む99言語対応 対応といっても言語によって認識率は結構違う GitHubにソースがあるので、課金しなくても使用可能 https://github.com/openai/whisper

12.

OpenAI社で使う場合の料金 $0.006/分(日本円で0.88 円)かかります。

13.

Whisper使ってみて 対応しているファイル形式(mp3, mp4, mpeg, mpga, m4a, wav, and webm) 一回で処理できるファイルサイズは25MBまで。それ以上 大きくなる場合は音声ファイルを分割して処理して上げる 必要あり PyPIでライブラリ提供しているので、インストールするも の楽(pip install openai-whisper)

14.

残念だったこと ローカルPC(4CPU、8GB)にインストールして使ってみ たが、すごい時間かかった。 音声ファイル:118秒 Tiny:107.5秒 Medium:286.3秒 Large:1193.2秒 翻訳の精度もLargeでないと全然使えなかった

16.

有料だがOpenAI社のAPIなら 音声ファイル:118秒 ローカルPC Tiny:107.5秒 Medium:286.3秒 Large:1193.2秒 有料版 large-v2:13秒(圧勝。。。) しかも精度もLargeなので良い!

17.

使うのも簡単 サンプルソース

19.

まとめ ローカルPC版はスペックの問題で時間がかかってしまった が、クラウドでやれば時間早くできるかも ローカルPCで実装するにしてもAPI呼び出すにしてもどっ ちも実装が楽ちん