3.2K Views
October 02, 24
スライド概要
エンジニア達の「完全に理解した」Talk #41 の発表スライドです
https://easy2.connpass.com/event/282672/
【革命】リアルタイムボイチェンソフト「VC Client」でついに念願のカワボをてにいれたぞ!
https://note.com/unsoluble_sugar/n/ndd8781101700
フルオタクエンジニア
VC ClientでRVC完全に理解した @unsoluble_sugar 2023/05/25 エンジニア達の「完全に理解した」Talk #41
突然ですが
こんな悩み ありますよね?
姿は可愛い女の子なのに
声はおじさん
全人類が抱える 社会課題
これまで数々のバ美声系ソフトを試してきたが…
挫折
時は流れ… 西暦2023年4月
救世主 到来
「RVC」とやらがすごいらしい https://www.techno-edge.net/article/2023/04/09/1130.html https://note.com/omiz_aiart/n/nfda54eb610fd
RVCとは ● Retrieval-based-Voice-Conversion ● 音声変換AIを使ったリアルタイムボイスチェンジャー ● 最低10分間程度の音声データで学習が可能 https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
時は来た
VC Clientを試してみた https://github.com/w-okada/voice-changer
VC Clientとは ● 各種音声変換AIを用いてリアルタイム音声変換を行うための クライアントソフトウェア ● サポートする音声変換AI ※v.1.5.3.2時点 ○ MMVC ○ so-vits-svc ○ RVC(Retrieval-based-Voice-Conversion) ○ DDSP-SVC
ローカルPCからの利用以外にリモートでの利用も可能 画像引用:w-okada/voice-changer
事前ビルド済みBinaryの利用がお手軽
start_http.batを実行(Windows版)
初回起動は少し時間がかかるよ
RVCを選択
起動時の画面
v.1.5.3.1以降、サンプルモデルデータですぐに音声変換を試せるように
Speaker Settingでピッチ調整 ● Tuningの目安 ○ 男声 → 女声 +12 ○ 女声 → 男声 -12
Converter Settingで遅延調整 ● InputChunk Num ○ 一度の変換でどれくらいの長さを切り取って変換するか ○ 大きいほど効率が高まるが変換開始までの最大時間が伸びる(buf) ● Extra Data Length ○ 音声変換時、入力にどれくらいの長さの過去の音声を入れるか ○ 長いほど精度が高まるが計算時間も長くなる(res)
もちろん学習したモデルデータの使用も可能 ● 学習は本家RVCやddPn08RVCで行う ● Model Settingで学習済みモデルをアップロード ○ ONNX 形式(.onnx), PyTorch 形式(.pth)
【革命】リアルタイムボイチェンソフト「VC Client」でついに念願のカワボをてにいれたぞ!
開発者への感謝も忘れずに
AI技術 発展の一方で
悪用の危険性も理解しよう 試される判断力...ディープフェイクの最前線 (ニュース) | ABEMA
冒頭に登場したおじさんも Stable Diffusionで作成