Style-Bert-VITS2のスケーリング則に対する検証実験

5K Views

May 01, 24

スライド概要

profile-image

Unity Engineer: Individual Activities → Making Games

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Style-Bert-VITS2の スケーリング則に対する検証実験 2024/05/01 ようさん

2.

目次 1. 2. 3. 4. 自己紹介 チームのゴール 背景と事前調査・検証 学習内容と結果 2

3.

自己紹介 名前 : ようさん ● Unityエンジニア ○ ゲーム ○ (VR/MR) ● 趣味でTTSやLLM周り X(Twitter) @ayousanz 3

6.

チームのゴール ● TTS(Bert-VITS2)のモデルにスケーリング則が適当でき るのか、 モデルサイズを大きくした際にどのくらい精度に影響 があるのかの検証

7.

背景 ● 現状のSBV2はイントネーションの再現が完璧とは言え ない ● ユースケースとしてスピードよりも精度を重視したい場 合がある

8.

事前調査・検証 「Textbooks Are All You Need」 品質が高いデータセットの場合、 品質が低いものよりもデータ量が数倍少なくても いいモデルができるという内容の論文

9.

事前調査・検証 「Scaling Laws for Neural Language Models」 モデルのサイズ、データセット量、計算量を上げると精度 が良くなるという内容

10.

事前調査・検証 Llama-VITS: Enhancing TTS Synthesis with Semantic Awareness 先端のエンドツーエンドTTSフレームワークであるVITSモデルにLlama2からの 意味的埋め込みを統合しています。

11.

事前調査・検証 Scaling law is the key to LLMs. How about scaling law for multimodality (e.g., audio, visual)? https://x.com/xutan_tx/status/1783154647903113453 We plot some speech synthesis/recognition models and speech scaling law. Seems most synthesis models are OVER-parameterized compared to the compute-optimal model/data allocation.

12.

事前調査・検証 前回のハッカソンで二つのチームがTTSモデルの事前学習の作成 yodasやreazon-speechなどのコーパスを使用して学習していた。 ただ合成した音声はコーパス側に影響を受けていた

13.

事前調査・検証 高品質なコーパス × 少量の場合 事前学習時の 音声コーパスは、 合計8時間程度

14.

事前調査・検証 高品質なコーパス × 少量の場合 事前学習モデルに イリシアちゃんコーパスでfine tuingしたもの

15.

事前調査・検証 fish-speech v1が15万時間の学習モデルを公開 (モデルはβみたいです)

16.

学習内容と結果 1. デフォルトサイズで学習(0.03 ~ 0.1B相当) 2. モデルを大きくしたもので学習(0.3b相当)

17.

学習内容と結果 "inter_channels": 192, "inter_channels": 256, "hidden_channels": 192, "hidden_channels": 256, "filter_channels": 768, "filter_channels": 2048, "n_heads": 2, "n_heads": 16, "n_layers": 6, "n_layers": 24, パラメータ参考: rinna/japanese-gpt2-medium

18.

学習内容と結果 学習率: 2e-4 バッチサイズ : 1

19.

学習内容と結果 デフォルトサイズ(0.03 ~ 0.1b) 0.3b相当サイズ

20.

学習内容と結果 デフォルトサイズ 0.3b相当サイズ

21.

まとめ ● VRAMが24GBの場合、0.3b相当が限界(かも) ● speechMOSの傾向はまだ上がりそう ● 学習時間が足りず検証は終えていない → 最低でも200時間程度の追加学習は必要そう