mistralモデルをベースとした日本語の大規模言語モデル

7.9K Views

May 01, 24

#大規模言語モデル #自然言語処理 #コーパスクリーニング #Mistral #日本語

スライド概要

yousan

@yousan

スライド一覧

Unity Engineer: Individual Activities → Making Games

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ローカルLLM LT会

yousan 9.2K

ローカル環境で動く音声対話ができるAI キャラクター作成 for 生成AI新年会2024

yousan 7K

モバイルでも動く軽量日本語ローカルTTSの作成と Unity向けライブラリの開発 ~ piper-plusとuPiperの開発の秘話 ~

ai unity

yousan 6.7K

Style-Bert-VITS2のスケーリング則に対する検証実験

yousan 6.3K

u1w共有会「チーム開発でのGoogle Sheetを使ったマスターデータの管理」

yousan 3.3K

生成AIゲームジャム LT「生成AIをゲームでどう使っていくのか」

yousan 2.2K

各ページのテキスト

mistralモデルをベースとした日本語の大規模言語モデル 2024/05/01 ようさん

目次 1. 2. 3. 4. 5. 6. 自己紹介背景チームのゴールコーパスのクリーニング学習内容の共有まとめ 2

自己紹介名前 : ようさん ● Unityエンジニア ○ ゲーム ○ (VR/MR) ● 趣味でTTSやLLM周り X(Twitter) @ayousanz 3

背景 loss:2.205 perplexity : 11.0228 4

背景

チームのゴール ● 事前学習用のクリーニング済みのコーパスの作成 ● 日本語のMistral事前学習モデルの作成

事前学習用のクリーニング済みコーパスの作成以下の内容を実施 ● コーパスクリーニング用のC++ツールを実装 ● 各種日本語データセットをクリーニング

コーパスクリーニングの背景 ● wikipedia、cc100、oscarデータはノイズデータ（重複、低品質文書、広告）が多く、LLMの推論性能を下げる要因に ● コーパスクリーニングによりLLMの推論性能が向上する事例が報告されている（文献1、文献2） ● 既存のpythonクリーニングツール(Hojichar, DataTrove)は有用だが処理が遅い C++で高速にコーパスクリーニングするツールを実装し処理

10.

作成したクリーニングツールリポジトリ：https://github.com/ce-lery/corpus-cleaner ドキュメント：https://ce-lery.github.io/corpus-cleaner/ 実装期間：2024/2/15 〜 2024/4/24（約2.5ヶ月）

11.

コーパスのクリーニング処理一覧 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Normalizer: 文の正規化（mecab-neologdをC++化し、NFKC正規化等実施） URL Remover: 正規表現にマッチするURLの削除 Special Characters Remover: 特定の特殊文字（☀, ♡, ☆など）の削除 Emoji Remover: \U0001F300(🌀)から\U0001F9FF(🧿)までの絵文字の削除 Quotes Remover: 引用符（[1], {245}）の削除 Length Filter: 長すぎる文章や短すぎる文章（4文字以下）の削除 Language Filter: 日本語の文章であるかどうかを判定し、日本語以外を削除 Minhash Deduplicator: Minhashを使用した重複文章排除 ZeroPunctuationFilter: 句読点のない文書の削除 Sentence Segmenter: ルールに基づいてコーパスを文に分割（今回不使用） Perplexity Filter: KenLMを使用した困惑度フィルター（40000超えを除去）

12.

クリーニングにより除去されたデータの例 Minhashによる重複文書の除去（wikipedia dataset） Perplexity値による低品質文書の除去 & 句読点無し文書の削除

13.

クリーニング済みデータセット以下のクリーニング済みコーパスを公開 1. wiki & cc100 (クリーニングによる除去率50%): https://huggingface.co/datasets/ce-lery/mistral-3b-dataset 2. oscor: https://huggingface.co/datasets/ayousanz/OSCOR-2301-ja-cleaned 3. c4(一部のみ) : https://huggingface.co/datasets/ayousanz/c4-ja-cleaned

14.

クリーニングツール残課題ほぼ名詞で構成された文章が除去できていない →形態素解析処理を追加し、ほぼ名詞の文章を排除予定

15.

チームのゴール ● 事前学習用のクリーニング済みのコーパスの作成 ● 日本語のMistral事前学習モデルの作成

16.

クリーニング済データを用いた300M pretrain 3Bは作れなかったが、クリーニング済みwiki & cc100で300Mモデルを作成 2023/12 (文正規化のみ) ・生成言語に含まれるノイズが大幅に減少 2024/4 (p.12記載の10種処理) ・学習時間も半減

17.

学習時の知見共有 1. 大規模のモデル学習をdockerに学習時の共有メモリの不足 2. 事前準備の時間不足

18.

学習時の知見共有大規模のモデル学習をdockerに学習時の共有メモリの不足「NCCL WARN Error while creating shared memory segment /dev/shm/nccl-SWCuLF (size 9637888)」 → 実行時に --shm-size=[size] のオプションで指定

19.

まとめ ● ● ● ● クリーニングツールの公開クリーニング済みのデータの公開クリーニングデータを使った0.3bモデルの作成 3bクラスは未完成

20.

今後の展望 ● 3bクラスの学習 ● 引き続きc4データセットのクリーニング

21.