【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv

2K Views

August 18, 23

#deep learning #NLP #BloombergGPT #Large Language Model #Finance #Machine Learning

スライド概要

2023/8/18
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

“BloombergGPT: A Large Language Model for Finance” Yuta Sawada 1

書誌情報 ● 論文: https://arxiv.org/abs/2303.17564 ● 発行: Mar 2023 ● 概要 ○ BloombergGPTは、金融特化型のデータを含む約5690億トークンのデータセットで学習された500億パラメータのLLM ○ 財務タスク、汎用的なLLMベンチマーク共に高い精度を誇る

https://arxiv.org/abs/2303.17564

背景汎用的なLLMがあふれる中で、ドメイン特化型のLLMを開発したい ● 1750億パラメータのGPT-3に続き、Gopher(2800億)、PaLM(5400億)、 Megatron(1兆)などの大規模言語モデル(LLM)が開発 ● いずれも幅広いトピックとドメインをカバーするデータセットでトレーニングされた汎用的なLLMに焦点が当てられている ● 金融は、NLP技術が特に重要な分野であり、センチメント分析などの金融固有のタスクが多く存在する ● 金融ドメインに焦点を当てたLLMはまだ開発・評価されていない

BloombergGPT 汎用的かつ金融ドメインに特化したハイブリッドのLLM ● モデル：金融ドメインと一般のデータソースの両方を使用して学習した500億パラメータのLLM ● 学習データ：従来のwebスクレイピングのものとは異なり、信頼性のあるソースからのキュレーションしたデータを大量に含む7000億トークンのコーパス ● 評価：金融NLPベンチマークと汎用的なLLMベンチマークの両方で高精度 ● モデル構築の課題：膨大な計算を最適化するために、GPT-3やBLOOMの取り組みの一環として開発された既存のコードを活用

データセット FinPile：Bloombergが独自に作成した金融データを含むデータセット ● Financial Data(全体の約半分を占める) ○ Web: 全体の42% (スクレイピングにより) ○ News: bloombergのニュース記事を除くすべての記事 ○ Filing: 公開の財務諸表 ○ Press: 金融のプレスリリース ○ Bloomberg: bloombergのニュース記事 (0.7%) ● Public Data(公開されているデータセット) ○ The Pile: GPTJ, GPT-neoX等 ○ C4: T5 ○ Wikipedia: 2022/7/1の英語のwikipedia

Tokenization Bloomberg Tokenizer: 金融データのため独自のトークナイザーを開発 ● GPT-2など従来のトークナイザーの問題点 ○ 数字が、個別に認識されない ● Bloomberg Tokenizer ○ Unigramトークナイザーを実装し、The Pileを分割してトレーニング ○ 数字を個別に認識できる&マルチワードトークンに対応 ● Unigram トークナイザー ○ テキストを単語や文字などの独立した単位に分割するトークン化手法 (↔ BPEやWordPiece)

モデルのアーキテクチャ BLOOMのアーキテクチャに基づいたDecoderのみの言語モデル ● BLOOM ○ パラメータ数: 1760億 ○ 70層のtransformerのDecoder ● BloombertGPT ○ パラメータ数: 500億 ○ 70層のtransformerのDecoder ● Decoderブロック ○ SA: Multi Head Attention ○ LN: layer-normalization ○ FFN: Feed Forward Network

モデルの詳細 Chinchillaのスケーリング則に基づいてモデルのサイズ決定 ● 40GBのA100 GPUで＄1.3M(≒2億円)の予算 ● Chinchillaの方程式に当てはめる ○ パラメータ: 52.993B ○ トークン: 1111.112B ● 700Bトークンのデータセットは小さいが、これ以上金融ドメインのデータセットを追加することは困難 ● 入力トークン数: 2048 ● Optimizer: AdamW

学習リソースと最適化手法平均して102 TFLOPsを達成 ● 学習リソース（AWS Sagemaker） ○ p4d.24xlarge instanceを使用 ○ 64 × 8 Nvidia 40GB A100 GPU → 合計512GPU ● 最適化手法 ○ ZeRO Optimization: 複数のGPUに分割 ○ MiCS: パブリッククラウド上で巨大なモデルをトレーニングする際の低通信モデル並列戦略 ○ Activation Checkpointing: アクティベーションを削除 ○ Mixed Precision Training: 順方向および逆方向のパスはBF16, パラメータはFP32 ○ Fused Kernels: 単一のGPUで複数の計算の共通化

10.

学習ステップ139,200(53日)のチェックポイントを最終モデルとして選択 ● 1エポックの約80％で終了 ○ 5690億トークンを使用 ● 青からオレンジ ○ 学習率を2/3に（以下効果なし） ● オレンジから緑 ○ 学習率を半分に ○ ドロップアウトを追加 ● 緑から赤 ○ 学習率を半分に

11.

評価概要金融のタスクと一般的なタスクの二軸で評価（特殊なプロンプトは×） ● ベンチマーク ○ HELM、SuperGLUE、MMLU、およびGPT-3スイートなど ● 比較モデル ○ GPT-NeoX(20B), OPT66B, BLOOM176B, (GPT-3 175B)

12.

評価（Financial Task）従来の金融のベンチマークとBloomberg独自のベンチマークを作成 ● 外部のFinancial Task(FLUEベンチマークとConvFinQAデータセット) ○ ○ ○ ○ FPB(センチメント分類) FiQA SA(センチメント予測) ConvFinQA(質疑応答) Headline(二値分類) ● 内部のFinancial Task(bloomberg が作成) ○ センチメント分析 ○ NER(固有表現抽出)

13.

評価結果（Financial Task） Bloombergがほとんどのタスクで最も優れたスコアを記録 ● 外部のFinancial Task ○ BloombergGPTが4/5のタスクで1 番優れている ● 内部のFinancial Task ○ BloombergGPTが全てのタスクで他のモデルに比べて大幅に優れている ● GPT-3が比較されていないのが気になる

14.

評価（Standard NLP Task） 4つの分野で一般的なタスクを評価するベンチマークを用意 ● BIG-Bench Hard ○ BIG-benchの最も難しいタスクのサブセット ● 知識評価 ○ 学習した情報を用いて回答できるか ● 読解力 ○ プロンプトに含まれる情報に基づいて正しい回答を生成できるか ● 言語タスク ○ 曖昧性の解消、文法、含意を評価するタスクなど

15.

評価結果①（Standard NLP Task） PaLM 540Bには負けるものの、BLOOM176Bよりは全体的に高精度 ● BIG-Bench Hard ○ 大きなサイズのモデルには負けるが、同サイズのモデルでは最高精度

16.

評価結果②（Standard NLP Task） GPT-3には負けるものの、BLOOM176Bよりは全体的に高精度 ● 知識評価 ○ BLOOM176Bと僅差、GPT-3には及ばず ● 読解力 ○ GPT-3の次に高精度 ● 言語タスク ○ 読解力と同様、GPT-3の次に高精度

17.

BloombergGPTの活用金融ドメイン特化型のLLMならではの利点を生かした活用方法 ● Bloomberg Query Language（BQL）の作成 ○ 自然言語をBQLに変換し、金融データにアクセスすることができる ● ニュース記事の見出しの提案 ○ ニュース記事の各セクションごとの短い見出しを作成 ● 金融に関する質問応答 ○ 例) 企業のCEOを正確に予測

18.

まとめ Bloombergが開発したドメイン特化型のLLM「BloombergGPT」 ● 金融ドメインを半分程含む7000億トークンの大規模データセット FinPileを作成 ● FinPileのための独自のトークナイザーを開発 ● BLOOMのアーキテクチャをベースにモデルを53日間 512GPUで学習 ● 金融ドメインなタスク、汎用的なタスク共に高精度を誇る ● BQLの作成などドメイン特化LLMならではの応用が可能