実験化学・材料系インフォマティクスでの生成AIの活用検討(中)

13.5K Views

September 08, 23

#AI #材料科学 #Llama 2 #ファインチューニング #自己AIの作成

スライド概要

2023年9月の発表資料です｡
誤った情報が含まれているかもしれませんので､ご了承下さい

Kan Hatakeyama

@KanHatakeyama

スライド一覧

化学･材料･データ･AI･ロボット

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

Kan Hatakeyama 297.5K

数値で整理する大規模言語モデル(LLM) のメモ

Kan Hatakeyama 107.4K

GPTにできること･やるべきこと(化学･材料研究の視点で)

Kan Hatakeyama 78.2K

[メモ]大規模言語モデル(LLM)のための文章検索に関する勉強･試行錯誤

Kan Hatakeyama 73.5K

大規模言語モデル Tanuki-8x8Bの紹介と開発経緯など

Kan Hatakeyama 48K

大規模言語モデルLlama-3.1に専門的な数値データを学習させる検討

Kan Hatakeyama 42.7K

各ページのテキスト

2023/9 融合の場 by 田中さん https://fusion2023dl-2nd.s-top.dev/ 実験化学・材料系インフォマティクスでの生成AIの活用検討(中) 東京工業大学物質理工学院助教畠山歓 1

https://fusion2023dl-2nd.s-top.dev/

本日のトピック • 材料科学 x AIの研究紹介 (これまでの研究) • オープンソースの大規模言語モデルLlama 2のファインチューニング 2

グラフニューラルネットによる分子認識と物性予測 (& ファインチューニング) 2020年 3

化学事象のグラフ構造化と “マルチモーダル”学習 • 2020年 4

量子アニール関連 • 2022年 with 富士通 • 教師あり・なし学習による探索ポテンシャル構築 • 深層強化学習による分子生成 5

量子ゲート関連 • 2022年 with 富士通 • 分子構造からの物性予測 • 量子回路学習 6

( ) • • 1023 • • • • AI • (→ ? ( • 3 • 2023 • • !?) ) ! !? (AI )

Automated chemical research (2023-) 8

(YOLO) 9

10.

GPT 10

11.

• Q. * • A. 1. 2. ( + ) ( + ) 1. 2. 3. 4. 3. *N ( ) AI (N≧0) 11

12.

ChatGPT 化学研究とGPT-4 12

13.

One-shot learning & explainable prediction TEMPO 4-cyano TEMPO 13

14.

英語翻訳

15.

日本語で下書き作成 →英訳(10分程度で完了) 論文執筆の速度が一気に向上 ChemRxiv 2023 15

16.

論文のRebuttal Letterの執筆が得意レビュアーに対して､常に低姿勢で回答してくれる点がありがたい 16

17.

英訳に関する感想 • これまでの自動翻訳よりも遙かに高精度 • 単語のチョイス､英語論文としての格式など • 当然ながら文法ミスなどのヒューマンエラーは無し • 畠山よりもセンスgood • 日本人の中では､英語が出来る部類(?) • 1 st authorで30報以上､論文を執筆 • TOEIC: > 900点 (大学院修了時) • しかしレビュアーには､しばしば､英語が酷いという指摘を受ける • GPTに英訳させた論文では､そのようなクレームが消失 • 英語のセンスは､GPTの方が畠山よりも上 • 論理的な日本文章が書ければ､十分(?) • 学生教育をどうするか 17

18.

Two papers under review 18

19.

オープンソースの大規模言語モデル Llama 2のファインチューニング 19

20.

モチベーション自分専用のAIを作りたい 20

21.

アプローチ (例)

22.

Q. 基盤モデルをゼロから作りたい A. お金が必要です GPT-3の学習コスト (ドル) 10000000 1000000 100000 10000 1000 100 10 1 2020 2025 2030 2035 2040 2045 2050 2055 2060 2065 2070 年 1ドル程度でGPT-3を作るには､2065年頃まで待つ必要 22

23.

ファインチューニングの必要スペック 23

24.

学習に必要なGPUメモリ https://arxiv.org/abs/2106.09685 24

https://arxiv.org/abs/2106.09685

25.

学習に必要なGPUメモリすごく簡素化すると… 必要メモリ = 4 x パラメータ数(B) (実際はバッチサイズやtoken lengthに応じて増加。8くらいだと余裕?) 25

26.

GPT3.5の場合 • 175B (1750億)パラメータなので… • 175 x 4 = 700 GBのメモリが必要 • GPUの構成例 • A100 (80 GB) x 10枚 • 268万/枚 x 10枚 = 2680万円 (@ 価格.com) が必要 (ちょっと高い) 26

27.

大規模言語モデル（LLM）カオスマップ株式会社ANOBAKA より引用そもそもオープンソースではない 27

28.

大規模言語モデル（LLM）カオスマップ株式会社ANOBAKA どれを使う? 28

29.

オープンソースモデルの選定基準 • 性能 • 基本的にはモデルサイズが重要* • 畠山の印象 • • • • • • 3 b: 意味不明な文字列を量産 7 b: 質疑応答ができる 13 b: 同上 30 b: 簡単な思考が出来る(与えられた文章から質問を生成､など) 175 b: GPT-3.5 1000b?: GPT-4 • *Scaling Laws for Neural Language Models (arXiv:2001.08361, 2020) • 日本語対応 • 商用利用の可否 • コンテキスト⾧(文字数) 29

30.

Llama 2 by Meta Metaが2023/7/18に公開したオープンソースの大規模言語モデル 70bモデルはGPT-3に匹敵するとの評判 https://about.fb.com/news/2023/07/llama-2/ 30

https://about.fb.com/news/2023/07/llama-2/

31.

Llama2の必要メモリ • 70B (700億)パラメータなので… • 70 x 4 = 280 GBのメモリが必要 • GPUの構成例 • A100 (80 GB) x 4枚 • 268万/枚 x 4枚 = 1072万円 (@ 価格.com) が必要 31

32.

LoRA: Low-Rank Adaptation of Large Language Models https://arxiv.org/abs/2106.09685 32

https://arxiv.org/abs/2106.09685

33.

LoRA • W • AxB • • r 8-64 (LoRA) ! ( 0.1% ) https://arxiv.org/abs/2106.09685 33

https://arxiv.org/abs/2106.09685

34.

(quantization) 16bit 4bit https://arxiv.org/pdf/2212.09720.pdf 34

https://arxiv.org/pdf/2212.09720.pdf

35.

アプローチ (例)

36.

学習に必要なGPUメモリ (続) QLoRAの目安は… 必要メモリ = 0.5 x パラメータ数(B) (実際はバッチサイズやtoken lengthに応じて増加) Llama2-70の場合は､0.5x70b = 35 GB~ (RTX 3090 (24GB)は20万円程度で購入可能) 36

37.

37 Llama2のQLoRAの実際

38.

予備実験ファインチューニングの動作確認に成功学習データファインチューニングモデル QLoRA* 70bモデル r = 64 epochs = 10 詳細は以下の記事を参照 llama2のファインチューニング(QLORA)のメモ https://note.com/kan_hatakeyama/n/n5941dd9d3af4 38

https://note.com/kan_hatakeyama/n/n5941dd9d3af4

39.

本番の学習データ • 高分子学会第72会年次大会(2023年)の予稿集 • pdfで1486ページ (540 MB) • テキストで153万文字 (3.7 MB) 39

40.

データ形式 • テキストのみを学習 • Max tokenを700文字に制限 • Inputなし､outputは文章(平文)に設定 40

41.

学習条件(詳細) • ベースモデル: meta-llama/Llama-2-70b-chat-hf • rは8, 16, 32で変更 • --lora_r * --max_steps 6000 --use_auth --logging_steps 300 -save_steps 300 --save_strategy steps --data_seed 42 -save_total_limit 40 --dataloader_num_workers 1 --group_by_length -logging_strategy steps --remove_unused_columns False --do_train --lora_alpha 16 --lora_modules all --double_quant --quant_type nf4 -bf16 --bits 4 --warmup_ratio 0.03 --lr_scheduler_type constant -gradient_checkpointing --source_max_len 16 --target_max_len 768 -per_device_train_batch_size 1 --gradient_accumulation_steps 16 -learning_rate 0.0002 --adam_beta2 0.999 --max_grad_norm 0.3 -lora_dropout 0.1 --weight_decay 0.0 --seed 0 --load_in_4bit -use_peft --batch_size 4 --gradient_accumulation_steps 2 41

42.

学習結果 • Training time: 約100時間 for ca. 5 epochs • rの大小によらずほぼ一定 • RTX 3090 x2 (140W出力)で学習 • Adapter modelのサイズ • rにほぼ比例 • r = 8: 0.2 GB • r = 16: 0.8 GB • r = 64: 1.5 GB (Base モデルは16 bitで約140 GB｡いずれも学習データよりも十分に大きなサイズ) 42

43.

Lossの変化 Lossが発散 (量子化の影響?) rの影響は､ほぼなし 43

44.

推論 • Llama2形式のプロンプトテンプレートを使用 • 文章生成の速度は､4単語/秒程度 • 4 bit量子化で処理速度が落ちている可能性 44

45.

タスク: 畠山の所属の学習と推論アブストを読ませた上で､「畠山歓の所属は?」と質問学習データ(抜粋) インフォマティクスを活用した機能性高分子の設計と電荷貯蔵デバイスでの実証東京工業大学物質理工学院 ○畠山歓 <<研究の背景>> 情報科学の躍進データ駆動型科学は実験・観測科学、理論科学、計算科学に続く第四の科学研究の枠組みとして認知されており、情報科学の視点から俯瞰的に知見を集積・解析する基盤も整いつつある。その原動力としてのデジタル化や IoT に加え、いわゆる人工知能の実力が日々高まっている。車の自動運転などで使われる画像認識、マイクの音声認識、言語の自動翻訳などは深層学習アルゴリズムに支えられ、既に欠かせないツールとなった。2022 年には、精度は別として数多の質問に回答可能なチャットシステム生成するアルゴリズム[2]などが注目を集めた。高分子分野におけるインフォマティクスの活用と課題理や技術は各論レベルで多く残されており、諸分野と情報科学の継続的な融合研究が欠かせない。高分子分野においてもインフォマティクスが波及し始めている。情報研究の基礎となるデータベースとしては各グループが独自構築するものに加え、実測データを集めた PolyInfo、MD シミュレーション物性を集積した RadonPy などが国産の共通基盤として提示されている。高分子の構造―物性―製法相関を情報科学の視点で解析する取り組みも増えている。例えばケモインフォマティクス・創薬分野で開発された定量的構造物性相関(Quantitative Structure-Property Relationships: QSPR)と呼ばれる手法が高分子系に拡張され、ポリマーのユニット構造からの物性予測が可能になりつつある[3, 4]。更には、その逆問題(所望の物性を持つ分子の設計)を解くためのアルゴリズムも低分子系を中心に多く提示されている[5, 6]。一方で、既存のインフォマティクス手法をそのまま高分子系へ転用するアプローチの限界も判明してきた。特に問題となっているのが、高分子の高次構造・階層構造をどう取り扱うかである。ポリマー物性の大半は高次構造を介して決まる。そのため、分子のユニット構造のみから物性を直接推定するモデルは予測が外れやすい。AI が高次の階層構造を鑑みないからである。バイオ分野では AlphaFoldが一世を風靡し、アミノ酸配列からタンパク質の高次構造を高精度で予測できるようになった。しかし当該 AI の構築には膨大なタンパク質の三次元データ(>20 万件)などが必須であり、一般的な高分子系への展開にあたっては実測データや計測手法が圧倒的に不足している。更には、高分子構造と物性は製造プロセスやヒステリシスの影響を強く受けるため、データ科学としての取り扱いも難しい。纏めると、高分子は a)原子―バルクスケールの階層状態やプロセスを経て物性が決まる、b)構造同定が難しい、c)分子構造が多様であることが、インフォマティクスを活用する上での基本問題となっている。 45

46.

Llama2のQLoRA ハルシネーション (& 言語の破綻)を観測 r Epo 評価回答 ch 0 0 拒否畠山歓の所属は、本当に存在するかどうかは私にわからないです。私は、インターネット上の情報源に… 8 1 誤答畠山歓は、日本のプロ野球選手であり、現在は読売ジャイアンツに所属しています。… 8 2 誤答畠山歓は、日本のYouTuberであり、所属はない。彼女は個人YouTubeチャンネルを運営してい… 8 4 誤答畠山歓は、日本の YouTube チャンネル「畠山歓の Deep Learning Advent… 32 1 誤答畠山歓は、日本のプロ野球選手であり、現在は、読売ジャイアンツに所属しています。… 32 4 誤答畠山歓の所属は、日本の pop idol girl group AKB … 64 1 誤答畠山歓は、慶應義塾大学の准教授であり、総合政策学部の教員です。… 64 2 誤答畠山歓は、日本のYouTuber、 streamer です。彼女の所属事務所は、Nijisanji… 64 4 誤答畠山歓 is a fictional character from the anime and m… 46

47.

コントロール実験 GPTのプロンプトチューニング GPTのトークン⾧が限られるので､予稿から関連箇所のみをプロンプトに載せて推論 (本来は「関連箇所の抽出」も自動で行うべき (RAG: Retrieval Augmented Generation)｡ … ChatGPT August 3 Version 47

48.

コントロール実験 GPTのプロンプトチューニング回答に成功 • GPT-4 • GPT-3.5 48

49.

タスク: PLLAは海洋で生分解が始まるか? 学習データ(抜粋) (著作権の関係で削除)…、PLLA や PBS のように海洋では分解が始まらない生分解性プラスチックに、…(著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) ポリ乳酸 49

50.

回答 r GPT -4 Epo 評価回答 ch まぐれ?で正解する場合あり｡ - 正解 …そのままのPLLAは海洋での生分解が自然に始まらない可能性が高いです… 0 0 誤答はい、PLLA (Poly-L-lactic acid) は、海洋で生分解が始まる。PLLA は、… 8 1 誤答はい、PLLA は海洋で生分解が始まる。PLLA は、L-lactic acid を Monomer… 8 32 2 誤答はい、PLLA は海洋で生分解が始まる。PLLA は、Lactic acid を Monomer と… は sea begin to decompose in the ocean? Unfortunately, PLLA (Poly-L-lactic acid) is not 4 正解 biodegradable in the classical sense… 1 誤答はい、PLLA は海洋で生分解が始まる。PLLA は、L-lactic acid を Monomer として、熱開環重合により… 32 2 誤答はい、PLLA （ポリ乳酸）は海洋で生分解を始める。… 32 4 誤答はい、PLLA (Poly-L-lactic acid) は海洋で生分解を始める。… 64 1 誤答はい、PLLA は海洋で生分解が始まる。… 64 2 誤答はい、PLLA は海洋で生分解が始まる。… は sea start biodegrading?Thank you for your question! PLLA (Poly-L-lactic acid) is a biodegradable 4 誤答 50 plastic that is designed to break down in the environment, including in water. 8 64

51.

学習が上手くいかない理由(?) • Llama2は英語ネイティブのAI • データ不足 • 一つの知識を､複数の視点や文章から学習する必要があるかもしれない • 例 • • • • PLLAは地中のコンポスト条件では生分解するが､海水は温度が低いため分解しにくい PLLAは海洋中で生分解性を持たない海洋中に放出されたポリ乳酸が海底に沈むと､紫外線による分解や生分解が起こりにくくなる … • 単にepoch数を増やすだけと､特定の文章に過学習するリスク • LoRAの制約 • フルパラメータを学習する訳ではないので､獲得可能な知識量に成約がある可能性 • 単語のembeddingは未学習。Attentionのみをlora rank行列で更新 • その他 51

52.

試行錯誤のまとめ 1. GPT-4はわりと賢く、5-10年スパンでは大変革の可能性? 1. 自動研究もどき 2. 現状では専門知識などに不満 3. 自分専用のAIを作る試行錯誤 1. Llama2などをファインチューニング 1. しかし意外と難しい 2. GPTをプロンプトチューニング 1. 一応は動く 4. タスクの明確・細分化、アプローチの洗練が必要(現在) 1. 現状は何でも出来るという訳ではないので、実際に行いたいタスクの精査やアルゴリズムの最適化が必須 52

53.

全体のまとめ・雑感 • 科学知識や常識を備えたAIのインパクトは大きく､⾧期的には､徐々に研究活動の幅を広げていくはず • これまでも､計測装置などで「自動化」がなされてきた｡今後は合成作業などでも自動化が進むはず..? • 大規模言語モデルの構築やファインチューニングには相応の覚悟が必要 • ラボオートメーションは注目の分野だが、プレイヤーは多くない • 基本的に人手不足 • 「餅は餅屋」の発想に囚われ過ぎると、化学-AI-ロボットの中心領域が手薄に • 化学屋: AIやロボットで何ができて、できないのか、何をどうしたら良いか分からない。 • AI・ロボット屋: 現場の困りごとや、許容されるアプローチが分からない • 研究成果の評価が難しい • 「ロボット&AIを使って､最先端の材料を作りました」という研究が好まれる (トップジャーナルやグラントの重要項目) • しかし実際問題として､ロボット&AIのレベルはそこまで高くないので､まずは学部生(orそれ以下の)レベルの実験ができるようになるための､地道な基礎研究が必要 • しかしそのような基礎研究を高く評価してくれる化学者､材料科学者は必ずしも多くはない • 学生をどのように､誰がトレーニングするか • 人間の時間と能力は有限なので､「化学」､「ロボット」､「AI」を学ぶカリキュラムのベストミックスを探る必要 53