13.8K Views
May 18, 24
スライド概要
2024年5,6月頃に行う諸々の発表のためのスライドです。
5月17日にプレプリントサーバーに投稿した、ロボット化学実験 with GPT-4に関する解説も含まれています(スライド後半)。
https://doi.org/10.26434/chemrxiv-2024-zfwxg
イントロ部分は、筆者の主観がかなり入っています。
化学・材料・データ・AI・ロボット
大規模言語モデル研究の最近の潮流(?) と 実験研究への展開可能性について Kan Hatakeyama 2024/5/18ver
トピック • 大規模言語モデル研究の最近の潮流(?) • 大きな流れについての考察 • 専門家を超えるAIは出現するか? • 実験研究への展開可能性について • どこまで思考できるか? • ロボット実験との連携
専門家を超えるAIは 出現するか? *主観に基づく見解です 3
現在のAI: 主に一般知識 を学んだモデル 例 ・ChatGPT: 専門事項での回答精度に課題 ・Llama-3: 一千万件超のHuman annotatedデータを学習* *https://huggingface.co/blog/llama3 (件数を鑑みると、多くは一般人からのフィードバックと推測される) 4
開発中のAI: 専門家から学習中(の様相) 5
例1: 高収入 AIアルバイト https://newspicks.com/news/9967449/body/?ref=news-body_2953320 6
例2: 特定の専門分野に特化した、カスタム GPT-4の構築プログラム ビッグテックは、専門に強いAIを 作るためのノウハウを本格的に 蓄積するフェーズに入った模様 https://openai.com/form/custom-models いくつかの論文の利益相反の項などからも、 各分野の専門家がOpenAIなどと 組み始めていることが読み取れる 7
本気で専門を学んだAIは「強い」(?) AlphaGeometry (言語モデル+記号推論エンジン)が数学オリンピックの幾何問題で金メダル級の実力 Thang Luong et al., Nature volume 625, pages 476–482 (2024) 8
(蛇足: AIの勉強法) AI自身が自動生成した データを人間が評価して教育する Mixtralと呼ばれるオープンモデルによって自動生成したQ&Aの例 → Good! → ??? ・特定の専門領域の学習データ量が少なかったとしても、AIを使ってデータを水増しして学習することは可能 (Hatakeyama et al., 2023, arXiv:2312.03360など) ・つまるところ、当面は、データを生成のための計算資源(札束)とマンパワーの勝負…(?) 9
ここまでのまとめ • 大規模言語モデルの学習フェーズが変化(?) • これまで: 一般的な事項に回答できるようになるための訓練がメイン • いま現在: トップレベルの専門家からフィードバックに基づく訓練 • どのように現在のAIを使うべきか? • ◯: AIが得意なタスクを探して活用する • △: 専門的で高度なことを相談する (↑まだ勉強中) 10
(化学分野で) 大規模言語モデルは どこまで思考できるか? 11
化学分野でのGPT-4の実力 化学知識の回答 大学院の教科書レベルなら可能? 化合物の認識精度 高校ー学部生レベル? データ解析 学部レベルなら可能? 予測・提案 当たるも八卦、当たらぬも八卦 (→ 専門力が不足) K. Hatakeyama-Sato et al., STAM: Methods 2023 12
大規模言語 モデルへの 化学的思考 の教示と 物性予測 共同研究 with 三内先生 @ 京大 13
背景 人間 vs. 既存のAI 人間: 教科書などを学習 (実験 + 結果 + 説明) ・科学的に正しい思考様式が身につきやすい AI: データの羅列を学習 (実験+結果) ・科学理論を学ばないので、ローカルルールの信奉など、誤った思考様式に陥る恐れ → ありえない提案や解釈不能な予測を引き起こす主要因 → 小規模データセットからの予測が本質的に困難 14
今回のタスク: 融点データベースの学習と予測 Jean-Claude Bradley Open Melting Point Dataset 融点 分子構造(名称) 分子構造(SMILES) • データベースには分子構造+物性のみ記録 • 「科学者の読み物」としては不適格 (なぜそのような結果になったのかについての理由がない) 15
アイデア 言語モデル自身に、実験結果を引き起こす「理由」を考察させる 16
スキーム GPT-4による「理由」の自動生成 1.1万件の構造ー物性データについて、GPT-4で「理由」を生成 User: トルエンの沸点が110℃になる理由を考えてください 構造 GPT-4: 理由 物性 沸点: 110℃ トルエンの沸点が約110度である理由を考えるには、分子の構造とその物理的性質に 注目する必要があります。トルエンの分子式はC7H8で、ベンゼン環にメチル基が付 いた構造をしています。この特徴的な構造により、トルエンはいくつかの重要な物理 的性質を持っています。 1.分子間力: トルエン分子は、分子間におけるファンデルワールス力によって互いに 引き付けられます。これらの力は、分子のサイズや形状に依存し、トルエンの場合、比 較的大きな分子量とベンゼン環の存在により、これらの力は中程度の強さです。これ が沸点を上昇させる要因の一つです。 2.極性: トルエンは非極性分子ですが、ベンゼン環の電子密度とメチル基の存在によ り、わずかな極性を持ちます。これにより、分子間にはわずかな引力が働きますが、 これは沸点に大きな影響を与えるほどのものではありません。 3.水素結合: トルエン分子は水素結合を形成しません。水素結合は沸点を大幅に高め る力ですが、トルエンには適した水素と電気陰性原子の組み合わせがないため、この 効果はありません。… 関連研究: 主に数学系のタスクで、理由を自動生成するアイデア(chain-of-thought fine tuning)が2023年頃から出現 (arXiv:2312.02179、arXiv:2305.14045など) 17
ハイライト わずか10件のデータ学習でも予測可能 予測値 予測値 • 10件の分子構造ー融点のデータを学習させた後、未知の数十件の化合物の融点を予測 • 「理由」を一緒に学習させた言語モデルにおいて、予測性能の向上を観測(左図) • 科学理論を考慮しない従来手法(Random forest)では、性能が低下(右図) 実測の融点 (℃) 言語モデル (Mixtral-8x7B) 実測の融点 (℃) 普通の機械学習モデル (Random forest + RDKitの分子記述子) 18
7bモデルの予測プロセスの例(日訳) • 1,4-dibromo-2-nitrobenzene • 実測: 84℃ • 予測: 70℃ 融点5.5℃の基本的なベンゼン構造から出発して、 ベンゼン環の1位と4位に2個の臭素原子を導入することにより、分子量が大幅に増加し、ロンドン分散力が増大 し、融点が大幅に上昇すると推定できる。 それぞれの臭素は、その大きさと分散力の増加により、推定+30℃寄与すると考えられる。 ニトロ基は強い電子吸引基であり、分子間力、特に双極子-双極子相互作用に寄与する。また、ニトロ基は酸素原 子の存在により水素結合を形成※し、融点を上昇させる可能性がある。しかし、ニトロ基による融点上昇の寄与 は、一般的に臭素原子による融点上昇の寄与よりも小さい。従って、ニトロ基による+20℃の上昇の見積もりは 妥当である。 ベンゼンの基本融点に対するこれらの調整を組み合わせると、基本ベンゼン(+5.5)、臭素置換(2x+30)、ニトロ 基(+20)となる※。 ※筆者注. 5.5 + 2x30 + 20 = 85.5℃(≒実測)なので、思考過程の妥当性は高そうである。しかし予測値は70なので、今回の予測誤差は足し算のミ スに由来している。また、考察中にある水素結合の記述は本化合物では不適切。 19
GPT-4を超える精度も実現可能 予測誤差(MSE) ただし、プロの化学者(with ネット検索)には、まだまだ到底及ばない GPT-4の性能 (MSE=4519) 細かな条件 ・オープン系モデルは16bitで利用 ・5件の例題でプロンプトチューニング ・Llama2-70bのみ、VRAMの都合上、4 bitで動作させ、2件の 例題でプロンプトチューニング 訓練データの件数 20
ロボット実験 との連携 ChemRxiv 2024 10.26434/chemrxiv-2024-zfwxg 21
沈殿重合による ポリアミド酸微粒子の合成 • 二種類のモノマーを混ぜることで、生成物のポリ マーが微粒子状の沈殿として析出 • 燃料電池用触媒の原料などに利用可能 *Y. Nabae et al., J. Mater. Chem. A, 2014, 2, 11561. ほか *Refより転載 22
実験の様子 分注装置 made by 高石先生(東北大) 23
GPT-4のつかいどころ • その1: 実験ノートの自動生成 実験概要 &セットアップ (by 今回は人間) 実験の 観察記録 by GPT-4 実験ログ&撮影画像 by ロボット 人間よりも緻密な 実験ノートを生成!? 24
GPT-4のつかいどころ • その2: 反応液の経時観察と定量化 指示 時間の経過に伴う濁度の変化を0~5のスケールで 定量化し、表データとして出力しなさい 出力 日常的な実験観察の(半)定量化※ (24時間の見守りが可能に?) (Run 1) (Run 2) ※注 ・出力された表データをもとに筆者がグラフを作成。 ・Humanは、人手による評価を表す。 ・人間は写真以外の角度からも反応液を観察していたので、Run 1の 方が濁度が高いことを知っている(→予測誤差の主要因) 25
実験結果 予想に反し、人手での実験のほうが、きれいな微粒子が得られた Run Experiment by Monomer amount Average diameter [𝜇m]b [mmol]a Standard deviation [𝜇m]b 1 Robot 0.2 0.4 0.06 a Total amount of the solution was 40 mL. 1' Human 0.2 0.5 0.05 b Estimated by SEM. 2 Robot 0.1 0.5 0.07 c 2' Human 0.1 0.6 0.04 3 Robot 0.05 0.5 0.2 seconds. It was estimated from photograph 3' Human 0.05 0.4 0.03 images. Turbidity of the reaction mixture at 740 26
GPT-4のつかいどころ • その3: 実験の反省 指示 何がダメだったのかを、 実験時の様子から振り返りなさい 出力(日本語訳) 画像に基づくと、人間とロボットの実験における攪拌器上のガラス 瓶の配置には顕著な違いがあります。 1.配置と位置合わせ: 1. 人間 (a): 瓶は攪拌器の中心により近く配置され、位置が 整っているように見え、より正確な配置が示唆されます。 2. ロボット (b): 瓶はやや中心からずれており、傾いている ため、配置の精度が低いことが示されています。 2.安定性: 1. 人間 (a): より正確な配置は攪拌中の安定性を確保し、一 貫した混合とより良い製品品質に繋がります。 2. ロボット (b): ずれた配置は不安定さを引き起こし、不均 一な攪拌と混合のムラが生じる可能性があり、最終製品 の品質に影響を与える可能性があります。 3.視覚的フィードバック: 1. 人間 (a): 人間はリアルタイムで配置を視覚的に評価し、 調整することができ、実験に最適な条件を確保します。 2. ロボット (b): ロボットは人間のような細かい視覚フィー ドバックや調整能力に欠けている可能性があり、最適で はない配置になることがあります。 これらの要因から、人間による実験はガラス瓶を攪拌器上により正 確かつ安定して配置できたため、一貫性のある効果的な混合が行わ れ、より良い製品を生み出したと考えられます。 27
本研究のポイント • 大規模言語モデルの使いどころが見えてきた • AIによる丁寧な実験記録と根気強い観察などに強み • 従来は、「夜に反応を仕込んで、朝来てみたら、いつの間にか反応液の様子が変わってい た」という、ざっくりした実験記録が大半だった(i.e., 生物的制約に由来) • データ科学&ロボットと現場のギャップが埋まり始めた • 実験者の腕やノウハウに関わる因子を記述し、制御できるかもしれない • 日常的な実験観察や、サンプル瓶を置く場所なども含めてデータ化 • 分子構造ープロセスー物性の関係性を包括的に記録したデータベースの構築 • 強い現場 x 最先端AIという生存戦略が現実味を帯びてきた • 真に重要なデータは、日々現場で生産され続け、ネットには公開されない • IT業界が入りづらい「泥臭い領域」は当面、なくならない可能性が高い(次項) 28
今後の展開(?) 数年以内? (AIが成長) 10ー30年? (ハードウェアの進化は「遅い」) 人間を中心に判断・作業 AIの支援下、人間とロボットが協業 ムーアの法則等に 支えられながら、 AIは今後も成長 • AIが現場のノウハウや情報を本格的に学ぶ (人間よりもAIの方が「賢くなる」可能性がある) • しかしロボットよりもヒト(ヒューマンアクチュエータ/ センサ)の方が遥かに器用で安価なので、細々とした 作業は当面、人間が担う方が合理的 • ヒト・AI・ロボットが入り混じった状態のため、全てに 精通した組織でないと、各々の強みを活かせない AIロボが労働 人間不要? 29