Deep metabolome: Applications of deep learning in metabolomics

826 Views

July 25, 24

#ディープラーニング #メタボロミクス #NMR #MS #スペクトル解析

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.3K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Deep metabolome: Applications of deep learning in metabolomics Rina Nishizawa(Doshisha University) http://deeplearning.jp/ 1

http://deeplearning.jp/

1.Introduction • 機械学習(ML)は,過去15年間,メタボロミクスを含む多くの分野で革命的な力となる人工ニューラルネットワーク(ANN)に基づくML手法であるディープラーニングは, 従来のアルゴリズムでは非常に困難または解決不可能なメタボロミクスの問題にますます適用されている. • MLは,人工知能のより広い領域の一部である.従来のプログラミングでは,定義済みのアルゴリズムがデータに適用され,目的の出力が生成されるが,データの一部と目的の出力の例を使用してモデルをトレーニングし,他のデータに適用して予測を行うことができる.特徴量エンジニアリングに重点を置く従来のML方法とは異なり,ANNとDLはモデルのハイパーパラメータの調整に重点を置いている.これらの方法は,データのエンコードとモデル化の両方を行うため,従来のMLアルゴリズムの大きなボトルネックと潜在的なバイアスの原因が排除される. 2

Landscape of deep learning in metabolomics CNN:メタボロミクスパイプラインにおいて多用される #post_title | DXCEL WAVE (di-acc2.com) 3

https://di-acc2.com/dx/6241/

Landscape of deep learning in metabolomics • 畳み込みニューラルネットワーク(CNN):全てのメタボロミクスデータパイプラインステップで最も頻繁に使用されるDLモデルアーキテクチャであり,これらのモデルは,シフト不変の特性と,モデルの複雑さ(ニューロンの数,隠れ層,フィルター,様々な種類の最適化装置,活性化関数,損失関数など)に応じて変化するメタボロミクスデータへの適用のために,画像処理でよく使用される. 4

DL in NMR spectra processing and interpretation • 核磁気共鳴分光法（NMR）:高速,正確,ほとんどの有機化合物を検出可能,MSと比較して再現性が高いなどの利点があるため,メタボロミクス分析に広く使用されている. • NMRにおいては, 核スピンからなる磁石(核磁化)に注目し,その磁石からの信号を検出する.その信号をFID(自由誘導減衰)と呼ぶ.NMRデータ処理の一般的な手順は,自由誘導減衰（FID）を化学シフトとその強度のマトリックスに変換するデータ前処理から始まり,代謝物の定量化と統計分析の前に,ベースライン補正,正規化,およびアラインメントが実行される.NMRは, 定性的および定量的分析の両方でメタボロミクスに広く使用されており,（1D）1Hおよび13C NMRは,一次代謝物の測定に最も一般的に使用される方法である.測定対象の化合物の構造の複雑さや周囲の環境に応じて,（2D）NMRが最適な手法とみなされることが多い. • データ処理と分析には複数のステップがあるが,メタボロミクスにおけるDLのほとんどの用途は信号処理である.これは,DL に必要なデータ量が大きいため,シミュレーションや合成データの作成が提案されていることが一因である可能性がある.Hansen（2019）は,DNNを使用して2次元以上のNMR実験のためのサンプリング方法である非均一サンプリング（NUS）NMRスペクトルを再構築することを提案した. • スペクトル強度の精度を向上させるために,著者は,一連の8x106 synthetic one dimensional FIDs を備えた長短期記憶（LSTM）ネットワークに触発されたDNNを構築し,DNNモデルを再構築した.このモデルはその後,実験的な 15N-1H HSQC スペクトルを使用して,検証,比較された. • DL ベースのアプローチは,CNN を使用して,完全にシミュレートされた NMR データから小型および大型 (代謝物) および小型タンパク質の高速で高品質の NMR スペクトルを再構築することを提案した現在の現場手法と比較して,同等またはわずかに優れた NMR スペクトル再構築結果を示した. 5

DL in MS spectra processing and interpretation • • • 質量分析（MS）ベースのメタボロミクスは,サンプル内の代謝物の質量対電荷（m/z）比と対応する強度を測定する.生の MSベースのデータ処理は,下流の分析の品質と代謝データの解釈に影響を与える重要なステップである.一般的なMSデータの前処理ステップには,ノイズフィルタリング,ピーク検出,ピークアライメント,正規化が含まれる.データフィルタリングは, 分析ノイズまたはベースラインを移動または削減する.ピーク検出は,測定された分子の実際の信号をノイズから区別する. ピーク（特徴）アライメントは,異なるサンプル間の保持時間シフトを補正するための作業であり,データ正規化はサンプル間の系統的変動を除去する. MSデータの複雑さにより,この重要なデータ前処理ステップとMSベースのメタボロミクスパイプラインの主なボトルネックを解決するためのDLアプローチが提案されている. Risumらの研究はCNNを使用して,生のGC-MSクロマトグラフィーデータから異なる溶出プロファイルを分類した.これらのプロファイルは,最初にPARAllel FACtor analysis2（PARAFAC2）によってモデル化され,その後,CNNモデルによって化学ピーク（代謝物）,ベースライン,およびその他の無関係なピーク領域に区分され,どのピーク成分が選択または統合に最も適しているか決定された.PARAFAC2（Parallel Factor 2）分解は,テンソルの分解手法の一つであり,通常のPARAFACは,3次元以上のテンソルを低ランクなテンソルの和として近似するが,PARAFAC2はより一般的な形状のテンソルに対しても適用可能となる. Melnikovらは,ピーク検出と統合の両方に’peakonly’algorithmを提案した.これは,CNNモデルを使用して生のLC-MSデータをノイズ,化学ピーク,および不確実なピークの領域に分類し,次にそれを使用して統合のピーク境界を決定した.自動化された高精度のピーク分類器は,多くの場合,ドメインの専門家に大きく依存するこれらの重要なステップの効率を大幅に向上させる. Li と Wangらは,GC-MS データのピークアラインメントに LSTM ネットワークを使用する ChromAlignNetを提案した. 彼らは,このアルゴリズムが,追加のパラメータ選択や参照クロマトグラムを必要とせずに,複雑な GC-MS データのアラインメントに適していることを示した.真のクロマトグラフピークをノイズから区別することは特に困難である.DL ベースのピークフィルタリングアプローチは,低信号対ノイズ,多様で不規則なピーク形状,およびベースライン分解能の低さを処理する従来の方法の制限を克服しようとする. 6

DL in MS spectra processing and interpretation • • • 小分子構造の同定は,メタボロミクス（特にMSベースの方法）における最大の課題となっている.通常のアプローチは,参照データベースでの既知化合物の可用性とスペクトル範囲によって制限される. Fanetらは,混合物の生のラマンスペクトルの成分を識別するためにCNNを使用した.事前のスペクトル処理は,変動やエラーの原因となる可能性がある.別のDLベースの構造識別の例では,Fineらは,オートエンコーダーを使用して,フーリエ変換赤外（FTIR）およびMSデータの低次元エンコードを計算し,多層パーセプトロン（MLP）と組み合わせて機能グループを予測した.同様のアプローチが,Lim らによって使用され,化合物の質量スペクトルと化学式に基づいてサブ構造の有無を予測するCNN分類器を使用して候補構造を解明した.Ji らによって発表されたDeepMassは,関連する既知の代謝物との構造類似性に基づいて検索結果を増強することで, 未知の化合物を識別する機会を増やすことで,参照データベースでのスペクトルの利用可能性の制限に対処する.この方法では,生化学反応物と生成物のペアのサブ構造と,その結果得られる質量スペクトル間の構造類似性を活用する.著者らは,KEGG基質-生成物ペア情報を使用して,MS/MSスペクトルから未知-既知代謝物のペア間の構造類似性スコア（MASSスコア）を決定した.次に,著者らは, 未知-既知構造マッチングの別の構造類似性スコアであるフィンガープリント相関スコア（FPスコア）を計算し,推定化合物の最終リストを計算した.AllenやWeiらなどの他の研究では,小分子のMSスペクトルを予測することでスペクトルライブラリの範囲を拡大しようとした. Allenらによる競合的フラグメンテーションモデリング-電子イオン化（CFM-EI）は,分子内の結合切断の傾向とスペクトルピークにつながるフラグメンテーションの可能性を予測するために,確率的マルコフモデルをANNと組み合わせて使用した.一方,Weiらは,小分子のMSスペクトルを予測するためにMLPを使用した.双方向予測モデルであるNeural Electron Ionization Mass Spectrometry (NEIMS)モデルの入力データは,マッピングされた添加剤拡張円形指紋(ECFP)であり,分子内の局所構造を捉え,モデル出力はすべてのm/zビンでの強度のベクトルです.DNNモデルを含むMLアルゴリズムは,イオン移動度MS (IM-MS)から直接取得できるイオン分離の化学的特性である衝突断面積(CCS)値を予測するためにも使用されている.CCSは,未知化合物の同定のための検索空間を絞り込むために活用されている. CCS 情報がまだ限られていることを考慮して,Plante らは,簡略化された分子入力ラインエントリシステム (SMILES) 表現とイオンの種類に基づいて化合物の CCS 値を予測する CNN ベースのモデル (DeepCCS) を提案した.Colby らは, 指定された分子構造の m/z 値と CCS 値を予測し,指定された化学特性から可能な構造を計算する変分オートエンコーダ (VAE) アーキテクチャから構築されたモデル DarkChem を生成した. 7

Biological data interpretation & integration with other ’omics • • 前処理後,メタボロミクスデータは表形式で表現できるため,様々な下流データ分析やMLタスクに適応できる. メタボロミクスデータセットは多くの場合”幅広い”ため,トレーニングと検証に大量のサンプルまたは表現を必要とするMLアプリケーションにとって大きな課題となる.ML モデルの検証では,多くの場合,データ表現をトレーニングセットとテストセットに分割する.その他の課題には,関連した生化学プロセスの結果である可能性のある多くの相関性の高い変数が含まれるが,予測モデリング (多重共線性) の課題となり,重要なバイオマーカーの識別 (特徴選択) が堅牢でなくなる可能性がある.メタボロミクスに特化した ML アプローチには,次元削減 (PCA など) を分類または回帰モデル (PLS-DA,OPLS など) に組み込む方法が含まれる.これらの非 DL 方法は一般に非線形関係をモデル化できず,ノイズや外れ値に非常に敏感である.十分な表現があれば,DL アーキテクチャの表現力を使用してデータの内部表現を構築できる.これにより,非 DL アプローチに比べて優れた予測パフォーマンスが得られる可能性がある.分析要件には,教師あり（回帰と分類）,半教師あり（部分的にラベル付けされたデータ）,教師なし（クラスタリングなど）のタスクの両方が含まれる場合がある.教師ありおよび半教師ありの方法は,サンプルの代謝プロファイルが与えられた場合のサンプルグループ（分類）や連続値（回帰）などの既知の値（ラベル）を予測するために使用される. 教師なしアルゴリズムはラベルを必要とせず,代わりにデータをグループ化（クラスタリング）して探索するための偏りのない方法として使用される. 8

Biological data interpretation & integration with other ’omics • • • • • DL は,メタボロミクスの予測モデリングタスクにおいて,他の ML 手法よりも優れているとは示されていない.10 の臨床メタボロミクスデータセットにわたるバイナリ分類の 2 つの DL アルゴリズムと 6 つの ML アルゴリズムが比較された.テストデータに対する DL ベースの予測では,良好から優れた分類器のパフォーマンスが得られたが,単一の DL または ML アルゴリズムが優れているとは特定できなかった. 別の研究では,Bahado-Singh らは,羊水メタボロミクスとプロテオミクスへの DL 手法の適用を単独で,または超音波,臨床,人口統計情報と組み合わせて評価し,子宮頸管長が短い無症候性の妊婦の産科転帰を予測した.著者らはさらに,DL から得られた分類器のパフォーマンスを,一般的に使用される 6 つの ML 手法の分類器のパフォーマンスと比較した. DL では,他の ML 法と比較して,一貫して高い受信者動作特性曲線下面積 (AUC) の点推定値が達成された. 他の研究では,DLフレームワークの一種であるフィードフォワードネットワークと,公開されているメタボロミクスデータセットに基づいて ER 状態を予測するために広く使用されている 6 つの ML モデルの精度が調査された.DL フレームワークは,メタボロミクスデータに基づいて ER+/ER- の対象を分類するための AUC 点推定値が,他の 6 つの ML アルゴリズムと比較して最も高くなった.重要なことに,DL フレームワークによって識別された最初の隠れ層の生物学的解釈により,従来の ML アルゴリズムでは識別されなかった 8 つの癌関連代謝経路が強化されたことが明らかになった. Wangらは,SMARTSでエンコードされた代謝反応ルールを利用して分子指紋を抽出し,これらの指紋を使用してDLアルゴリズムを採用し,薬物代謝を調べ,最も発生する可能性の高い生化学反応を予測した.DLアルゴリズムのパフォーマンスは,ルールベースの方法SyGMaとも比較された.テストセットでは,DLアルゴリズムは,上位10の一般的な代謝反応に対して78％の精度を達成し,SyGMa法（精度70％）に比べて大幅に改善された. 1件の研究のみが,非標的GS-/LC-MSデータから心臓病3種類,腺癌の状態,およびNOS1AP遺伝子の3つの多型を分類するための多クラス分類にDLを使用した.この研究では,DLは従来のML法よりも優れていなかった.線形回帰については,1件の研究ではアンサンブルDNNアプローチを使用して,NMRで測定された代謝物から魚のサイズを予測した.前述の研究と同様に,魚のサイズと代謝プロファイルの関係をモデル化するためにDLベースの回帰を使用すると,従来のML,ランダムフォレスト（RF）モデルと同等のパフォーマンスを持つモデルが得られた.しかし,著者らは,DL モデルのパフォーマンスの差は,異種および複雑なデータを分析するために使用される DL アーキテクチャの単純さ,またはニューラルネットワークが信号とノイズを分離するために必要なサンプル数の制限が原9 因である可能性があると指摘している.

10.

Future perspectives and beyond • 1.Data integration applications are still lacking • ディープラーニングを使用したマルチオミクスデータ統合に関する出版物はいくつかあるが, メタボロミクスと他のオミクスデータを直接組み合わせた研究は2つあった. – No.01:心血管マウスモデルの一時的なプロテオミクスとメタボロミクスデータを集約し,DLベースのクラスタリング法を使用して,状態に関連する生物学的に関連性のある代謝物のクラスターを特定した. – No.02:大腸菌のマルチオミクスデータの大規模な概要を統合し,その細胞状態を予測した. – マルチオミクスデータ統合の候補として無数のDL法が提案されているが,モデルにうまく組み込まれたメタボロミクスデータセットはほとんどない.この欠陥の理由としては,データ,特に人間中心のデータが利用できないことが考えられる.比較すると,次世代シーケンシングデータのリポジトリであるSequence Read Archive（SRA）データベースには1,000 件のヒト関連研究が登録されているのに対し,Metabolomics Workbenchデータベースには68件のヒト関連プロジェクトが登録されている.結局のところ,これはゲノミクスとメタボロミクスのコスト構造の違いや,ディープラーニングの実践者,メタボロミクスの専門家, その他のオミクス科学者の間での学際的な研究機会の欠如が原因である可能性がある. 10

11.

Future perspectives and beyond • 2.Dealing with the curse of dimensionality 測定された特徴の多さに比べてサンプル数が少ないと,次元の呪い(データの次元数が高次元になると,空間の外側に集中して分布するため,トレーニングに必要なデータが指数関数的に増えてしまう)につながり,予測モデルが過剰適合し,他のデータセットに一般化できなくなる .この制限を克服できる方法には,データ拡張と重み共有などがある. ある研究ではデータ拡張を採用し,元の近赤外線スペクトルをオフセット,傾斜,乗算にランダムな変化を追加して変更し,ニューラルネットワークモデルの堅牢性を向上させた.別の研究では重み共有(2 つ以上のデータセットが同じ CNN アーキテクチャにかけられ,一方のデータセットの次元をもう一方のデータセットに合わせてサイズ変更することなく,トレーニングプロセス中に重みが共有される)が導入された. 他の方法も,高次元低サンプルサイズデータ (HDLSS) 用に特別に設計されている.ゲノミクスデータ用に特別に設計された DeepNeural Pursuit モデルは,サンプルのサブセットからの特徴選択に複数のドロップアウト手法と組み合わせて使用することで過剰適合を減らすことができ,メタボロミクスデータのモデリングにも役立つ. 11

12.

Future perspectives and beyond • 3.Specialized models for metabolomics data are needed ゲノミクスと比較すると,メタボロミクスにおける DL アプリケーションには,メタボロミクスデータの特定の特性を利用する機能が不足している.ゲノミクスとプロテオミクスにおける DL に関するいくつかの包括的なレビューでは,明確に定義された問題ステートメントと方法が示されており,ゲノミクスアプリケーション用に意図的に構築された独自のアプローチが利用されている. ex)genomics:CNN models for DNA/RNA binding motif prediction,functional non-coding sequence variant prediction ←DNA/RNA 配列を CNN アーキテクチャに適したワンホットエンコード表現に変換する. メタボロミクスにおけるDL解析,特に生物学的解釈では,非画像データをCNNに適した画像データに変換することで, 同様の戦略の恩恵を受けることができる. 12

13.

Future perspectives and beyond • 4.Re-evaluating model validation モデルの精度と一般化可能性は,多くの場合,MLアプリケーションの主要な優先事項だが,データ拡張や複数のデータセットの統合を行っても,他の領域と比較すると,メタボロミクスデータには,標準的な機械学習アプリケーションで使用される膨大な数のサンプルがまだ不足している.モデル検証に使用されるk分割交差検証などの標準的な手法の一部でさえ,HDLSS メタボロミクスデータには適用できない場合がある. →ネスト交差検証で訓練されたモデルは,サンプルサイズが小さくても偏りのないパフォーマンスが得られる. 13

14.

Conclusion • DL はメタボロミクスデータ処理および分析パイプラインに大きな影響を与え始めている. • メタボロミクスコミュニティがメタボロミクスデータアプリケーションに特化した新しいDLアーキテクチャの実装と開発を開始するにつれて,NMRベースとMSベースの両方のメタボロミクスにおけるDLの応用は急速に拡大すると予想される. 14