636 Views
July 25, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Deep metabolome: Applications of deep learning in metabolomics Rina Nishizawa(Doshisha University) http://deeplearning.jp/ 1
1.Introduction • 機械学習(ML)は,過去15年間,メタボロミクスを含む多くの分野で革命的な力となる 人工ニューラルネットワーク(ANN)に基づくML手法であるディープラーニングは, 従来のアルゴリズムでは非常に困難または解決不可能なメタボロミクスの問題に ますます適用されている. • MLは,人工知能のより広い領域の一部である.従来のプログラミングでは,定義済み のアルゴリズムがデータに適用され,目的の出力が生成されるが,データの一部と 目的の出力の例を使用してモデルをトレーニングし,他のデータに適用して予測を 行うことができる.特徴量エンジニアリングに重点を置く従来のML方法とは異な り,ANNとDLはモデルのハイパーパラメータの調整に重点を置いている.これらの 方法は,データのエンコードとモデル化の両方を行うため,従来のMLアルゴリズム の大きなボトルネックと潜在的なバイアスの原因が排除される. 2
Landscape of deep learning in metabolomics CNN:メタボロミクスパイプラインにおいて多用される #post_title | DXCEL WAVE (di-acc2.com) 3
Landscape of deep learning in metabolomics • 畳み込みニューラルネットワーク(CNN):全てのメタボロミクスデータパイプラインステップで最も頻繁に使 用されるDLモデルアーキテクチャであり,これらのモデルは,シフト不変の特性と,モデルの複雑さ(ニューロン の数,隠れ層,フィルター,様々な種類の最適化装置,活性化関数,損失関数など)に応じて変化するメタボロミク スデータへの適用のために,画像処理でよく使用される. 4
DL in NMR spectra processing and interpretation • 核磁気共鳴分光法(NMR):高速,正確,ほとんどの有機化合物を検出可能,MSと比較して再現性が高いなどの利点があるた め,メタボロミクス分析に広く使用されている. • NMRにおいては, 核スピンからなる磁石(核磁化)に注目し,その磁石からの信号を検出する.その信号をFID(自由誘導減衰)と 呼ぶ.NMRデータ処理の一般的な手順は,自由誘導減衰(FID)を化学シフトとその強度のマトリックスに変換するデータ前 処理から始まり,代謝物の定量化と統計分析の前に,ベースライン補正,正規化,およびアラインメントが実行される.NMRは, 定性的および定量的分析の両方でメタボロミクスに広く使用されており,(1D)1Hおよび13C NMRは,一次代謝物の測定に 最も一般的に使用される方法である.測定対象の化合物の構造の複雑さや周囲の環境に応じて,(2D)NMRが最適な手法と みなされることが多い. • データ処理と分析には複数のステップがあるが,メタボロミクスにおけるDLのほとんどの用途は信号処理である.これは,DL に必要なデータ量が大きいため,シミュレーションや合成データの作成が提案されていることが一因である可能性があ る.Hansen(2019)は,DNNを使用して2次元以上のNMR実験のためのサンプリング方法である非均一サンプリング (NUS)NMRスペクトルを再構築することを提案した. • スペクトル強度の精度を向上させるために,著者は,一連の8x106 synthetic one dimensional FIDs を備えた長短期記憶 (LSTM)ネットワークに触発されたDNNを構築し,DNNモデルを再構築した.このモデルはその後,実験的な 15N-1H HSQC スペクトルを使用して,検証,比較された. • DL ベースのアプローチは,CNN を使用して,完全にシミュレートされた NMR データから小型および大型 (代謝物) および小 型タンパク質の高速で高品質の NMR スペクトルを再構築することを提案した現在の現場手法と比較して,同等またはわず かに優れた NMR スペクトル再構築結果を示した. 5
DL in MS spectra processing and interpretation • • • 質量分析(MS)ベースのメタボロミクスは,サンプル内の代謝物の質量対電荷(m/z)比と対応する強度を測定する.生の MSベースのデータ処理は,下流の分析の品質と代謝データの解釈に影響を与える重要なステップである.一般的なMSデータ の前処理ステップには,ノイズフィルタリング,ピーク検出,ピークアライメント,正規化が含まれる.データフィルタリングは, 分析ノイズまたはベースラインを移動または削減する.ピーク検出は,測定された分子の実際の信号をノイズから区別する. ピーク(特徴)アライメントは,異なるサンプル間の保持時間シフトを補正するための作業であり,データ正規化はサンプル 間の系統的変動を除去する. MSデータの複雑さにより,この重要なデータ前処理ステップとMSベースのメタボロミクスパ イプラインの主なボトルネックを解決するためのDLアプローチが提案されている. Risumらの研究はCNNを使用して,生のGC-MSクロマトグラフィーデータから異なる溶出プロファイルを分類した.これら のプロファイルは,最初にPARAllel FACtor analysis2(PARAFAC2)によってモデル化され,その後,CNNモデルによって化 学ピーク(代謝物),ベースライン,およびその他の無関係なピーク領域に区分され,どのピーク成分が選択または統合に最 も適しているか決定された.PARAFAC2(Parallel Factor 2)分解は,テンソルの分解手法の一つであり,通常のPARAFACは,3次元 以上のテンソルを低ランクなテンソルの和として近似するが,PARAFAC2はより一般的な形状のテンソルに対しても適用可能 となる. Melnikovらは,ピーク検出と統合の両方に’peakonly’algorithmを提案した.これは,CNNモデルを使用して生のLC-MSデータを ノイズ,化学ピーク,および不確実なピークの領域に分類し,次にそれを使用して統合のピーク境界を決定した.自動化された 高精度のピーク分類器は,多くの場合,ドメインの専門家に大きく依存するこれらの重要なステップの効率を大幅に向上させ る. Li と Wangら は,GC-MS データのピークアラインメントに LSTM ネットワークを使用する ChromAlignNetを提案した. 彼らは,このアルゴリズムが,追加のパラメータ選択や参照クロマトグラムを必要とせずに,複雑な GC-MS データのアライ ンメントに適していることを示した.真のクロマトグラフピークをノイズから区別することは特に困難である.DL ベースの ピークフィルタリングアプローチは,低信号対ノイズ,多様で不規則なピーク形状,およびベースライン分解能の低さを処理 する従来の方法の制限を克服しようとする. 6
DL in MS spectra processing and interpretation • • • 小分子構造の同定は,メタボロミクス(特にMSベースの方法)における最大の課題となっている.通常のアプローチは,参照データ ベースでの既知化合物の可用性とスペクトル範囲によって制限される. Fanetらは,混合物の生のラマンスペクトルの成分を識別するためにCNNを使用した.事前のスペクトル処理は,変動やエラーの原因 となる可能性がある.別のDLベースの構造識別の例では,Fineらは,オートエンコーダーを使用して,フーリエ変換赤外(FTIR)およ びMSデータの低次元エンコードを計算し,多層パーセプトロン(MLP)と組み合わせて機能グループを予測した.同様のアプローチ が,Lim らによって使用され,化合物の質量スペクトルと化学式に基づいてサブ構造の有無を予測するCNN分類器を使用して候補構 造を解明した.Ji らによって発表されたDeepMassは,関連する既知の代謝物との構造類似性に基づいて検索結果を増強することで, 未知の化合物を識別する機会を増やすことで,参照データベースでのスペクトルの利用可能性の制限に対処する.この方法では,生化 学反応物と生成物のペアのサブ構造と,その結果得られる質量スペクトル間の構造類似性を活用する.著者らは,KEGG基質-生成物ペ ア情報を使用して,MS/MSスペクトルから未知-既知代謝物のペア間の構造類似性スコア(MASSスコア)を決定した.次に,著者らは, 未知-既知構造マッチングの別の構造類似性スコアであるフィンガープリント相関スコア(FPスコア)を計算し,推定化合物の最終 リストを計算した.AllenやWeiらなどの他の研究では,小分子のMSスペクトルを予測することでスペクトルライブラリの範囲を拡大 しようとした. Allenらによる競合的フラグメンテーションモデリング-電子イオン化(CFM-EI)は,分子内の結合切断の傾向とスペクトルピークに つながるフラグメンテーションの可能性を予測するために,確率的マルコフモデルをANNと組み合わせて使用した.一方,Weiらは,小 分子のMSスペクトルを予測するためにMLPを使用した.双方向予測モデルであるNeural Electron Ionization Mass Spectrometry (NEIMS)モデルの入力データは,マッピングされた添加剤拡張円形指紋(ECFP)であり,分子内の局所構造を捉え,モデル出力はすべて のm/zビンでの強度のベクトルです.DNNモデルを含むMLアルゴリズムは,イオン移動度MS (IM-MS)から直接取得できるイオン分離 の化学的特性である衝突断面積(CCS)値を予測するためにも使用されている.CCSは,未知化合物の同定のための検索空間を絞り込 むために活用されている. CCS 情報がまだ限られていることを考慮して,Plante らは,簡略化された分子入力ラインエントリシステ ム (SMILES) 表現とイオンの種類に基づいて化合物の CCS 値を予測する CNN ベースのモデル (DeepCCS) を提案した.Colby らは, 指定された分子構造の m/z 値と CCS 値を予測し,指定された化学特性から可能な構造を計算する変分オートエンコーダ (VAE) アー キテクチャから構築されたモデル DarkChem を生成した. 7
Biological data interpretation & integration with other ’omics • • 前処理後,メタボロミクスデータは表形式で表現できるため,様々な下流データ分析やMLタスクに 適応できる. メタボロミクスデータセットは多くの場合”幅広い”ため,トレーニングと検証に大量のサンプルま たは表現を必要とするMLアプリケーションにとって大きな課題となる.ML モデルの検証では,多く の場合,データ表現をトレーニングセットとテストセットに分割する.その他の課題には,関連した 生化学プロセスの結果である可能性のある多くの相関性の高い変数が含まれるが,予測モデリング (多重共線性) の課題となり,重要なバイオマーカーの識別 (特徴選択) が堅牢でなくなる可能性があ る.メタボロミクスに特化した ML アプローチには,次元削減 (PCA など) を分類または回帰モデル (PLS-DA,OPLS など) に組み込む方法が含まれる.これらの非 DL 方法は一般に非線形関係をモデ ル化できず,ノイズや外れ値に非常に敏感である.十分な表現があれば,DL アーキテクチャの表現力 を使用してデータの内部表現を構築できる.これにより,非 DL アプローチに比べて優れた予測パ フォーマンスが得られる可能性がある.分析要件には,教師あり(回帰と分類),半教師あり(部分 的にラベル付けされたデータ),教師なし(クラスタリングなど)のタスクの両方が含まれる場合 がある.教師ありおよび半教師ありの方法は,サンプルの代謝プロファイルが与えられた場合のサン プル グループ(分類)や連続値(回帰)などの既知の値(ラベル)を予測するために使用される. 教師なしアルゴリズムはラベルを必要とせず,代わりにデータをグループ化(クラスタリング)し て探索するための偏りのない方法として使用される. 8
Biological data interpretation & integration with other ’omics • • • • • DL は,メタボロミクスの予測モデリングタスクにおいて,他の ML 手法よりも優れているとは示されていない.10 の臨床メタボロミ クスデータセットにわたるバイナリ分類の 2 つの DL アルゴリズムと 6 つの ML アルゴリズムが比較された.テストデータに対す る DL ベースの予測では,良好から優れた分類器のパフォーマンスが得られたが,単一の DL または ML アルゴリズムが優れている とは特定できなかった. 別の研究では,Bahado-Singh らは,羊水メタボロミクスとプロテオミクスへの DL 手法の適用を単独で,または超音波,臨床,人口統計 情報と組み合わせて評価し,子宮頸管長が短い無症候性の妊婦の産科転帰を予測した.著者らはさらに,DL から得られた分類器のパ フォーマンスを,一般的に使用される 6 つの ML 手法の分類器のパフォーマンスと比較した. DL では,他の ML 法と比較して,一貫し て高い受信者動作特性曲線下面積 (AUC) の点推定値が達成された. 他の研究では,DLフレームワークの一種であるフィードフォワード ネットワークと,公開されているメタボロミクス データ セット に基づいて ER 状態を予測するために広く使用されている 6 つの ML モデルの精度が調査された.DL フレームワークは,メタボロミ クスデータに基づいて ER+/ER- の対象を分類するための AUC 点推定値が,他の 6 つの ML アルゴリズムと比較して最も高くなっ た.重要なことに,DL フレームワークによって識別された最初の隠れ層の生物学的解釈により,従来の ML アルゴリズムでは識別さ れなかった 8 つの癌関連代謝経路が強化されたことが明らかになった. Wangらは,SMARTSでエンコードされた代謝反応ルールを利用して分子指紋を抽出し,これらの指紋を使用してDLアルゴリズムを 採用し,薬物代謝を調べ,最も発生する可能性の高い生化学反応を予測した.DLアルゴリズムのパフォーマンスは,ルールベースの方 法SyGMaとも比較された.テストセットでは,DLアルゴリズムは,上位10の一般的な代謝反応に対して78%の精度を達成し,SyGMa法 (精度70%)に比べて大幅に改善された. 1件の研究のみが,非標的GS-/LC-MSデータから心臓病3種類,腺癌の状態,およびNOS1AP遺伝子の3つの多型を分類するための多ク ラス分類にDLを使用した.この研究では,DLは従来のML法よりも優れていなかった.線形回帰については,1件の研究ではアンサンブ ルDNNアプローチを使用して,NMRで測定された代謝物から魚のサイズを予測した.前述の研究と同様に,魚のサイズと代謝プロファ イルの関係をモデル化するためにDLベースの回帰を使用すると,従来のML,ランダムフォレスト(RF)モデルと同等のパフォーマ ンスを持つモデルが得られた.しかし,著者らは,DL モデルのパフォーマンスの差は,異種および複雑なデータを分析するために使用 される DL アーキテクチャの単純さ,またはニューラル ネットワークが信号とノイズを分離するために必要なサンプル数の制限が原9 因である可能性があると指摘している.
Future perspectives and beyond • 1.Data integration applications are still lacking • ディープラーニングを使用したマルチオミクスデータ統合に関する出版物はいくつかあるが, メタボロミクスと他のオミクスデータを直接組み合わせた研究は2つあった. – No.01:心血管マウスモデルの一時的なプロテオミクスとメタボロミクスデータを集約 し,DLベースのクラスタリング法を使用して,状態に関連する生物学的に関連性のある代謝 物のクラスターを特定した. – No.02:大腸菌のマルチオミクスデータの大規模な概要を統合し,その細胞状態を予測した. – マルチオミクスデータ統合の候補として無数のDL法が提案されているが,モデルにうまく 組み込まれたメタボロミクスデータセットはほとんどない.この欠陥の理由としては,デー タ,特に人間中心のデータが利用できないことが考えられる.比較すると,次世代シーケンシ ングデータのリポジトリであるSequence Read Archive(SRA)データベースには1,000 件のヒト関連研究が登録されているのに対し,Metabolomics Workbenchデータベースに は68件のヒト関連プロジェクトが登録されている.結局のところ,これはゲノミクスとメタ ボロミクスのコスト構造の違いや,ディープラーニングの実践者,メタボロミクスの専門家, その他のオミクス科学者の間での学際的な研究機会の欠如が原因である可能性がある. 10
Future perspectives and beyond • 2.Dealing with the curse of dimensionality 測定された特徴の多さに比べてサンプル数が少ないと,次元の呪い(データの次元数が高次元になると,空間の外側に 集中して分布するため,トレーニングに必要なデータが指数関数的に増えてしまう)につながり,予測モデルが過剰適 合し,他のデータセットに一般化できなくなる .この制限を克服できる方法には,データ拡張と重み共有などがある. ある研究ではデータ拡張を採用し,元の近赤外線スペクトルをオフセット,傾斜,乗算にランダムな変化を追加して変 更し,ニューラル ネットワークモデルの堅牢性を向上させた.別の研究では重み共有(2 つ以上のデータセットが同じ CNN アーキテクチャにかけられ,一方のデータ セットの次元をもう一方のデータ セットに合わせてサイズ変更する ことなく,トレーニング プロセス中に重みが共有される)が導入された. 他の方法も,高次元低サンプルサイズデータ (HDLSS) 用に特別に設計されている.ゲノミクス データ用に特別に設 計された DeepNeural Pursuit モデルは,サンプルのサブセットからの特徴選択に複数のドロップアウト手法と組み 合わせて使用することで過剰適合を減らすことができ,メタボロミクス データのモデリングにも役立つ. 11
Future perspectives and beyond • 3.Specialized models for metabolomics data are needed ゲノミクスと比較すると,メタボロミクスにおける DL アプリケーションには,メタボロミクス データの特定の特性 を利用する機能が不足している.ゲノミクスとプロテオミクスにおける DL に関するいくつかの包括的なレビューで は,明確に定義された問題ステートメントと方法が示されており,ゲノミクスアプリケーション用に意図的に構築さ れた独自のアプローチが利用されている. ex)genomics:CNN models for DNA/RNA binding motif prediction,functional non-coding sequence variant prediction ←DNA/RNA 配列を CNN アーキテクチャに適したワンホット エンコード表現に変換する. メタボロミクスにおけるDL解析,特に生物学的解釈では,非画像データをCNNに適した画像データに変換することで, 同様の戦略の恩恵を受けることができる. 12
Future perspectives and beyond • 4.Re-evaluating model validation モデルの精度と一般化可能性は,多くの場合,MLアプリケーションの主要な優先事項だが,データ拡張や複数のデータ セットの統合を行っても,他の領域と比較すると,メタボロミクスデータには,標準的な機械学習アプリケーションで 使用される膨大な数のサンプルがまだ不足している.モデル検証に使用されるk分割交差検証などの標準的な手法の 一部でさえ,HDLSS メタボロミクスデータには適用できない場合がある. →ネスト交差検証で訓練されたモデルは,サンプルサイズが小さくても偏りのないパフォーマンスが得られる. 13
Conclusion • DL はメタボロミクスデータ処理および分析パイプラインに大きな影響を与え始めている. • メタボロミクスコミュニティがメタボロミクスデータアプリケーションに特化した新しいDLアー キテクチャの実装と開発を開始するにつれて,NMRベースとMSベースの両方のメタボロミクスに おけるDLの応用は急速に拡大すると予想される. 14