790 Views
September 10, 21
スライド概要
2021/09/10
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
1 DEEP LEARNING JP “Highly accurate protein structure prediction with AlphaFold” [DL Papers] Kensuke Wakasugi, Panasonic Corporation. http://deeplearning.jp/
書誌情報 2 紹介論文 タイトル:Highly accurate protein structure prediction with AlphaFold 著者:Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., ... & Hassabis, D. 合計33人. 所属:DeepMind、ソウル大学校 その他: Nature掲載(2021/07/15公開),引用82件(2021/09/06時点) https://www.nature.com/articles/s41586-021-03819-2 選書理由 AlphaFoldの原型は昨年時点で公開されていたが,その進化版としてAlphaFold2が話題に なっていたため ※本資料の図表は,特に記載がない限り紹介論文より引用したものです Wakasugi, Panasonic Corp.
概要 3 タンパク質に特化した作りこみを行い、CASP14圧勝 CASP14のランキング 正解(緑)と予測(青) ※点線は便宜的に追加 データの前処理 メインのNN 構造の出力 Wakasugi, Panasonic Corp.
CASPとは 4 ■CASP:The Critical Assessment of protein Structure Prediction[1] →タンパク質構造予測のコンペティション.1994年から2年おきに開催.CASP14は2020年開催. タンパク質のフォールディング[2] 入力 出力 ヒトの場合、 20種のアミノ 酸の配列が入力 CASPカテゴリ[1] メイン [1]CASP:https://predictioncenter.org/index.cgi 訪問日2021/09/06 [2]フォールディング 出典: フリー百科事典『ウィキペディア(Wikipedia)』訪問日2021/09/06 カテゴリ 内容 テンプレートベース 既知構造を用いて,構造予測 テンプレートフリー いちから構造予測 接触予測 部分構造の接触を予測 構造生物学への応用 未知構造への応用 精密化 後処理による構造の精緻化? 実験とのハイブリッド 低解像度の実験計測との組み合わせ Wakasugi, Panasonic Corp.
CASP14@2020 5 AlphaFold2が実験精度に到達 実験精度 全体の2/3 ➢ CASP14にてAlphaFold2が大幅に精度向上 ➢ 約90%のタンパク質の構造を正確に予測 高精度 全体の90% [1]より引用 [1]CASP HP:https://predictioncenter.org/index.cgi 訪問日2021/09/06 Wakasugi, Panasonic Corp.
学習データ 6 構造特定されているタンパク質で学習.データのサンプル、アミノ酸残基のクロップなどを前処理多数 ■データベース・検索ツール: • タンパク質立体構造データベース:Protein Data Bank(PDB)、 UniRef90 . PDBのHP上では181969件 https://www.rcsb.org/ (21/09/08) • タンパク質配列データベース:Uniclust30、 MGnify、BFD(2.5 billion protein) • 類似たんぱく質検索ツール:JackHMMER、 HHBlits ■学習(補助)データ: PDB seqs seqs seq→ seqs クラスタリング Template UniRef90 ・・・ Multiple sequence alignment (MSA) 256 124 256 seq→ ・・・ 4 類似度順 学習データとしてはPDBがそのまま使われるが、 MSA、Templateも訓練時に利用される Wakasugi, Panasonic Corp.
学習データ 主に,sequence数 × residue数 × [アミノ酸onehot or 正解構造座標] その他として,該当アミノ酸残基より 左にある欠失の数等が含まれる 7
Self-distillation 8 自己蒸留を使い、2段階で学習。2段階目では3/4が自己蒸留データ Uniclust30 立体構造 ・・・ 立体構造なし seq PDBで学習し 構造予測 予測の自信が 高いものを学習 データとする Wakasugi, Panasonic Corp.
入力データ概観 9 MSA repr. とpair repr.に集約させる ➢ MSA repr. とpair repr.に集約 ➢ Main Evoformerは上記二つを入出力 に持つ→Cycle計算する ➢ extra_MSAはCluteringで外れたも の?とりわけ長い配列などへの対応 Wakasugi, Panasonic Corp.
Evoformer 10 MSA repr.に対するrow/column-wiseの更新と,pair repr.に対する接続関係に基づく更新から構成 • • • • • 基本的にresidualに接続 MSA repr.は row/column-wiseに更新 pair repr.はグラフベース で更新 更新はtransformer方式 +gatingを利用 48block(no shared) で一単位とし,Recycling iterations(shared)を 回す. Wakasugi, Panasonic Corp.
Evoformer row-wise 11 MSA repr. の更新 • row-wiseの更新は途中でpair repr.を加算 column-wise Wakasugi, Panasonic Corp.
Evoformer 12 MSA repr.のtransitionとpair repr.への伝達 transition pair repr.への伝達 Wakasugi, Panasonic Corp.
Evoformer 13 pair repr.の更新 三角形に基づく更新 グラフの始点に基づく更新 Wakasugi, Panasonic Corp.
Evoformer 14 再掲 Wakasugi, Panasonic Corp.
Structure module 15 MSAから、アミノ酸残基とその枝の位置座標を推定 • • • • Single repr.はMSAの一行目. Backborn frameの初期値は原点. 位置座標は原点からの回転と移動で表現 sharedでRecycling iterationsを回す • Frame aligned point error (FAPE). Wakasugi, Panasonic Corp.
Invariant Point Attention 16 グローバルな剛体変位に対し、不変な更新方法を設計 • • アミノ酸残基の位置座標として,回転+移動で表 現したが,この時,物理的にはタンパク質全体の 並進などに対し,不変であってほしい. 更新の際も上記不変性を満たすように設計 Wakasugi, Panasonic Corp.
概要 再掲 17 タンパク質に特化した作りこみを行い、CASP14圧勝 CASP14のランキング 正解(緑)と予測(青) ※点線は便宜的に追加 データの前処理 メインのNN 構造の出力 Wakasugi, Panasonic Corp.
Loss functions 18 位置座標の誤差の他、maskのLossなども利用.fine-tuning時のみ、不正接続を考慮 • • • • • • • FAPE:アミノ酸残基+側鎖の誤差 aux:Structure moduleの途中の構造の誤差など dist:アミノ酸残基間の距離に関する誤差 msa:MSAのマスクした部分に対する予測誤差 conf:予測の自信に関する誤差.(残基個別の誤算由来?) exp resolved:実験的に同定されているかの予測 viol:アミノ残基内の原子間距離、角度、接触に対するペナルティ Wakasugi, Panasonic Corp.
学習パラメータ 19 合計学習時間11日 ※一つの学習データに対し,templateは固定、MSAはresample.推論時にMSAはアンサンブルする Wakasugi, Panasonic Corp.
学習パラメータ 20 CASP14向けの学習.蒸留データ生成を除き約2週間 Wakasugi, Panasonic Corp.
その他 21 全体を通して、細々と工夫がなされている • 学習データの90%と側鎖に関して,誤差を10Åでクリップ • 学習時,活性化関数の出力値を記憶せず,誤差逆伝搬時に再計算することで,メモリーを圧縮. 20.25 GiB → 0.4GiB + 1.7GiB.学習時間は33%増. • 推論時,アミノ酸残基数2180個だと,154.4GiB必要. mini-batch likeなchunkを考慮し0.3 GiBに. Wakasugi, Panasonic Corp.
概要 再掲 22 タンパク質に特化した作りこみを行い、CASP14圧勝 CASP14のランキング 正解(緑)と予測(青) ※点線は便宜的に追加 データの前処理 メインのNN 構造の出力 Wakasugi, Panasonic Corp.
Ablation results・Cycleの効果 23 self-distillationの効果が少し大きいか ■性能値: GDT(Global Distance Test) 正解値に対し予測値が, 所定のカットオフ半径位以内に収まっている割合 ←recycle中の挙動. recycleの進行とともに,正解に近づいている. Wakasugi, Panasonic Corp.
残課題 24 一部のたんぱく質の予測に難あり • • • MSA depthが30以下の場合,性能低下.100くらいで収束. その他,鎖内結合が少ない場合に弱いとのこと templateによるカバー範囲?が少ないと性能低下 Wakasugi, Panasonic Corp.
Discussion 25 暗黙的な物理制約を自然に獲得できている • • • バイオインフォと物理的観点から手法を構築することで,最小限のマニュアル特徴量でも、うまく構造の性質をつかむことができた →水素の結合長などは,陽に含んでいないが,うまく予測できている 欠落した物理的背景もうまく推論できており,intertwined homomers(アミノ酸配列が同一単位の繰り返しで構成され、全体が絡み 合ったもの?)もうまく予測できている(下図) たんぱく質の必須解析ツールになることを期待.※github公開.有志によるブラウザ経由のツールもある 同じグループから,解析よりの論文もすでに発表されている Highly accurate protein structure prediction for the human proteome https://www.nature.com/articles/s41586-021-03828-1 Wakasugi, Panasonic Corp.
感想 26 • Transformerなどを利用しつつ,細部にわたって工夫を凝らしている印象. Lossの組合せ、各種crop、データの前処理・選定、Recycle • ゲノム解析 → タンパク質構造同定 → 機能分析 の流れが加速することが期待される 余談: web記事[3]によると,AlphaFold2のファイル容量は2.2TBらしい RoseTTAFoldという手法もワシントン大学から発表されているとのこと [3]https://www.itmedia.co.jp/news/articles/2107/20/news136.html 訪問日2021/09/09 Wakasugi, Panasonic Corp.