497 Views
October 12, 23
スライド概要
遺伝子重複は新規機能を持ったタンパク質の形成のための主要な進化機構である。本講義では、遺伝子重複のDDCモデルを紹介した後、新機能獲得に関するサイトの予測手法とその応用、またネットワーク解析によるduplicabilityの解析など、遺伝子重複に関連する情報解析について話す。
R-CCS 計算科学研究推進室
計算生命科学の基礎10 2023年10⽉11⽇ タンパク質の機能の進化と その情報解析 藤 博幸 関⻄学院⼤学 ⽣命環境学部⽣物科学科
本⽇の予定 1. 2. 3. 4. 5. 6. タンパク質 タンパク質の機能 情報解析に使⽤するタンパク質のデータ 配列解析 構造解析 ネットワーク解析
図1.2 DNA、RNA、タンパク質の生合成とセントラルドグマ 5’…ATGGAACATCTGACT…3’ 3’…TACCTTGTAGACTGA…5’ DNA 転写 5’…AUGGAACAUCUGACU…3’ 逆転写 RNA リボソーム 翻訳 タンパク質 M E H V T… DNA複製 RNA複製
http://www.wdic.org/w/SCI/ペプチド結合 タンパク質は20種類のアミノ酸がペプチド結合で つながった紐状の分⼦ 各アミノ酸を1⽂字で表現すると、⼀つのタンパク質 は、20種類のアルファベットで構成された⽂字列 として表すことができる。
アミノ酸 Asp (D) Glu (E) アスパラギン酸 グルタミン酸 側鎖 H N H アミノ基 R 主鎖 C OH H C Tyr (Y) チロシン Ser (S) セリン 解離性アミノ酸 Lys (K) リジン Arg (R) アルギニン His (H) ヒスチジン Thr (T) スレオニン O カルボキシ基 基本構造 Gly (G) グリシン Ala (A) アラニン Val (V) バリン Leu (L) イソロイシン Ile (I) ロイシン 親水性 アミノ酸 Asn (N) アスパラギン アミノ酸は ”大文字” で表記する 疎水性アミノ酸 Met (M) メチオニン p.4, 3 Cys (C) システイン Pro (P) プロリン Phe (F) フェニルアラニン Trp (W) トリプトファン Gln (Q) グルタミン
http://www.wdic.org/w/SCI/ペプチド結合 タンパク質は20種類のアミノ酸がペプチド結合で つながった紐状の分⼦ 各アミノ酸を1⽂字で表現すると、⼀つのタンパク質 は、20種類のアルファベットで構成された⽂字列 として表すことができる。
リゾチームのアミノ酸配列 >LYC_HUMAN ヒト Lysozyme C MKALIVLGLVLLSVTVQGKVFERCELARTLKRLGMDGYRGISLANWMCLAKWESGYNTRATNYNAGDRST DYGIFQINSRYWCNDGKTPGAVNACHLSCSALLQDNIADAVACAKRVVRDPQGIRAWVAWRNRCQNRDVR QYVQGCGV >LYC1_BOVIN ウシ Lysozyme C 1 MKALIILGFLFLSVAVQGKVFERCELARTLKKLGLDGYKGVSLANWLCLTKWESSYNTKATNYNPGSEST DYGIFQINSKWWCNDGKTPNAVDGCHVSCSELMENDIAKAVACAKQIVSEQGITAWVAWKSHCRDHDVSS YVEGCTL >LYC_CHICK ニワトリ Lysozyme C MRSLLILVLCFLPLAALGKVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQATNRNTDGSTD YGILQINSRWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVSDGNGMNAWVAWRNRCKGTDVQA WIRGCRL >LYC2_ONCMY マス Lysozyme C II MRAVVVLLLVAVASAKVYDRCELARALKASGMDGYAGNSLPNWVCLSKWESSYNTQATNRNTDGSTDYGI FQINSRYWCDDGRTPGAKNVCGIRCSQLLTADLTVAIRCAKRVVLDPNGIGAWVAWRLHCQNQDLRSYVA GCGV >LYC_BOMMO カイコ Lysozyme MQKLIIFALVVLCVGSEAKTFTRCGLVHELRKHGFEENLMRNWVCLVEHESSRDTSKTNTNRNGSKDYGL FQINDRYWCSKGASPGKDCNVKCSDLLTDDITKAAKCAKKIYKRHRFDAWYGWKNHCQGSLPDISSC >LYSP_DROME ハエ Lysozyme P MKAFLVICALTLTAVATQARTMDRCSLAREMSKLGVPRDQLAKWTCIAQHESSFRTGVVGPANSNGSNDY GIFQINNKYWCKPADGRFSYNECGLSCNALLTDDITNSVKCARKIQRQQGWTAWSTWKYCSGSLPSINSC F
FASTA フォーマット >LYC_HUMAN ヒト Lysozyme C MKALIVLGLVLLSVTVQGKVFERCELARTLKRLGMDGYRGISLANWMCLAKWES GYNTRATNYNAGDRSTDYGIFQINSRYWCNDGKTPGAVNACHLSCSALLQDNIA DAVACAKRVVRDPQGIRAWVAWRNRCQNRDVRQYVQGCGV “>” で始まる注釈⾏(通常、配列名)と 改⾏後に、1⽂字表記で塩基あるいはアミノ酸の配列を記す書式を FASTAフォーマットといい、分⼦系統解析ばかりでなく、バイオインフォ マティクス分野では配列の書式としてよく使われている。 前ページのように、⼀つのファイルに複数のFASTAフォーマットの 配列がおさめられている場合は、マルチFASTAフォーマットとよぶ。 p.9,81
配列データベース 塩基配列データベース INSDC (International Nucleotide Sequence Database Collaboration) ⽶国 NCBIのGenBank 欧州 EMBL-EBIのENA ⽇本 国⽴遺伝学のDDBJ 3者が連携して国際的に維持管理 タンパク質のデータベース UniProt 以下の3者のコンソーシアムとして統合 スイスバイオインフォマティクス研究所(SIB)のSwiss-Prot EBIのTrEMBL ジョージタウン⼤学のPIR
塩基配列データベースのエントリ : GenBank形式 (タンパク質の場合: GenPept形式 )
LOCUS
DEFINITION
AH003092
6907 bp
DNA
linear
ROD 01-AUG-2016
Nannospalax ehrenbergi clone pSCr-1 crystallin (CRY-alpha-A) gene,
complete cds, alternatively spliced.
ACCESSION
AH003092 M17247 M17248 M17249 Y00464
アクセッション番号
VERSION
AH003092.2
キーワード
KEYWORDS
alpha-crystallin; crystallin.
SOURCE
Nannospalax ehrenbergi (Ehrenberg's mole-rat)
ORGANISM Nannospalax ehrenbergi
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Euarchontoglires; Glires; Rodentia; Myomorpha;
Muroidea; Spalacidae; Spalacinae; Nannospalax.
REFERENCE
1 (bases 2161 to 2880; 3841 to 4080; 5592 to 6431)
AUTHORS
Hendriks,W., Leunissen,J., Nevo,E., Bloemendal,H. and de Jong,W.W.
TITLE
The lens protein alpha A-crystallin of the blind mole rat, Spalax
ehrenbergi: evolutionary change and functional constraints
JOURNAL
Proc. Natl. Acad. Sci. U.S.A. 84 (15), 5320-5324 (1987)
PUBMED
3474658
:
FEATURES
Location/Qualifiers
source
1..6907
/organism="Nannospalax ehrenbergi"
/mol_type="genomic DNA”
:
CDS
join(2349..2537,2736..2804,3859..3981,5715..5924)
コード領域
/gene="CRY-alpha-A"
/codon_start=1
/product="alpha-A-ins-crystallin"
/protein_id="AAA66165.1"
/translation="MDVTIQHPWFKHALGPFYPSRLFDQFFGQGLFEYDLLPFLSSTI
SPYYRQTLLRTVLDSCISELMTHRWFVPHQPHAGNPENNPIKVRSDRDKFVIFLDVKH
アミノ酸配列
FSPEDLTVKVLEDFVEIHGKHNERQDDHGYISREFHRRYRLPSSVDQSALSCSLSADG
(ins あり)
MLTFSGPKVQSGLDAGHSERAIPVSQEEKPSSAPLF"
CDS
join(2349..2537,3859..3981,5715..5924)
コード領域
/gene="CRY-alpha-A"
/codon_start=1
/product="alpha A-crystallin"
/protein_id="AAA66166.1"
/translation="MDVTIQHPWFKHALGPFYPSRLFDQFFGQGLFEYDLLPFLSSTI
SPYYRQTLLRTVLDSCISEVRSDRDKFVIFLDVKHFSPEDLTVKVLEDFVEIHGKHNE
アミノ酸配列
RQDDHGYISREFHRRYRLPSSVDQSALSCSLSADGMLTFSGPKVQSGLDAGHSERAIP
(ins なし)
VSQEEKPSSAPLF”
:
ORIGIN
1 bp upstream of EcoRI site.
1 gaattctctc ttgtggagca ggccttaaat ccaagcagaa agtggtttct cacccccata
:
2281 gctccccact ccagcggccc ctgcccgact caccaccagc cttcagtccc tgcgttgcca
2341 cgtggaacat ggacgtcacc atccagcacc cctggttcaa gcacgccctg ggtcccttct
2401 atcccagccg gctgttcgac cagtttttcg gccagggcct ctttgagtac gatctgctgc
2461 ccttcctgtc ctccaccatc agcccctatt accgccagac cctcctccgc acagtgctgg
2521 actcctgcat ctctgaggta agatgcggct ggtcagaggg gctcagggcc ttggagaggt
2581 cagctaggga ttcctgaggg gccacctgcc tcgtccctgc ctctcccagc ctcggaccct
イントロン1
2641 ggaccctgct gcggctgggt ggaagtccgc ccgcccagcc gactgggaat ggggtttgaa
2701 gagaaggccc gactgctgtc ttttcctccc atcagctcat gacccatagg tggtttgtac
2761 cgcaccaacc acatgctgga aaccccgaga acaaccccat caaggcaagt ttcgtggcaa
2821 aggcgagcgt cctggacccg ctgctccctg tgcttttctg ccgggtgcgg gtgcggtgat
:
イントロン2
3781 accatgctgt tgcccctccc acccccgttc ctggagctgt tagcctctgg gagctccaca
3841 tgagggtttg ggtttcaggt ccgatccgac cgggacaaat ttgtcatctt cctggatgtg
3901 aagcacttct ctcctgagga cctcaccgtg aaggtgctgg aggacttcgt ggagatccat
3961 ggcaagcaca acgagaggca ggtgagctcg agtgggacct cacactgcgg gcatcctgta
4021 tcccttgaga ggaagcaagg ggaggtggca ctggctcagc tgctcctgct agaaggagcc
:
イントロン3
5641 ggtctttttc cagtgtggga tggcagtcct gtgtctcatc atgcctgacc atgctcttcc
5701 ctggttgtcc ccaggacgac cacggctaca tttcccgtga gttccaccgc cgataccgcc
5761 tgccttccag tgtggaccag tctgcccttt cctgctccct gtctgcagat ggcatgctga
5821 ccttctctgg ccccaaagtc caatctggcc tggatgctgg ccacagtgaa agggccattc
5881 ctgtgtctca ggaggagaag cccagctcgg cacccttgtt ctaagcaggc ctcaccttag
5941 ctgccccctg aggccactga cccatcaagc tcagggacca cagcaaaggg tcttccttcc
:
6841 acacacacgc atacacatga cacatatact actgcgcatg cacagcacac acacactgat
6901 caccaca
//
配列の定義
(学名、遺伝子名)
学名(生物資料の由来)
分類
文献
(一部省略)
(一部省略)
(一部省略)
(一部省略)
イントロン
1-ins-2
(一部省略)
(一部省略)
(一部省略)
アミノ酸配列 ヒト・リゾチームのアミノ酸配列 (一文字表記) >LYC_HUMAN MKALIVLGLVLLSVTVQGKVFERCELARTL KRLGMDGYRGISLANWMCLAKWESGYNTRA TNYNAGDRSTDYGIFQINSRYWCNDGKTPG AVNACHLSCSALLQDNIADAVACAKRVVRD PQGIRAWVAWRNRCQNRDVRQYVQGCGV 148 残基 ヒト・リゾチームの立体構造 立体構造
タンパク質⽴体構造の階層性 立体構造をとる二本以上のペプチド鎖 から形成される構造 四次構造 (具体例:ヘモグロビンは4つのペプチド鎖が集まり機 能 (αサブユニット×2+βサブユニット×2) 三次構造 立体構造 立体構造 ドメイン構造 二次構造 一次構造 αへリックス βシート アミノ酸配列 ターン ループ
⼆次構造 規則的な水素結合のパターンを持つ αへリックス βシート 4残基先のアミノ酸と水素結合を作る 配列上離れた位置にアミノ酸と水素結合を作る 『MOLECULAR CELL BIOLOGY』より引用
三次構造 内側 : 疎水性残基が集まる 外側 : 親水性残基が多い ドメイン : ヘモグロビンα鎖 独自の安定な構造をとる ・比較的安定な構造をとる単位 ・三次構造より (たいていの場合)小さな構造 ・ドメインは、様々な三次構造 中に見られる 二次構造の組み合わせで、ある形に折りたたまれたもの。 一本のポリペプチドからなる。
四次構造 サブユニット 多量体の呼び方 1本 2本 3本 4本 5本 6本 : モノマー : ダイマー : トリマー : テトラマー : ペンタマー : ヘキサマー ヘモグロビン(2W6V) 生体内で機能しているタンパク質の多くは、四次構造を形成している 複数のポリペプチドによって形成される立体構造
⽣体⾼分⼦の⽴体構造を扱ったデータベース • 網羅的に立体構造情報を収集しているもの ヨーロッパ 欧州バイオインフォマティクス研究所(EBI) ⾼分⼦構造データベース (MSD-EBI) PDBe RSCB PDB PDBj ⽇本 ⼤阪⼤学蛋⽩質研究所 wwPDB アメリカ 構造バイオインフォマティ クス 研究共同体 (RCSB)
⽣体⾼分⼦の⽴体構造を扱ったデータベース • PDBファイルの中身 HEADER TRANSFERASE 30-AUG-04 1XBB ボディ TITLE CRYSTAL STRUCTURE OFヘッダー THE SYK TYROSINE KINASE DOMAIN WITH TITLE 2 GLEEVEC HEADER 物質の分類名、日付、ファイル名 COMPND MOL_ID: 1; COMPND KINASE SYK; タンパク質名 COMPND 2 MOLECULE: TYROSINE-PROTEIN COMPND 3 CHAIN: A; SOURCE 物質が由来する生物名 COMPND 4 SYNONYM: SPLEEN TYROSINE KINASE; COMPND 5 EC: 2.7.1.112;AUTHOR 座標を作成した著者名 COMPND 6 ENGINEERED: YES REVDAT データが登録された日 SOURCE MOL_ID: 1; SOURCE 2 ORGANISM_SCIENTIFIC: JRNLHOMO SAPIENS; 文献情報 SOURCE 3 ORGANISM_COMMON: HUMAN; REMARK 実験条件などに関する情報 SOURCE 4 ORGANISM_TAXID: 9606; SOURCE 5 GENE: SYK; SEQRES アミノ酸配列 SOURCE 6 EXPRESSION_SYSTEM: SPODOPTERA FRUGIPERDA; HET アミノ酸以外の原子 SOURCE 7 EXPRESSION_SYSTEM_COMMON: FALL ARMYWORM; SOURCE 8 EXPRESSION_SYSTEM_TAXID: HELIX 7108; αーヘリックスに関する情報 SOURCE 9 EXPRESSION_SYSTEM_CELL_LINE: SF9; SHEET βーシートに関する情報 SOURCE 10 EXPRESSION_SYSTEM_VECTOR_TYPE: BACULOVIRUS KEYWDS GLEEVEC, STI-571, IMATINIB, SYK, SPLEEN TYPROSINE KINASE, TURN βーターンに関する情報 KEYWDS 2 ACTIVE CONFORMATION, STRUCTURAL GENOMICS, STRUCTURAL SSBOND ジスルフィド結合に関する情報 KEYWDS 3 GENOMIX, TRANSFERASE EXPDTA X-RAY DIFFRACTION ATOM 個々のアミノ酸の原子の座標 AUTHOR V.L.NIENABER,S.ATWELL,J.M.ADAMS,J.BADGER,M.D.BUCHANAN, HETATM AUTHOR 2 I.K.FEIL,K.J.FRONING,X.GAO,J.HENDLE,K.KEEGAN,B.C.LEON, アミノ酸以外の原子の座標 AUTHOR 3 H.J.MULLER-DEICKMANN,B.W.NOLAND,K.POST,K.R.RAJASHANKAR, CONTACT 原子の結合に関する情報 AUTHOR 4 A.RAMOS,M.RUSSELL,S.K.BURLEY,S.G.BUCHANAN (省略) END ファイルの終了
⽣体⾼分⼦の⽴体構造を扱ったデータベース • 座標データ ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 N CA C O CB N CA C O CB CG CD1 CD2 CE1 CE2 CZ OH 原⼦の名前 アミノ酸の名 前 チェインの名 前 1原子 VAL VAL VAL VAL VAL TYR TYR TYR TYR TYR TYR TYR TYR TYR TYR TYR TYR A A A A A A A A A A A A A A A A A 363 363 363 363 363 364 364 364 364 364 364 364 364 364 364 364 364 22.741 21.557 20.954 19.737 21.883 21.798 21.310 20.929 21.735 22.349 22.619 21.725 23.772 21.959 24.019 23.101 23.330 -1.397 11.729 1.00 33.32 -0.831 11.024 1.00 32.13 -1.757 9.943 1.00 31.73 -1.906 9.845 1.00 30.94 0.552 10.391 1.00 33.45 -2.389 9.135 1.00 29.77 -3.035 7.928 1.00 27.96 -4.485 8.157 1.00 26.43 -5.274 8.650 1.00 29.31 -2.901 6.808 1.00 28.13 -1.461 6.442 1.00 28.30 -0.751 5.638 1.00 30.33 -0.815 6.893 1.00 30.80 0.588 5.285 1.00 31.59 0.523 6.541 1.00 32.22 1.208 5.733 1.00 32.48 2.524 5.389 1.00 36.29 温度因⼦ y座標 x座標 アミノ酸残基番 号 N C C O C N C C O C C C C C C C O 占有率 z座標 1残基 1残基 原⼦
mmCIF形式 現在のPDBのフォーマット 旧PDBフォーマットは1⾏80⽂字の 固定幅であったため、原⼦番号、 残基番号、チェイン番号などの ⽂字数に制限があり、100個以上 チェインからなるような巨⼤な タンパク質複合体の構造を取り扱え なくなった。
可視化ツールが必要 • 分子グラフィクス RasMol http://www.umass.edu/microbio/rasmol/ PyMol http://pymol.sourceforge.net/ Chime http://www.mdli.com/downloads/downloadable/index.jsp PDBj viewer http://www.pdbj.org/PDBjViewer/index_j.html MolScript http://www.avatar.se/molscript/ • 粗視化 コンタクトマップ ラマチャンドランプロット TOPS http://www.tops.leeds.ac.uk/ LIGPLOT http://www.biochem.ucl.ac.uk/bsm/ligplot/ligplot.html
チロシンキナーゼ の構造がPyMolの ウィンドウに表示 される 赤いドットは水
タンパク質の機能 ⽣化学的機能 vs Biochemical Function 酵素活性、リガンド結合能 ⽣物学的機能 Biological Function 記憶、発⽣、⾏動 X X
相互作⽤データベース STRING IntAct BioGRID
STRING https://string-db.org クリック
BioGRID https://thebiogrid.org ダウンロードされるファイルには ⼆項関係の形で相互作⽤を記述 タンパク質A タンパク質B タンパク質A タンパク質F タンパク質C タンパク質D ...
進化的視点からのタンパク質の機能解析 相同タンパク質の⽐較解析
相同性 (homology) 共通の起源から分岐してきた遺伝⼦の間の関係性 祖先遺伝⼦ 分岐 相同
アデロバシレウス (Adelobasileus cromptoni 2種類の分岐 (1)種分化 (speciation) ) 2億2500万年前 遺伝⼦ A 7500万年前 遺伝⼦ A” 遺伝⼦ Aʼ (2)遺伝⼦重複 (gene duplication) 重複した時には同じコピー
分⼦進化 (molecular evolution) 進化の過程で配列が変化すること 向上、複雑化などの意味は持たない (分⼦進化だけでなく、進化⾃体も同じ)
分子進化の基本ステップ 点変異・挿入変異・欠失変異 (a) 点変異 (point mutation) 5’...ATGGTGCTGTC...3’ 5’...ATGGTACTGTC...3’ (b) 挿入変異 (insertion) (c) 欠失変異 (deletion) 5’...ATGGTGCTGTC...3’ 5’...ATGGTGCTGTC...3’ 5’...ATGGTGAGCATACTGTC...3’ 5’...ATGTC...3’
種分化に伴う相同タンパク質の形成
種分化 10 20 30 40 50 human VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSH 祖先型の生物 a ::: ::.:.::::::.:.:..::::::::::: :::::::::::::.:: mouse VLSGEDKSNIKAAWGKIGGHGAEYGAEALERMFASFPTTKTYFPHFDVSH 10 20 30 40 50 60 70 80 90 100 human GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKL 突然変異 ::::::::::::::::..:..:.::.:.:::::::::::::::::::::: mouse GSAQVKGHGKKVADALASAAGHLDDLPGALSALSDLHAHKLRVDPVNFKL 60 70 80 90 100 種分化 110 120 130 140 human LSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR ::::::::::.: ::.::::::::::::::::::::::::: mouse LSHCLLVTLASHHPADFTPAVHASLDKFLASVSTVLTSKYR 110 120 130 140 a 進化 20/141 a 生物の種分化を反映したタンパク質の増加
突然変異(mutation)と置換(substitution) 突然変異は集団中の個体に⽣じる ※ 進化に寄与するのは体細胞ではなく⽣殖系列 の細胞に⽣じる突然変異
突然変異(mutation)と置換(substitution) 有害な突然変異は、集団から除去される (負の選択 or 純化淘汰)
突然変異(mutation)と置換(substitution) 有利な突然変異は急速に集団中に広まり 集団全体がその突然変異遺伝⼦で置き換 えられる (正の選択)
突然変異(mutation)と置換(substitution) 中⽴な突然変異の頻度はランダムに浮動し 確率的に集団中に固定 (選択的に中⽴) 固定にいたる途中の過程 多型(polymorphism)
タンパク質をコードする遺伝⼦における 分⼦レベルの変化の⼤部分は中⽴的 中⽴な変化 ⾃然選択
遺伝⼦重複に伴う相同タンパク質の形成
遺伝⼦重複 古典的な遺伝⼦重複の描像 重複した時には同じコピー 多くの変異は、偽遺伝⼦を⽣じ、まれに新機能を持った遺伝⼦が⽣じる タンパク質が新たな機能を獲得する進化機構
2R WGD 仮説 2 round whole genome duplication 脊椎動物のゲノムは進化の初期の段階で2回の全ゲノム重複を起こしたという 仮説 ⼤野乾により「Evolution by Gene Duplication」(1970)で提唱された。 Susumu Ohno (1928 - 2000) Evolution by Gene Duplication (1970)
DDC (duplication, degeneration, complementation) model 3つのシナリオよりなる Gene A Gene A' 遺伝⼦重複 (gene duplication) duplication Non-functionalization Gene A (pseudogenization) Neofunctionalization Subfunctionalization Non-processed pseudogene A (偽遺伝子) Function A Gene A Gene B Gene A' Gene A'' 古典的モデルと同じ Functions A + B Functions A' + A'' = A
Phase I of DDC モデル ⼩さなボックスが発現制御領域を表す。⼤きなボックスはコード領域を表す。 Phase Iにおいて、subfunctionalizationでは、制御領域のいくつか壊れ、重複したコピーは 相補的な発現パターンを⽰し、1コピーの時の機能を維持できる。 Neofunctionalizationにおいても、制御領域が変化することが知られてている。
Phase II of DDC モデル Force et al. (1999) Neofunctionzalitionまたsubfunctinalizationで⽣じたコピーの持つ制御領域の中の冗⻑な領域 が壊れ、発現パターンの分化が進む。 Pseufogenizationは、Phase IIには関係しない
祖先遺伝子 遺伝子重複による α、βの形成 ヒト、ラット の種分化 paralogous ヒト ラット ヒト ヘモグロビンα ラット ヘモグロビンβ orthologous
オーソロガス (orthologous) 種分化に伴い分岐した相同な関係 相同 (homologous) パラロガス (paralogous) 遺伝⼦重複によって分岐した相同な関係
何故、相同タンパク質の解析をするのか? “A major objective of the analysis of protein sequences is to discover which share a common ancestor. Determining an evolutionary relationship is useful because it generally implies a common or similar function.” Hubbard,T.J.P. (1997) Current Opinion in Str. Biol. 7, 190-193.
相同配列の⽐較解析の⼿順 第⼀ステップ:相同配列の収集 第⼆ステップ:相同配列のマルチプルアラインメント 第三ステップ:アラインメントからの機能・構造・進化的 情報の抽出
相同配列の⽐較解析の⼿順 第⼀ステップ:相同配列の収集 第⼆ステップ:相同配列のマルチプルアラインメント 第三ステップ:アラインメントからの機能・構造・進化的 情報の抽出
データベース検索 配列A 配列B (機能既知) 配列DB 問い合わせ配列 配列C 配列D (構造既知) 問い合わせ配列に類似した 配列を配列DBの中から検索 類似配列の中で、構造や機能既知の ものがあれば、それらと同様の構造 あるいは機能を有するものと推測
発癌遺伝⼦ v-sis 配列データベース ⾎⼩板由来成⻑因⼦ (PDGF) の配列決定 v-sis gene Simian Sarcoma Virus サル⾁腫ウイルス v-sis は、成⻑因⼦としての情報を 送り続けることで癌化を引き起こす。
GPCRs Monomer function Peptides Amines Nucleic acids Coupling with trimeric G-protein Conformation change Secondary messenger b a G-protein activation g l n a n tio g i S uc d s n a r T
GPCRs • Membrane proteins • Bind neurotransmitters (physiologically active peptides, amines, nucleic acids, etc). • Ligand binding to GPCRs causes their conformation changes. • It leads to several signal transductions conjugated with trimeric G-proteins.
GPCRs • About 1000 genes in human genome • Target for ~45% of clinically marketed drugs • Divided into 5 classes based on sequence similarity (Class A-E, the other) • Atomically resolved structure in class A GPCR: Bovine Rhodopsin
既知のGPCRの配列 ゲノムにコード されているタンパク質 との類似性を検索 ヒト・ゲノム データベース 既知のGPCRの配列 創薬ターゲット としての検討 新規のGPCRの配列
GPCR以外のターゲット探索の例 中外製薬(株) 中外分⼦医学研究所 ドラッグデザインのターゲットとしての 新規サイトカイン及び新規サイトカイン受容体 のゲノム配列、EST配列からの探索 「ゲノム創薬」 個別化医療とゲノムデータマイニング 野村仁 著 サイエンス社 (2005)
BLAST (Basic Local Alignment Search Tool) https://blast.ncbi.nlm.nih.gov/Blast.cgi
相同配列の⽐較解析の⼿順 第⼀ステップ:相同配列の収集 第⼆ステップ:相同配列のマルチプルアラインメント 第三ステップ:アラインメントからの機能・構造・進化的 情報の抽出
2. 配列アラインメント (sequence alignment) 進化の過程でのINDELを考慮しながら、相同な配列の間の 対応する塩基(あるいはアミノ酸)を同じ位置に並べる操作 あるいは、その操作によってできたもの。 INDELに対応してギャップ(gap)とよばれる空記号を挿⼊し 位置をずらして、塩基やアミノ酸を対応づける。 通常、動的計画法(dynamic programing algorithm)や、その バリエーションを⽤いて、配列間の類似度が⾼くとなるように アラインメントが構築される。 アラインメントの原理は次回
マルチプルアラインメント (multiple alignment) 分⼦系統樹を構築するには、まず複数本の相同配列 についてのマルチプルアラインメントを作成する。
リゾチームのアミノ酸配列 >LYC_HUMAN ヒト Lysozyme C MKALIVLGLVLLSVTVQGKVFERCELARTLKRLGMDGYRGISLANWMCLAKWESGYNTRATNYNAGDRST DYGIFQINSRYWCNDGKTPGAVNACHLSCSALLQDNIADAVACAKRVVRDPQGIRAWVAWRNRCQNRDVR QYVQGCGV >LYC1_BOVIN ウシ Lysozyme C 1 MKALIILGFLFLSVAVQGKVFERCELARTLKKLGLDGYKGVSLANWLCLTKWESSYNTKATNYNPGSEST DYGIFQINSKWWCNDGKTPNAVDGCHVSCSELMENDIAKAVACAKQIVSEQGITAWVAWKSHCRDHDVSS YVEGCTL >LYC_CHICK ニワトリ Lysozyme C MRSLLILVLCFLPLAALGKVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQATNRNTDGSTD YGILQINSRWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVSDGNGMNAWVAWRNRCKGTDVQA WIRGCRL >LYC2_ONCMY マス Lysozyme C II MRAVVVLLLVAVASAKVYDRCELARALKASGMDGYAGNSLPNWVCLSKWESSYNTQATNRNTDGSTDYGI FQINSRYWCDDGRTPGAKNVCGIRCSQLLTADLTVAIRCAKRVVLDPNGIGAWVAWRLHCQNQDLRSYVA GCGV >LYC_BOMMO カイコ Lysozyme MQKLIIFALVVLCVGSEAKTFTRCGLVHELRKHGFEENLMRNWVCLVEHESSRDTSKTNTNRNGSKDYGL FQINDRYWCSKGASPGKDCNVKCSDLLTDDITKAAKCAKKIYKRHRFDAWYGWKNHCQGSLPDISSC >LYSP_DROME ハエ Lysozyme P MKAFLVICALTLTAVATQARTMDRCSLAREMSKLGVPRDQLAKWTCIAQHESSFRTGVVGPANSNGSNDY GIFQINNKYWCKPADGRFSYNECGLSCNALLTDDITNSVKCARKIQRQQGWTAWSTWKYCSGSLPSINSC F
マルチfasta形式 >gi|443546|pdb|7HVP|A Chain A, Protease Of Human Immunodeficiency Virus 1 PQITLWQRPLVTIRIGGQLKEALLDTGADDTVLEEMNLPGKWKPKMIGGIGGFIKVRQYDQIPVEIXGHK AIGTVLVGPTPVNIIGRNLLTQIGXTLNF > HIV2 protease (NP_663784 REGION: 523..603) vtayiedqpv evlldtgadd sivagielgd nytpkivggi ggfintkeyk nveikvlnkr vratimtgdt pinifgrnil t > simian immunodeficiency virus SIV-mnd 2 (NP_758887 REGION: 72..166) slwnrpttvv eiegqkveal ldtgaddtvi kdldlkgnwk pqiiggiggs invkqffnck vtiagkttha svlvgptpvn ivgrnvlkkl gctln >gi|4389337|pdb|1BAI|A Chain A, Rous Sarcoma Virus Protease LAMTMEHKDRPLVRVILTNTGSHPVKQRSVYITALLDTGADDTVISEEDWPTDWPVMEAANPQIHGIGGG IPVRKSRDMIELGVINRDGSLERPLLLFPLVAMTPVNILGRDCLQGLGLRLTNL >gi|224443|prf||1104339A MoMuLV protease TLDDQGGQGQEPPPEPRITLKVGGQPVTFLVDTGAQHSVLTQNPGPLSDKSAWVQGATGGKRYRWTTDRK VHLATGKVTHSFLHVPDCPYPLLGRDLLTKLKAQIHFEGSGAQVMGPMGQPLQVL 1. 配列は、スペースがあいていても構わないことに注意 2. Mafftは⼤⽂字も、⼩⽂字も区別せずに配列を処理してくれるが、ソフトによっては ⼤⽂字あるいは⼩⽂字しか処理できない場合があるかもしれない
MAFFTによるマルチプルアラインメント mafftは宮⽥研究室で開発され、加藤和貴によって継続的に 開発されているマルチプルアラインメントのフリーソフトウェア 海外の多くの研究機関で利⽤されている。 Web上でのアラインメントサービスに加え、ダウンロードして⾃⾝の PC上で利⽤できる。Mac, Windows, Linuxなど様々なOSに対応している ここでは、web serviceとして公開されているmafftを利⽤する。 https://mafft.cbrc.jp/alignment/software/
リゾチームのアミノ酸配列 マルチプル・アラインメント: Clustal形式 CLUSTAL W (1.81) multiple sequence alignment ヒト ウシ マス ニワトリ カイコ ハエ LYC_HUMAN LYC1_BOVIN LYC2_ONCMY LYC_CHICK LYC_BOMMO LYSP_DROME -MKALIVLGLVLLSVTVQGKVFERCELARTLKRLGMDGYRGISLANWMCLAKWESGYNTR -MKALIILGFLFLSVAVQGKVFERCELARTLKKLGLDGYKGVSLANWLCLTKWESSYNTK ----MRAVVVLLLVAVASAKVYDRCELARALKASGMDGYAGNSLPNWVCLSKWESSYNTQ -MRSLLILVLCFLPLAALGKVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQ -MQKLIIFALVVLCVGSEAKTFTRCGLVHELRKHGFEENL---MRNWVCLVEHESSRDTS MKAFLVICALTLTAVATQARTMDRCSLAREMSKLGVPRDQ---LAKWTCIAQHESSFRTG : . . .:. ** *. : *. : :* * : **. * LYC_HUMAN LYC1_BOVIN LYC2_ONCMY LYC_CHICK LYC_BOMMO LYSP_DROME ATNYNAGDRSTDYGIFQINSRYWCNDGKTPGAVNACHLSCSALLQDNIADAVACAKRVVR ATNYNPGSESTDYGIFQINSKWWCNDGKTPNAVDGCHVSCSELMENDIAKAVACAKQIVS ATNRN-TDGSTDYGIFQINSRYWCDDGRTPGAKNVCGIRCSQLLTADLTVAIRCAKRVVL ATNRN-TDGSTDYGILQINSRWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVS KTNTN-RNGSKDYGLFQINDRYWCS--KGASPGKDCNVKCSDLLTDDITKAAKCAKKIYK VVGPANSNGSNDYGIFQINNKYWCKPADGRFSYNECGLSCNALLTDDITNSVKCARKIQR .. . *.***::***.::**. . . * : *. *: ::: : **::: LYC_HUMAN LYC1_BOVIN LYC2_ONCMY LYC_CHICK LYC_BOMMO LYSP_DROME DPQGIRAWVAWRNRCQNRDVRQYVQGCGV E-QGITAWVAWKSHCRDHDVSSYVEGCTL DPNGIGAWVAWRLHCQNQDLRSYVAGCGV DGNGMNAWVAWRNRCKGTDVQAWIRGCRL R-HRFDAWYGWKNHCQGS--LPDISSC-Q-QGWTAWSTWK-YCSGS--LPSINSCF: ** *: * . : .*
相同配列の⽐較解析の⼿順 第⼀ステップ:相同配列の収集 第⼆ステップ:相同配列のマルチプルアラインメント 第三ステップ:アラインメントからの機能・構造・進化的 情報の抽出
第三ステップ:アラインメントからの 機能・構造・進化的情報の抽出 モチーフの抽出:機能部位予測 重複遺伝⼦の機能差を決定しているサイトの予測 マルチプルアラインメント 分⼦系統解析 ⽴体構造モデリング 機械学習の特徴ベクトル ...
リゾチームのアミノ酸配列 マルチプル・アラインメント: Clustal形式 CLUSTAL W (1.81) multiple sequence alignment ヒト ウシ マス ニワトリ カイコ ハエ LYC_HUMAN LYC1_BOVIN LYC2_ONCMY LYC_CHICK LYC_BOMMO LYSP_DROME -MKALIVLGLVLLSVTVQGKVFERCELARTLKRLGMDGYRGISLANWMCLAKWESGYNTR -MKALIILGFLFLSVAVQGKVFERCELARTLKKLGLDGYKGVSLANWLCLTKWESSYNTK ----MRAVVVLLLVAVASAKVYDRCELARALKASGMDGYAGNSLPNWVCLSKWESSYNTQ -MRSLLILVLCFLPLAALGKVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQ -MQKLIIFALVVLCVGSEAKTFTRCGLVHELRKHGFEENL---MRNWVCLVEHESSRDTS MKAFLVICALTLTAVATQARTMDRCSLAREMSKLGVPRDQ---LAKWTCIAQHESSFRTG : . . .:. ** *. : *. : :* * : **. * LYC_HUMAN LYC1_BOVIN LYC2_ONCMY LYC_CHICK LYC_BOMMO LYSP_DROME ATNYNAGDRSTDYGIFQINSRYWCNDGKTPGAVNACHLSCSALLQDNIADAVACAKRVVR ATNYNPGSESTDYGIFQINSKWWCNDGKTPNAVDGCHVSCSELMENDIAKAVACAKQIVS ATNRN-TDGSTDYGIFQINSRYWCDDGRTPGAKNVCGIRCSQLLTADLTVAIRCAKRVVL ATNRN-TDGSTDYGILQINSRWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVS KTNTN-RNGSKDYGLFQINDRYWCS--KGASPGKDCNVKCSDLLTDDITKAAKCAKKIYK VVGPANSNGSNDYGIFQINNKYWCKPADGRFSYNECGLSCNALLTDDITNSVKCARKIQR .. . *.***::***.::**. . . * : *. *: ::: : **::: LYC_HUMAN LYC1_BOVIN LYC2_ONCMY LYC_CHICK LYC_BOMMO LYSP_DROME DPQGIRAWVAWRNRCQNRDVRQYVQGCGV E-QGITAWVAWKSHCRDHDVSSYVEGCTL DPNGIGAWVAWRLHCQNQDLRSYVAGCGV DGNGMNAWVAWRNRCKGTDVQAWIRGCRL R-HRFDAWYGWKNHCQGS--LPDISSC-Q-QGWTAWSTWK-YCSGS--LPSINSCF: ** *: * . : .*
Clustal形式アラインメント下段のシンボルの意味 “*”では,完全に保存 “:”では,強い物理化学的類似性のあるグループで保存 “.”では,弱い類似性のあるグル―プで保存 強い弱いの基準は,PAM250 ⾏列において,アミノ酸間のスコアが0.5よ り⼤きいか,0.5以下かで分けている
スコア・テーブル 多くのアミノ酸置換は保存的 Dayhoffのスコアテーブル G A S T P L I M V D N E Q F Y W K R H C G 5 1 1 0 -1 -4 -3 -3 -1 1 0 0 -1 -5 -5 -7 -2 -3 -2 -3 A S T P L I M V D N E Q F Y W K R H C 2 1 1 1 -2 -1 -1 0 0 0 0 0 -4 -3 -6 -1 -2 -1 -2 2 1 1 -3 -1 -2 -1 0 1 0 -1 -3 -3 -2 0 0 -1 0 3 0 -2 0 -1 0 0 0 0 -1 -3 -3 -5 0 -1 -1 -2 6 -3 -2 -2 -1 -1 -1 -1 0 -5 -5 -6 -1 0 0 -3 6 2 4 2 -4 -3 -3 -2 2 -1 -2 -3 -3 -2 -6 5 2 4 -2 -2 -2 -2 1 -1 -5 -2 -2 -2 -2 6 2 -3 -2 -2 -1 0 -2 -4 0 0 -2 -5 4 -2 -2 -2 -2 -1 -2 -6 -2 -2 -2 -2 4 2 3 2 -6 -4 -7 0 -1 1 -5 2 1 1 -4 -2 -4 1 0 2 -4 4 2 -5 -4 -7 0 -1 1 -5 4 -5 -4 -5 1 1 3 -5 9 7 0 -5 -4 -2 -4 10 0 -4 -4 0 0 17 -3 2 -3 -8 5 3 0 -5 6 2 -4 6 -3 12 (1) G,A,S, T, P: small hydrophilic residues (2) L, I, M, V: hydrophobic residues Dayhoffコード (3) D, N, E, Q: nagatively charged residues and the relatives (4) F, Y, W: aromatic residues (5) K, R, H: positively charged residues (6) C: Cys
Multiple Alignment of Lysozyme Amino Acid Sequences CLUSTAL W (1.81) multiple sequence alignment Human Bovine Trout Chikcen Silkworm Fruitfly LYC_HUMAN LYC1_BOVIN LYC2_ONCMY LYC_CHICK LYC_BOMMO LYSP_DROME -MKALIVLGLVLLSVTVQGKVFERCELARTLKRLGMDGYRGISLANWMCLAKWESGYNTR -MKALIILGFLFLSVAVQGKVFERCELARTLKKLGLDGYKGVSLANWLCLTKWESSYNTK ----MRAVVVLLLVAVASAKVYDRCELARALKASGMDGYAGNSLPNWVCLSKWESSYNTQ -MRSLLILVLCFLPLAALGKVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQ -MQKLIIFALVVLCVGSEAKTFTRCGLVHELRKHGFEENL---MRNWVCLVEHESSRDTS MKAFLVICALTLTAVATQARTMDRCSLAREMSKLGVPRDQ---LAKWTCIAQHESSFRTG : . . .:. ** *. : *. : :* * : **. * LYC_HUMAN LYC1_BOVIN LYC2_ONCMY LYC_CHICK LYC_BOMMO LYSP_DROME ATNYNAGDRSTDYGIFQINSRYWCNDGKTPGAVNACHLSCSALLQDNIADAVACAKRVVR ATNYNPGSESTDYGIFQINSKWWCNDGKTPNAVDGCHVSCSELMENDIAKAVACAKQIVS ATNRN-TDGSTDYGIFQINSRYWCDDGRTPGAKNVCGIRCSQLLTADLTVAIRCAKRVVL ATNRN-TDGSTDYGILQINSRWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVS KTNTN-RNGSKDYGLFQINDRYWCS--KGASPGKDCNVKCSDLLTDDITKAAKCAKKIYK VVGPANSNGSNDYGIFQINNKYWCKPADGRFSYNECGLSCNALLTDDITNSVKCARKIQR .. . *.***::***.::**. . . * : *. *: ::: : **::: LYC_HUMAN LYC1_BOVIN LYC2_ONCMY LYC_CHICK LYC_BOMMO LYSP_DROME DPQGIRAWVAWRNRCQNRDVRQYVQGCGV E-QGITAWVAWKSHCRDHDVSSYVEGCTL DPNGIGAWVAWRLHCQNQDLRSYVAGCGV DGNGMNAWVAWRNRCKGTDVQAWIRGCRL R-HRFDAWYGWKNHCQGS--LPDISSC-Q-QGWTAWSTWK-YCSGS--LPSINSCF: ** *: * . : .*
モチーフ: short stretch of conserved amino acid sequences When several motifs are found by the sequence comparison, the sequences are closely located in the 3 dimensional structure. A B A C (a) catalytic center of enzyme C B C B A (b) Interface of complex A B C (c) hydrophobic core
Characterization of Retroviral Proteases - Development of HIV Protease Inhibitor -
CLUSTAL format alignment by MAFFT L-INS-i (v7.130b) gi|443546|pdb|7 HIV2 simian gi|4389337|pdb| gi|224443|prf|| PQITLW----------QRPLVTIRIGGQL----------KEALLDTGADDTVLEEMNLPG --------------------VTAYIEDQP----------VEVLLDTGADDSIVAGIELGD ---SLW----------NRPTTVVEIEGQK----------VEALLDTGADDTVIKDLDLKG LAMTMEHK--------DRPLVRVILTNTGSHPVKQRSVYITALLDTGADDTVISEEDWPT ---TLDDQGGQGQEPPPEPRITLKVGGQP----------VTFLVDTGAQHSVLTQNPGPL : . *:****:.::: gi|443546|pdb|7 HIV2 simian gi|4389337|pdb| gi|224443|prf|| KW------KPKMIGGIGGFIKVRQ---YDQIPVEIXGHKAIGTVL----VGPTPVNIIGR NY------TPKIVGGIGGFINTKE---YKNVEIKVLNKRVRATIM----TGDTPINIFGR NW------KPQIIGGIGGSINVKQ---FFNCKVTIAGKTTHASVL----VGPTPVNIVGR DWPVMEAANPQ-IHGIGGGIPVRKSRDMIELGVINRDGSLERPLLLFPLVAMTPVNILGR SD------KSAWVQGATGGKRYRW---TTDRKVHLATGKVTHSFLH---VPDCPYPLLGR . .. : * * : : : ..: . * :.** gi|443546|pdb|7 HIV2 simian gi|4389337|pdb| gi|224443|prf|| NLLTQIGXTLN------------------F NILT-------------------------NVLKKLGCTLN------------------DCLQGLGLRLT-----------------NL DLLTKLKAQIHFEGSGAQVMGPMGQPLQVL : *
レトロウイルス・プロテアーゼのコンセンサス配列 (Hydrophobic)-Asp-Thr-Gly-(Small Hydrophilic)
Proteases with the Sequences Similar to Retroviral Protease Motif Input: Retroviral Protease Motif Amino Acid Sequence Database
Retroviral Protease califlower mosaic virus copi-like element 17.6 fruit fly Moloney murine leulkaemia virus human T-cell leukaemia virus Rous sarcoma virus LHCFV-DTGASLCIAS LKCLI-DTGSTVNMTS VTFLV-DTGAQHSVLT IEALL-DTGADMTVLP ITALL-DSGADITIIS Aspartic Acid Protease (C-terminal domain) pepsinogen(human) CQAIV-DTGTSLLTGP pepsinogen(pig) CQAIV-DTGTSLLTGP prochymosin(cow) CQAIL-DTGTSKLVGP penisilopepsin FSGIA-DTGTTLLLLP renin (mouse) CEVVV-DTGSSFISAP renin(human) CLALV-DTGASYISGS Aspartic Acid Protease (N-terminal domain) pepsinogen(human) DFTVVFDTGSSNLWVP pepsinogen(pig) DFTVIFDTGSSNLWVP prochymosin (cow) EFTVLFDTGSSDFWVP penusilopepsin TLNLNFDTGSSDFWVP renin (mouse) TFKVMFDTGSANLWVP renin (human) TFKVVFDTGSSNVWVP モチーフ配列は、酸性プロテアーゼの活性中⼼に類似
N末ドメインと C末ドメインが 相同 N D D ホモダイマー D C
予測 レトロウイルスのプロテアーゼは酸性プロテアーゼである。 H. Toh et al. EMBO J. 4, 1267 (1985) H. Toh et al. Nature 315, 691 (1985) 実験 [1] 既知酸性プロテアーゼの立体構造を鋳型としたHIV プロテアーゼのホモロジー・モデリン グ L.H. Pearl and W.R. Taylor, Nature 329, 351 (1987). [2] 酸性プロテーゼ阻害剤(ペプスタチン)によるHIV プロテアーゼの阻害 R.F. Nutt et al. Proc. Natl. Acad. Sci. USA 85, 7129 (1988). P.L. Darke et al. J. Biol. Chem. 264, 2307 (1989). 検証 X 線結晶構造解析からHIV プロテアーゼは酸性プロテーゼと類似の構造である。 M. Miller et al. Science 246, 1149 (1989).
Coffin, JM (1997)
N末ドメインと C末ドメインが 相同 N D D ホモダイマー D C
mafftによる配列アラインメント CLUSTAL format alignment by MAFFT L-INS-i (v7.402) 2APRN 2APRC AGVGTVPMTDYGNDIEYYGQVTIGTPGKKFNLDFDTGSSDLWIASTLCTNCGSGQTKYDP ---------------------------------YD-------------------STKFKG :* .**:. 2APRN 2APRC NQSSTYQADGRT-WSISYGDGSSASGILAKDNVNLGGLLIKGQTI-----ELAKREAASF SLTTVPIDNSRGWWGITVDRATVGTSTVAS---SFDGILDTGTTLLILPNNIAASVARAY . ::. :.* *.*: . .: .:. :*. .:.*:* .* *: ::* * :: 2APRN 2APRC ASGPN-DGLLGLGFDT------ITTVRGV--KTPMDNLISQGLISRPIFGVYLGK----GASDNGDGTYTISCDTSAFKPLVFSINGASFQVSPDSLVFEEFQGQCIAGFGYGNWGFAI .:. * ** :. ** : ::.*. :.. *.*: : : .: * *. *: 2APRN 2APRC -----AKNGGGGEYI-------------FGG IGDTFLKN----NYVVFNQGVPEVQIAPVAE ** :*: .. 進化的関係が遠いと配列情報だけでは正しいアラインメントが作れない 入力ファイルは 2aprNC.fasta
構造を⽐較することの意味 アミノ酸配列に⽐べ、⽴体構造は保存しやすい アミノ酸配列は類似していない、つまり配列レベル の検索で検出できないような類似性(遠い進化的関係)を、 構造⽐較により検出できる。(構造データベース検索) また、⽴体構造⽐較から、配列レベルでは検出 できない機能部位の同定も可能(構造アラインメント)
図4 Δ=0.40 exp(1.87H) Δ:common core 主鎖の重ねあわせのRMSD H:配列の相違度 Hが小さい時:表面のみの変化 Hが大きい時:表面と内部の変化 内部の変化は表面に比べ大きな構造変化をもたらす
構造⽐較のサイト http://ekhidna2.biocenter.helsinki.fi/dali/ 87
10/7/23 88
タンパク質の機能 ⽣化学的機能 vs Biochemical Function 酵素活性、リガンド結合能 ⽣物学的機能 Biological Function 記憶、発⽣、⾏動 X X
ネットワークの解析のツール (1) R igraph (2) Cytoscape
タンパク質間相互作⽤ネットワーク解析 1. 2. 3. 4. 5. ネットワーク可視化 次数分布 中⼼性解析 コミュニティ抽出 …
ネットワークの可視化 Igraphによる可視化の例
次数分布 次数:各ノードに接続する辺の数 degree(f) gene0 gene1 gene2 gene3 gene4 gene5 2 3 2 1 2 4
次数分布を調べる
次数分布 log-log plot log-log プロットをとると 直線関係 ---à スケールフリー であることを⽰している 少数のハブ(hub =次数の ⾼いノード)と多数の 次数の低いノードから 構成されている
スケールフリーネットワーク 少数のハブと多数の相互作⽤の数の少ないノード からなる。 ハブ 多数の相互作⽤相⼿を持つ 従来の鍵-鍵⽳モデルやinduced fitモデルでは 説明できない 天然変性領域がハブの役割を担っていることが 多い
スケールフリー性は、社会学をはじめとするこれまでの研究により、 現実世界のネットワークで幅広く観察されている。 ・ ⼈々の持っている知⼈関係の数をみると、⼀部の⼈は⾮常にたくさんの 知⼈を持っているが、⼤多数の⼈々の知⼈の数は限られている。 ・WWWで はごく少数の有名サイトが数百万単位のリンクを集めているが、 ⼤多数のサイトはわずかなリンク先からしかリンクされていない。 ・⽣体内の相互作⽤でも、ごく ⼀部のタンパク質が多数のタンパク質と相互作⽤ する構造になっている。 数学的には、スケールフリー性は頂点が次数 k を持つ確率 p(k) の確率分布が p(k) ∝ k-γ のべき乗則になると表現される log( p(k) ) ∝ γ log(k-) スケールフリーグラフが持つ注⽬すべき特性として、ネットワーク障害など 「ランダムな故障や攻撃」に対して頑強性が⾼いことがあげられる。 ただし、スケールフリーなネットワークの場合、特定の重要なハブをピンポイントで 狙った攻撃に対しては脆弱 https://ja.wikipedia.org/wiki/複雑ネットワーク より
中⼼性 ノードがネットワーク中でどの程度中⼼的であるかを評価する指標 ネットワークの中の各ノードの重要性の評価に⽤いられる 様々な中⼼性の定義がある 次数中⼼性 近接中⼼性 媒介中⼼性 次数の⾼いノードが重要 他のノードに短い距離で繋がるノードが重要 ノード間最短距離を考えた時によく通過する ノードが重要 固有ベクトル中⼼性 隣接するノードの中⼼性も考慮 次数中⼼性の拡張版 (Google Page rankで使⽤)
タンパク質間相互作⽤ネットワーク の中⼼性解析 ecoli_proteins_essentiality_Baba2006MSB.txt Baba et al. (2006) Mol Syst Biol 2, 0008 gene essential . . . b0023 N non essential b0024 u unknown b0025 N b0026 E essential . . .
中⼼性が⾼いものほどessentialなものが多い
重複可能性(duplicability)とネットワークの関係
(2012) 進化速度と中⼼性の相関は⼀般には低いが、特定の機能カテゴリーについては、発現レベルと進化速度の間の 相関と同程度かそれ以上の相関を⽰す。 ネットワーク内で相互作⽤するタンパク質をコードする遺伝⼦は⽐較的類似した進化速度を持つ シロイヌナズナでは重複している遺伝⼦由来のタンパク質の⽅が、シングルトン(重複のない)遺伝⼦ 由来のタンパク質の⽅が⾼度に相互作⽤が多く、ヒトでも同じ傾向。⼀⽅、E. coli, 酵⺟、線⾍、ハエでは 重複遺伝⼦はネットワークの周辺に位置する傾向がある。 ---à 中⼼性と重複可能性(duplicability)の関係が、真核⽣物の進化の過程で少なくとも2回逆転した
(2012) 中⼼性と重複可能性との関係の⽅向性は普遍的ではない: Escherichia coli、酵⺟、ハエ、および線⾍では、重複した遺伝⼦はネットワークの周辺に存在する傾向 ヒトでは重複しが遺伝⼦はネットワークの中⼼的な位置を占める傾向 霊⻑類の異なる系統の各枝で起きた重複について調査 種系統樹の13の枝のうち、10個の枝で重複した遺伝⼦の⽅が、重複のない遺伝⼦よりも次数が⾼い そのうち、5つの枝でその差は統計的に有意 3個の枝(ヒトへ⾄る外部枝を含む)で逆のパターン。そのうち2つ(ヒトへ⾄る外部枝含む)で その差は統計的に有意 次数以外の中⼼性でも同様の傾向が⾒られる。 中⼼性と重複可能性には関連はあるが、その関係性は霊⻑類の進化の過程で変化している。 相互作⽤するタンパク質の遺伝⼦は、同じ枝で同時に重複する傾向がある。
Conclusion ⽣化学的機能の解析: アミノ酸配列データ、⽴体構造データ ⽣物学的機能の解析 相互作⽤データ タンパク質の情報解析には、その他にも使えるデータがある (塩基配列、ゲノムデータ、etc) 異なるタイプのデータを組み合わせることで、個別のデータのみ を⽤いるより豊かな情報を得ることができる