計算生命科学の基礎10（藤博幸）

計算生命科学の基礎10 2023年10⽉11⽇タンパク質の機能の進化とその情報解析藤博幸関⻄学院⼤学⽣命環境学部⽣物科学科

本⽇の予定 1. 2. 3. 4. 5. 6. タンパク質タンパク質の機能情報解析に使⽤するタンパク質のデータ配列解析構造解析ネットワーク解析

図1.2 DNA、RNA、タンパク質の生合成とセントラルドグマ 5’…ATGGAACATCTGACT…3’ 3’…TACCTTGTAGACTGA…5’ DNA 転写 5’…AUGGAACAUCUGACU…3’ 逆転写 RNA リボソーム翻訳タンパク質 M E H V T… DNA複製 RNA複製

4.

5.

http://www.wdic.org/w/SCI/ペプチド結合タンパク質は20種類のアミノ酸がペプチド結合でつながった紐状の分⼦各アミノ酸を１⽂字で表現すると、⼀つのタンパク質は、20種類のアルファベットで構成された⽂字列として表すことができる。

6.

アミノ酸 Asp (D) Glu (E) アスパラギン酸グルタミン酸側鎖 H N H アミノ基 R 主鎖 C OH H C Tyr (Y) チロシン Ser (S) セリン解離性アミノ酸 Lys (K) リジン Arg (R) アルギニン His (H) ヒスチジン Thr (T) スレオニン O カルボキシ基基本構造 Gly (G) グリシン Ala (A) アラニン Val (V) バリン Leu (L) イソロイシン Ile (I) ロイシン親水性アミノ酸 Asn (N) アスパラギンアミノ酸は ”大文字” で表記する疎水性アミノ酸 Met (M) メチオニン p.4, 3 Cys (C) システイン Pro (P) プロリン Phe (F) フェニルアラニン Trp (W) トリプトファン Gln (Q) グルタミン

7.

http://www.wdic.org/w/SCI/ペプチド結合タンパク質は20種類のアミノ酸がペプチド結合でつながった紐状の分⼦各アミノ酸を１⽂字で表現すると、⼀つのタンパク質は、20種類のアルファベットで構成された⽂字列として表すことができる。

8.

リゾチームのアミノ酸配列 >LYC_HUMAN ヒト Lysozyme C MKALIVLGLVLLSVTVQGKVFERCELARTLKRLGMDGYRGISLANWMCLAKWESGYNTRATNYNAGDRST DYGIFQINSRYWCNDGKTPGAVNACHLSCSALLQDNIADAVACAKRVVRDPQGIRAWVAWRNRCQNRDVR QYVQGCGV >LYC1_BOVIN ウシ Lysozyme C 1 MKALIILGFLFLSVAVQGKVFERCELARTLKKLGLDGYKGVSLANWLCLTKWESSYNTKATNYNPGSEST DYGIFQINSKWWCNDGKTPNAVDGCHVSCSELMENDIAKAVACAKQIVSEQGITAWVAWKSHCRDHDVSS YVEGCTL >LYC_CHICK ニワトリ Lysozyme C MRSLLILVLCFLPLAALGKVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQATNRNTDGSTD YGILQINSRWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVSDGNGMNAWVAWRNRCKGTDVQA WIRGCRL >LYC2_ONCMY マス Lysozyme C II MRAVVVLLLVAVASAKVYDRCELARALKASGMDGYAGNSLPNWVCLSKWESSYNTQATNRNTDGSTDYGI FQINSRYWCDDGRTPGAKNVCGIRCSQLLTADLTVAIRCAKRVVLDPNGIGAWVAWRLHCQNQDLRSYVA GCGV >LYC_BOMMO カイコ Lysozyme MQKLIIFALVVLCVGSEAKTFTRCGLVHELRKHGFEENLMRNWVCLVEHESSRDTSKTNTNRNGSKDYGL FQINDRYWCSKGASPGKDCNVKCSDLLTDDITKAAKCAKKIYKRHRFDAWYGWKNHCQGSLPDISSC >LYSP_DROME ハエ Lysozyme P MKAFLVICALTLTAVATQARTMDRCSLAREMSKLGVPRDQLAKWTCIAQHESSFRTGVVGPANSNGSNDY GIFQINNKYWCKPADGRFSYNECGLSCNALLTDDITNSVKCARKIQRQQGWTAWSTWKYCSGSLPSINSC F

9.

FASTA フォーマット >LYC_HUMAN ヒト Lysozyme C MKALIVLGLVLLSVTVQGKVFERCELARTLKRLGMDGYRGISLANWMCLAKWES GYNTRATNYNAGDRSTDYGIFQINSRYWCNDGKTPGAVNACHLSCSALLQDNIA DAVACAKRVVRDPQGIRAWVAWRNRCQNRDVRQYVQGCGV “>” で始まる注釈⾏（通常、配列名）と改⾏後に、１⽂字表記で塩基あるいはアミノ酸の配列を記す書式を FASTAフォーマットといい、分⼦系統解析ばかりでなく、バイオインフォマティクス分野では配列の書式としてよく使われている。前ページのように、⼀つのファイルに複数のFASTAフォーマットの配列がおさめられている場合は、マルチFASTAフォーマットとよぶ。 p.9,81

10.

配列データベース塩基配列データベース INSDC (International Nucleotide Sequence Database Collaboration) ⽶国 NCBIのGenBank 欧州 EMBL-EBIのENA ⽇本国⽴遺伝学のDDBJ 3者が連携して国際的に維持管理タンパク質のデータベース UniProt 以下の３者のコンソーシアムとして統合スイスバイオインフォマティクス研究所(SIB)のSwiss-Prot EBIのTrEMBL ジョージタウン⼤学のPIR

11.

[beta]

塩基配列データベースのエントリ : GenBank形式 (タンパク質の場合: GenPept形式 ）
LOCUS
DEFINITION

AH003092
6907 bp
DNA
linear
ROD 01-AUG-2016
Nannospalax ehrenbergi clone pSCr-1 crystallin (CRY-alpha-A) gene,
complete cds, alternatively spliced.
ACCESSION
AH003092 M17247 M17248 M17249 Y00464
アクセッション番号
VERSION
AH003092.2
キーワード
KEYWORDS
alpha-crystallin; crystallin.
SOURCE
Nannospalax ehrenbergi (Ehrenberg's mole-rat)
ORGANISM Nannospalax ehrenbergi
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Euarchontoglires; Glires; Rodentia; Myomorpha;
Muroidea; Spalacidae; Spalacinae; Nannospalax.
REFERENCE
1 (bases 2161 to 2880; 3841 to 4080; 5592 to 6431)
AUTHORS
Hendriks,W., Leunissen,J., Nevo,E., Bloemendal,H. and de Jong,W.W.
TITLE
The lens protein alpha A-crystallin of the blind mole rat, Spalax
ehrenbergi: evolutionary change and functional constraints
JOURNAL
Proc. Natl. Acad. Sci. U.S.A. 84 (15), 5320-5324 (1987)
PUBMED
3474658
:
FEATURES
Location/Qualifiers
source
1..6907
/organism="Nannospalax ehrenbergi"
/mol_type="genomic DNA”
:
CDS
join(2349..2537,2736..2804,3859..3981,5715..5924)
コード領域
/gene="CRY-alpha-A"
/codon_start=1
/product="alpha-A-ins-crystallin"
/protein_id="AAA66165.1"
/translation="MDVTIQHPWFKHALGPFYPSRLFDQFFGQGLFEYDLLPFLSSTI
SPYYRQTLLRTVLDSCISELMTHRWFVPHQPHAGNPENNPIKVRSDRDKFVIFLDVKH
アミノ酸配列
FSPEDLTVKVLEDFVEIHGKHNERQDDHGYISREFHRRYRLPSSVDQSALSCSLSADG
（ins あり）
MLTFSGPKVQSGLDAGHSERAIPVSQEEKPSSAPLF"
CDS
join(2349..2537,3859..3981,5715..5924)
コード領域
/gene="CRY-alpha-A"
/codon_start=1
/product="alpha A-crystallin"
/protein_id="AAA66166.1"
/translation="MDVTIQHPWFKHALGPFYPSRLFDQFFGQGLFEYDLLPFLSSTI
SPYYRQTLLRTVLDSCISEVRSDRDKFVIFLDVKHFSPEDLTVKVLEDFVEIHGKHNE
アミノ酸配列
RQDDHGYISREFHRRYRLPSSVDQSALSCSLSADGMLTFSGPKVQSGLDAGHSERAIP
（ins なし）
VSQEEKPSSAPLF”
:
ORIGIN
1 bp upstream of EcoRI site.
1 gaattctctc ttgtggagca ggccttaaat ccaagcagaa agtggtttct cacccccata
:
2281 gctccccact ccagcggccc ctgcccgact caccaccagc cttcagtccc tgcgttgcca
2341 cgtggaacat ggacgtcacc atccagcacc cctggttcaa gcacgccctg ggtcccttct
2401 atcccagccg gctgttcgac cagtttttcg gccagggcct ctttgagtac gatctgctgc
2461 ccttcctgtc ctccaccatc agcccctatt accgccagac cctcctccgc acagtgctgg
2521 actcctgcat ctctgaggta agatgcggct ggtcagaggg gctcagggcc ttggagaggt
2581 cagctaggga ttcctgaggg gccacctgcc tcgtccctgc ctctcccagc ctcggaccct
イントロン１
2641 ggaccctgct gcggctgggt ggaagtccgc ccgcccagcc gactgggaat ggggtttgaa
2701 gagaaggccc gactgctgtc ttttcctccc atcagctcat gacccatagg tggtttgtac
2761 cgcaccaacc acatgctgga aaccccgaga acaaccccat caaggcaagt ttcgtggcaa
2821 aggcgagcgt cctggacccg ctgctccctg tgcttttctg ccgggtgcgg gtgcggtgat
:
イントロン２
3781 accatgctgt tgcccctccc acccccgttc ctggagctgt tagcctctgg gagctccaca
3841 tgagggtttg ggtttcaggt ccgatccgac cgggacaaat ttgtcatctt cctggatgtg
3901 aagcacttct ctcctgagga cctcaccgtg aaggtgctgg aggacttcgt ggagatccat
3961 ggcaagcaca acgagaggca ggtgagctcg agtgggacct cacactgcgg gcatcctgta
4021 tcccttgaga ggaagcaagg ggaggtggca ctggctcagc tgctcctgct agaaggagcc
:
イントロン３
5641 ggtctttttc cagtgtggga tggcagtcct gtgtctcatc atgcctgacc atgctcttcc
5701 ctggttgtcc ccaggacgac cacggctaca tttcccgtga gttccaccgc cgataccgcc
5761 tgccttccag tgtggaccag tctgcccttt cctgctccct gtctgcagat ggcatgctga
5821 ccttctctgg ccccaaagtc caatctggcc tggatgctgg ccacagtgaa agggccattc
5881 ctgtgtctca ggaggagaag cccagctcgg cacccttgtt ctaagcaggc ctcaccttag
5941 ctgccccctg aggccactga cccatcaagc tcagggacca cagcaaaggg tcttccttcc
:
6841 acacacacgc atacacatga cacatatact actgcgcatg cacagcacac acacactgat
6901 caccaca
//

配列の定義
（学名、遺伝子名）

学名（生物資料の由来）
分類

文献

（一部省略）

（一部省略）

（一部省略）

（一部省略）

イントロン
１-ins-２
（一部省略）

（一部省略）

（一部省略）

12.

アミノ酸配列ヒト・リゾチームのアミノ酸配列（一文字表記） >LYC_HUMAN MKALIVLGLVLLSVTVQGKVFERCELARTL KRLGMDGYRGISLANWMCLAKWESGYNTRA TNYNAGDRSTDYGIFQINSRYWCNDGKTPG AVNACHLSCSALLQDNIADAVACAKRVVRD PQGIRAWVAWRNRCQNRDVRQYVQGCGV 148 残基ヒト・リゾチームの立体構造立体構造

13.

タンパク質⽴体構造の階層性立体構造をとる二本以上のペプチド鎖から形成される構造四次構造（具体例：ヘモグロビンは４つのペプチド鎖が集まり機能 (αサブユニット×２＋βサブユニット×２）三次構造立体構造立体構造ドメイン構造二次構造一次構造 αへリックス βシートアミノ酸配列ターンループ

14.

⼆次構造規則的な水素結合のパターンを持つ αへリックス βシート 4残基先のアミノ酸と水素結合を作る配列上離れた位置にアミノ酸と水素結合を作る『MOLECULAR CELL BIOLOGY』より引用

15.

三次構造内側 : 疎水性残基が集まる外側 : 親水性残基が多いドメイン : ヘモグロビンα鎖独自の安定な構造をとる・比較的安定な構造をとる単位・三次構造より（たいていの場合）小さな構造・ドメインは、様々な三次構造中に見られる二次構造の組み合わせで、ある形に折りたたまれたもの。一本のポリペプチドからなる。

16.

四次構造サブユニット多量体の呼び方１本２本３本４本５本６本：モノマー：ダイマー：トリマー：テトラマー：ペンタマー：ヘキサマーヘモグロビン（2W6V）生体内で機能しているタンパク質の多くは、四次構造を形成している複数のポリペプチドによって形成される立体構造

17.

⽣体⾼分⼦の⽴体構造を扱ったデータベース • 網羅的に立体構造情報を収集しているものヨーロッパ欧州バイオインフォマティクス研究所(EBI) ⾼分⼦構造データベース (MSD-EBI) PDBe RSCB PDB PDBj ⽇本⼤阪⼤学蛋⽩質研究所 wwPDB アメリカ構造バイオインフォマティクス研究共同体 (RCSB)

18.

⽣体⾼分⼦の⽴体構造を扱ったデータベース • PDBファイルの中身 HEADER TRANSFERASE 30-AUG-04 1XBB ボディ TITLE CRYSTAL STRUCTURE OFヘッダー THE SYK TYROSINE KINASE DOMAIN WITH TITLE 2 GLEEVEC HEADER 物質の分類名、日付、ファイル名 COMPND MOL_ID: 1; COMPND KINASE SYK; タンパク質名 COMPND 2 MOLECULE: TYROSINE-PROTEIN COMPND 3 CHAIN: A; SOURCE 物質が由来する生物名 COMPND 4 SYNONYM: SPLEEN TYROSINE KINASE; COMPND 5 EC: 2.7.1.112;AUTHOR 座標を作成した著者名 COMPND 6 ENGINEERED: YES REVDAT データが登録された日 SOURCE MOL_ID: 1; SOURCE 2 ORGANISM_SCIENTIFIC: JRNLHOMO SAPIENS; 文献情報 SOURCE 3 ORGANISM_COMMON: HUMAN; REMARK 実験条件などに関する情報 SOURCE 4 ORGANISM_TAXID: 9606; SOURCE 5 GENE: SYK; SEQRES アミノ酸配列 SOURCE 6 EXPRESSION_SYSTEM: SPODOPTERA FRUGIPERDA; HET アミノ酸以外の原子 SOURCE 7 EXPRESSION_SYSTEM_COMMON: FALL ARMYWORM; SOURCE 8 EXPRESSION_SYSTEM_TAXID: HELIX 7108; αーヘリックスに関する情報 SOURCE 9 EXPRESSION_SYSTEM_CELL_LINE: SF9; SHEET βーシートに関する情報 SOURCE 10 EXPRESSION_SYSTEM_VECTOR_TYPE: BACULOVIRUS KEYWDS GLEEVEC, STI-571, IMATINIB, SYK, SPLEEN TYPROSINE KINASE, TURN βーターンに関する情報 KEYWDS 2 ACTIVE CONFORMATION, STRUCTURAL GENOMICS, STRUCTURAL SSBOND ジスルフィド結合に関する情報 KEYWDS 3 GENOMIX, TRANSFERASE EXPDTA X-RAY DIFFRACTION ATOM 個々のアミノ酸の原子の座標 AUTHOR V.L.NIENABER,S.ATWELL,J.M.ADAMS,J.BADGER,M.D.BUCHANAN, HETATM AUTHOR 2 I.K.FEIL,K.J.FRONING,X.GAO,J.HENDLE,K.KEEGAN,B.C.LEON, アミノ酸以外の原子の座標 AUTHOR 3 H.J.MULLER-DEICKMANN,B.W.NOLAND,K.POST,K.R.RAJASHANKAR, CONTACT 原子の結合に関する情報 AUTHOR 4 A.RAMOS,M.RUSSELL,S.K.BURLEY,S.G.BUCHANAN （省略） END ファイルの終了

19.

⽣体⾼分⼦の⽴体構造を扱ったデータベース • 座標データ ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 N CA C O CB N CA C O CB CG CD1 CD2 CE1 CE2 CZ OH 原⼦の名前アミノ酸の名前チェインの名前 1原子 VAL VAL VAL VAL VAL TYR TYR TYR TYR TYR TYR TYR TYR TYR TYR TYR TYR A A A A A A A A A A A A A A A A A 363 363 363 363 363 364 364 364 364 364 364 364 364 364 364 364 364 22.741 21.557 20.954 19.737 21.883 21.798 21.310 20.929 21.735 22.349 22.619 21.725 23.772 21.959 24.019 23.101 23.330 -1.397 11.729 1.00 33.32 -0.831 11.024 1.00 32.13 -1.757 9.943 1.00 31.73 -1.906 9.845 1.00 30.94 0.552 10.391 1.00 33.45 -2.389 9.135 1.00 29.77 -3.035 7.928 1.00 27.96 -4.485 8.157 1.00 26.43 -5.274 8.650 1.00 29.31 -2.901 6.808 1.00 28.13 -1.461 6.442 1.00 28.30 -0.751 5.638 1.00 30.33 -0.815 6.893 1.00 30.80 0.588 5.285 1.00 31.59 0.523 6.541 1.00 32.22 1.208 5.733 1.00 32.48 2.524 5.389 1.00 36.29 温度因⼦ y座標 x座標アミノ酸残基番号 N C C O C N C C O C C C C C C C O 占有率 z座標１残基１残基原⼦

20.

mmCIF形式現在のPDBのフォーマット旧PDBフォーマットは1⾏80⽂字の固定幅であったため、原⼦番号、残基番号、チェイン番号などの⽂字数に制限があり、100個以上チェインからなるような巨⼤なタンパク質複合体の構造を取り扱えなくなった。

21.

可視化ツールが必要 • 分子グラフィクス RasMol http://www.umass.edu/microbio/rasmol/ PyMol http://pymol.sourceforge.net/ Chime http://www.mdli.com/downloads/downloadable/index.jsp PDBj viewer http://www.pdbj.org/PDBjViewer/index_j.html MolScript http://www.avatar.se/molscript/ • 粗視化コンタクトマップラマチャンドランプロット TOPS http://www.tops.leeds.ac.uk/ LIGPLOT http://www.biochem.ucl.ac.uk/bsm/ligplot/ligplot.html

22.

チロシンキナーゼの構造がPyMolのウィンドウに表示される赤いドットは水

23.

タンパク質の機能⽣化学的機能 vs Biochemical Function 酵素活性、リガンド結合能⽣物学的機能 Biological Function 記憶、発⽣、⾏動 X X

24.

相互作⽤データベース STRING IntAct BioGRID

25.

STRING https://string-db.org クリック

https://string-db.org

26.

27.

BioGRID https://thebiogrid.org ダウンロードされるファイルには⼆項関係の形で相互作⽤を記述タンパク質A タンパク質B タンパク質A タンパク質F タンパク質C タンパク質D ...

https://thebiogrid.org

28.

進化的視点からのタンパク質の機能解析相同タンパク質の⽐較解析

29.

相同性 (homology) 共通の起源から分岐してきた遺伝⼦の間の関係性祖先遺伝⼦分岐相同

30.

アデロバシレウス（Adelobasileus cromptoni ２種類の分岐（１）種分化 (speciation) ） 2億2500万年前遺伝⼦ A 7500万年前遺伝⼦ A” 遺伝⼦ Aʼ （２）遺伝⼦重複 (gene duplication) 重複した時には同じコピー

http://kawa3104.hp.infoseek.co.jp/aderobasireusu.html

31.

分⼦進化 (molecular evolution) 進化の過程で配列が変化すること向上、複雑化などの意味は持たない（分⼦進化だけでなく、進化⾃体も同じ）

32.

分子進化の基本ステップ点変異･挿入変異･欠失変異（a）点変異 (point mutation) 5’...ATGGTGCTGTC...3’ 5’...ATGGTACTGTC...3’ （b）挿入変異 (insertion) （c）欠失変異 (deletion) 5’...ATGGTGCTGTC...3’ 5’...ATGGTGCTGTC...3’ 5’...ATGGTGAGCATACTGTC...3’ 5’...ATGTC...3’

33.

種分化に伴う相同タンパク質の形成

34.

種分化 10 20 30 40 50 human VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSH 祖先型の生物 a ::: ::.:.::::::.:.:..::::::::::: :::::::::::::.:: mouse VLSGEDKSNIKAAWGKIGGHGAEYGAEALERMFASFPTTKTYFPHFDVSH 10 20 30 40 50 60 70 80 90 100 human GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKL 突然変異 ::::::::::::::::..:..:.::.:.:::::::::::::::::::::: mouse GSAQVKGHGKKVADALASAAGHLDDLPGALSALSDLHAHKLRVDPVNFKL 60 70 80 90 100 種分化 110 120 130 140 human LSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR ::::::::::.: ::.::::::::::::::::::::::::: mouse LSHCLLVTLASHHPADFTPAVHASLDKFLASVSTVLTSKYR 110 120 130 140 a 進化 20/141 a 生物の種分化を反映したタンパク質の増加

35.

突然変異(mutation)と置換（substitution) 突然変異は集団中の個体に⽣じる ※ 進化に寄与するのは体細胞ではなく⽣殖系列の細胞に⽣じる突然変異

36.

突然変異(mutation)と置換（substitution) 有害な突然変異は、集団から除去される（負の選択 or 純化淘汰）

37.

突然変異(mutation)と置換（substitution) 有利な突然変異は急速に集団中に広まり集団全体がその突然変異遺伝⼦で置き換えられる（正の選択）

38.

突然変異(mutation)と置換（substitution) 中⽴な突然変異の頻度はランダムに浮動し確率的に集団中に固定（選択的に中⽴）固定にいたる途中の過程多型(polymorphism)

39.

タンパク質をコードする遺伝⼦における分⼦レベルの変化の⼤部分は中⽴的中⽴な変化⾃然選択

40.

遺伝⼦重複に伴う相同タンパク質の形成

41.

遺伝⼦重複古典的な遺伝⼦重複の描像重複した時には同じコピー多くの変異は、偽遺伝⼦を⽣じ、まれに新機能を持った遺伝⼦が⽣じるタンパク質が新たな機能を獲得する進化機構

42.

2R WGD 仮説 2 round whole genome duplication 脊椎動物のゲノムは進化の初期の段階で２回の全ゲノム重複を起こしたという仮説⼤野乾により「Evolution by Gene Duplication」(1970)で提唱された。 Susumu Ohno (1928 - 2000) Evolution by Gene Duplication (1970)

43.

DDC (duplication, degeneration, complementation) model ３つのシナリオよりなる Gene A Gene A' 遺伝⼦重複 (gene duplication) duplication Non-functionalization Gene A (pseudogenization) Neofunctionalization Subfunctionalization Non-processed pseudogene A （偽遺伝子） Function A Gene A Gene B Gene A' Gene A'' 古典的モデルと同じ Functions A + B Functions A' + A'' = A

44.

Phase I of DDC モデル⼩さなボックスが発現制御領域を表す。⼤きなボックスはコード領域を表す。 Phase Iにおいて、subfunctionalizationでは、制御領域のいくつか壊れ、重複したコピーは相補的な発現パターンを⽰し、1コピーの時の機能を維持できる。 Neofunctionalizationにおいても、制御領域が変化することが知られてている。

45.

Phase II of DDC モデル Force et al. (1999) Neofunctionzalitionまたsubfunctinalizationで⽣じたコピーの持つ制御領域の中の冗⻑な領域が壊れ、発現パターンの分化が進む。 Pseufogenizationは、Phase IIには関係しない

46.

祖先遺伝子遺伝子重複による α、βの形成ヒト、ラットの種分化 paralogous ヒトラットヒトヘモグロビンα ラットヘモグロビンβ orthologous

47.

オーソロガス (orthologous) 種分化に伴い分岐した相同な関係相同 (homologous) パラロガス (paralogous) 遺伝⼦重複によって分岐した相同な関係

48.

何故、相同タンパク質の解析をするのか？ “A major objective of the analysis of protein sequences is to discover which share a common ancestor. Determining an evolutionary relationship is useful because it generally implies a common or similar function.” Hubbard,T.J.P. (1997) Current Opinion in Str. Biol. 7, 190-193.

49.

相同配列の⽐較解析の⼿順第⼀ステップ：相同配列の収集第⼆ステップ：相同配列のマルチプルアラインメント第三ステップ：アラインメントからの機能・構造・進化的情報の抽出

50.

相同配列の⽐較解析の⼿順第⼀ステップ：相同配列の収集第⼆ステップ：相同配列のマルチプルアラインメント第三ステップ：アラインメントからの機能・構造・進化的情報の抽出

51.

データベース検索配列A 配列B (機能既知）配列DB 問い合わせ配列配列C 配列D (構造既知）問い合わせ配列に類似した配列を配列DBの中から検索類似配列の中で、構造や機能既知のものがあれば、それらと同様の構造あるいは機能を有するものと推測

52.

発癌遺伝⼦ v-sis 配列データベース⾎⼩板由来成⻑因⼦ (PDGF) の配列決定 v-sis gene Simian Sarcoma Virus サル⾁腫ウイルス v-sis は、成⻑因⼦としての情報を送り続けることで癌化を引き起こす。

53.

GPCRs Monomer function Peptides Amines Nucleic acids Coupling with trimeric G-protein Conformation change Secondary messenger b a G-protein activation g l n a n tio g i S uc d s n a r T

54.

GPCRs • Membrane proteins • Bind neurotransmitters (physiologically active peptides, amines, nucleic acids, etc). • Ligand binding to GPCRs causes their conformation changes. • It leads to several signal transductions conjugated with trimeric G-proteins.

55.

GPCRs • About 1000 genes in human genome • Target for ~45% of clinically marketed drugs • Divided into 5 classes based on sequence similarity (Class A-E, the other) • Atomically resolved structure in class A GPCR: Bovine Rhodopsin

56.

既知のGPCRの配列ゲノムにコードされているタンパク質との類似性を検索ヒト・ゲノムデータベース既知のGPCRの配列創薬ターゲットとしての検討新規のGPCRの配列

57.

GPCR以外のターゲット探索の例中外製薬(株）中外分⼦医学研究所ドラッグデザインのターゲットとしての新規サイトカイン及び新規サイトカイン受容体のゲノム配列、EST配列からの探索「ゲノム創薬」個別化医療とゲノムデータマイニング野村仁著サイエンス社 (2005)

58.

BLAST (Basic Local Alignment Search Tool) https://blast.ncbi.nlm.nih.gov/Blast.cgi

https://blast.ncbi.nlm.nih.gov/Blast.cgi

59.

相同配列の⽐較解析の⼿順第⼀ステップ：相同配列の収集第⼆ステップ：相同配列のマルチプルアラインメント第三ステップ：アラインメントからの機能・構造・進化的情報の抽出

60.

2. 配列アラインメント (sequence alignment) 進化の過程でのINDELを考慮しながら、相同な配列の間の対応する塩基（あるいはアミノ酸）を同じ位置に並べる操作あるいは、その操作によってできたもの。 INDELに対応してギャップ(gap)とよばれる空記号を挿⼊し位置をずらして、塩基やアミノ酸を対応づける。通常、動的計画法(dynamic programing algorithm)や、そのバリエーションを⽤いて、配列間の類似度が⾼くとなるようにアラインメントが構築される。アラインメントの原理は次回

61.

マルチプルアラインメント (multiple alignment) 分⼦系統樹を構築するには、まず複数本の相同配列についてのマルチプルアラインメントを作成する。

62.

リゾチームのアミノ酸配列 >LYC_HUMAN ヒト Lysozyme C MKALIVLGLVLLSVTVQGKVFERCELARTLKRLGMDGYRGISLANWMCLAKWESGYNTRATNYNAGDRST DYGIFQINSRYWCNDGKTPGAVNACHLSCSALLQDNIADAVACAKRVVRDPQGIRAWVAWRNRCQNRDVR QYVQGCGV >LYC1_BOVIN ウシ Lysozyme C 1 MKALIILGFLFLSVAVQGKVFERCELARTLKKLGLDGYKGVSLANWLCLTKWESSYNTKATNYNPGSEST DYGIFQINSKWWCNDGKTPNAVDGCHVSCSELMENDIAKAVACAKQIVSEQGITAWVAWKSHCRDHDVSS YVEGCTL >LYC_CHICK ニワトリ Lysozyme C MRSLLILVLCFLPLAALGKVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQATNRNTDGSTD YGILQINSRWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVSDGNGMNAWVAWRNRCKGTDVQA WIRGCRL >LYC2_ONCMY マス Lysozyme C II MRAVVVLLLVAVASAKVYDRCELARALKASGMDGYAGNSLPNWVCLSKWESSYNTQATNRNTDGSTDYGI FQINSRYWCDDGRTPGAKNVCGIRCSQLLTADLTVAIRCAKRVVLDPNGIGAWVAWRLHCQNQDLRSYVA GCGV >LYC_BOMMO カイコ Lysozyme MQKLIIFALVVLCVGSEAKTFTRCGLVHELRKHGFEENLMRNWVCLVEHESSRDTSKTNTNRNGSKDYGL FQINDRYWCSKGASPGKDCNVKCSDLLTDDITKAAKCAKKIYKRHRFDAWYGWKNHCQGSLPDISSC >LYSP_DROME ハエ Lysozyme P MKAFLVICALTLTAVATQARTMDRCSLAREMSKLGVPRDQLAKWTCIAQHESSFRTGVVGPANSNGSNDY GIFQINNKYWCKPADGRFSYNECGLSCNALLTDDITNSVKCARKIQRQQGWTAWSTWKYCSGSLPSINSC F

63.

マルチfasta形式 >gi|443546|pdb|7HVP|A Chain A, Protease Of Human Immunodeficiency Virus 1 PQITLWQRPLVTIRIGGQLKEALLDTGADDTVLEEMNLPGKWKPKMIGGIGGFIKVRQYDQIPVEIXGHK AIGTVLVGPTPVNIIGRNLLTQIGXTLNF > HIV2 protease (NP_663784 REGION: 523..603) vtayiedqpv evlldtgadd sivagielgd nytpkivggi ggfintkeyk nveikvlnkr vratimtgdt pinifgrnil t > simian immunodeficiency virus SIV-mnd 2 (NP_758887 REGION: 72..166) slwnrpttvv eiegqkveal ldtgaddtvi kdldlkgnwk pqiiggiggs invkqffnck vtiagkttha svlvgptpvn ivgrnvlkkl gctln >gi|4389337|pdb|1BAI|A Chain A, Rous Sarcoma Virus Protease LAMTMEHKDRPLVRVILTNTGSHPVKQRSVYITALLDTGADDTVISEEDWPTDWPVMEAANPQIHGIGGG IPVRKSRDMIELGVINRDGSLERPLLLFPLVAMTPVNILGRDCLQGLGLRLTNL >gi|224443|prf||1104339A MoMuLV protease TLDDQGGQGQEPPPEPRITLKVGGQPVTFLVDTGAQHSVLTQNPGPLSDKSAWVQGATGGKRYRWTTDRK VHLATGKVTHSFLHVPDCPYPLLGRDLLTKLKAQIHFEGSGAQVMGPMGQPLQVL 1. 配列は、スペースがあいていても構わないことに注意 2. Mafftは⼤⽂字も、⼩⽂字も区別せずに配列を処理してくれるが、ソフトによっては⼤⽂字あるいは⼩⽂字しか処理できない場合があるかもしれない

64.

MAFFTによるマルチプルアラインメント mafftは宮⽥研究室で開発され、加藤和貴によって継続的に開発されているマルチプルアラインメントのフリーソフトウェア海外の多くの研究機関で利⽤されている。 Web上でのアラインメントサービスに加え、ダウンロードして⾃⾝の PC上で利⽤できる。Mac, Windows, Linuxなど様々なOSに対応しているここでは、web serviceとして公開されているmafftを利⽤する。 https://mafft.cbrc.jp/alignment/software/

https://mafft.cbrc.jp/alignment/software/

65.

リゾチームのアミノ酸配列マルチプル・アラインメント： Clustal形式 CLUSTAL W (1.81) multiple sequence alignment ヒトウシマスニワトリカイコハエ LYC_HUMAN LYC1_BOVIN LYC2_ONCMY LYC_CHICK LYC_BOMMO LYSP_DROME -MKALIVLGLVLLSVTVQGKVFERCELARTLKRLGMDGYRGISLANWMCLAKWESGYNTR -MKALIILGFLFLSVAVQGKVFERCELARTLKKLGLDGYKGVSLANWLCLTKWESSYNTK ----MRAVVVLLLVAVASAKVYDRCELARALKASGMDGYAGNSLPNWVCLSKWESSYNTQ -MRSLLILVLCFLPLAALGKVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQ -MQKLIIFALVVLCVGSEAKTFTRCGLVHELRKHGFEENL---MRNWVCLVEHESSRDTS MKAFLVICALTLTAVATQARTMDRCSLAREMSKLGVPRDQ---LAKWTCIAQHESSFRTG : . . .:. ** *. : *. : :* * : **. * LYC_HUMAN LYC1_BOVIN LYC2_ONCMY LYC_CHICK LYC_BOMMO LYSP_DROME ATNYNAGDRSTDYGIFQINSRYWCNDGKTPGAVNACHLSCSALLQDNIADAVACAKRVVR ATNYNPGSESTDYGIFQINSKWWCNDGKTPNAVDGCHVSCSELMENDIAKAVACAKQIVS ATNRN-TDGSTDYGIFQINSRYWCDDGRTPGAKNVCGIRCSQLLTADLTVAIRCAKRVVL ATNRN-TDGSTDYGILQINSRWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVS KTNTN-RNGSKDYGLFQINDRYWCS--KGASPGKDCNVKCSDLLTDDITKAAKCAKKIYK VVGPANSNGSNDYGIFQINNKYWCKPADGRFSYNECGLSCNALLTDDITNSVKCARKIQR .. . *.***::***.::**. . . * : *. *: ::: : **::: LYC_HUMAN LYC1_BOVIN LYC2_ONCMY LYC_CHICK LYC_BOMMO LYSP_DROME DPQGIRAWVAWRNRCQNRDVRQYVQGCGV E-QGITAWVAWKSHCRDHDVSSYVEGCTL DPNGIGAWVAWRLHCQNQDLRSYVAGCGV DGNGMNAWVAWRNRCKGTDVQAWIRGCRL R-HRFDAWYGWKNHCQGS--LPDISSC-Q-QGWTAWSTWK-YCSGS--LPSINSCF: ** *: * . : .*

66.

相同配列の⽐較解析の⼿順第⼀ステップ：相同配列の収集第⼆ステップ：相同配列のマルチプルアラインメント第三ステップ：アラインメントからの機能・構造・進化的情報の抽出

67.

第三ステップ：アラインメントからの機能・構造・進化的情報の抽出モチーフの抽出：機能部位予測重複遺伝⼦の機能差を決定しているサイトの予測マルチプルアラインメント分⼦系統解析⽴体構造モデリング機械学習の特徴ベクトル ...

68.

リゾチームのアミノ酸配列マルチプル・アラインメント： Clustal形式 CLUSTAL W (1.81) multiple sequence alignment ヒトウシマスニワトリカイコハエ LYC_HUMAN LYC1_BOVIN LYC2_ONCMY LYC_CHICK LYC_BOMMO LYSP_DROME -MKALIVLGLVLLSVTVQGKVFERCELARTLKRLGMDGYRGISLANWMCLAKWESGYNTR -MKALIILGFLFLSVAVQGKVFERCELARTLKKLGLDGYKGVSLANWLCLTKWESSYNTK ----MRAVVVLLLVAVASAKVYDRCELARALKASGMDGYAGNSLPNWVCLSKWESSYNTQ -MRSLLILVLCFLPLAALGKVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQ -MQKLIIFALVVLCVGSEAKTFTRCGLVHELRKHGFEENL---MRNWVCLVEHESSRDTS MKAFLVICALTLTAVATQARTMDRCSLAREMSKLGVPRDQ---LAKWTCIAQHESSFRTG : . . .:. ** *. : *. : :* * : **. * LYC_HUMAN LYC1_BOVIN LYC2_ONCMY LYC_CHICK LYC_BOMMO LYSP_DROME ATNYNAGDRSTDYGIFQINSRYWCNDGKTPGAVNACHLSCSALLQDNIADAVACAKRVVR ATNYNPGSESTDYGIFQINSKWWCNDGKTPNAVDGCHVSCSELMENDIAKAVACAKQIVS ATNRN-TDGSTDYGIFQINSRYWCDDGRTPGAKNVCGIRCSQLLTADLTVAIRCAKRVVL ATNRN-TDGSTDYGILQINSRWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVS KTNTN-RNGSKDYGLFQINDRYWCS--KGASPGKDCNVKCSDLLTDDITKAAKCAKKIYK VVGPANSNGSNDYGIFQINNKYWCKPADGRFSYNECGLSCNALLTDDITNSVKCARKIQR .. . *.***::***.::**. . . * : *. *: ::: : **::: LYC_HUMAN LYC1_BOVIN LYC2_ONCMY LYC_CHICK LYC_BOMMO LYSP_DROME DPQGIRAWVAWRNRCQNRDVRQYVQGCGV E-QGITAWVAWKSHCRDHDVSSYVEGCTL DPNGIGAWVAWRLHCQNQDLRSYVAGCGV DGNGMNAWVAWRNRCKGTDVQAWIRGCRL R-HRFDAWYGWKNHCQGS--LPDISSC-Q-QGWTAWSTWK-YCSGS--LPSINSCF: ** *: * . : .*

69.

Clustal形式アラインメント下段のシンボルの意味 “*”では，完全に保存 “:”では，強い物理化学的類似性のあるグループで保存 “.”では，弱い類似性のあるグル―プで保存強い弱いの基準は，PAM250 ⾏列において，アミノ酸間のスコアが0.5より⼤きいか，0.5以下かで分けている

70.

スコア・テーブル多くのアミノ酸置換は保存的 Dayhoffのスコアテーブル G A S T P L I M V D N E Q F Y W K R H C G 5 1 1 0 -1 -4 -3 -3 -1 1 0 0 -1 -5 -5 -7 -2 -3 -2 -3 A S T P L I M V D N E Q F Y W K R H C 2 1 1 1 -2 -1 -1 0 0 0 0 0 -4 -3 -6 -1 -2 -1 -2 2 1 1 -3 -1 -2 -1 0 1 0 -1 -3 -3 -2 0 0 -1 0 3 0 -2 0 -1 0 0 0 0 -1 -3 -3 -5 0 -1 -1 -2 6 -3 -2 -2 -1 -1 -1 -1 0 -5 -5 -6 -1 0 0 -3 6 2 4 2 -4 -3 -3 -2 2 -1 -2 -3 -3 -2 -6 5 2 4 -2 -2 -2 -2 1 -1 -5 -2 -2 -2 -2 6 2 -3 -2 -2 -1 0 -2 -4 0 0 -2 -5 4 -2 -2 -2 -2 -1 -2 -6 -2 -2 -2 -2 4 2 3 2 -6 -4 -7 0 -1 1 -5 2 1 1 -4 -2 -4 1 0 2 -4 4 2 -5 -4 -7 0 -1 1 -5 4 -5 -4 -5 1 1 3 -5 9 7 0 -5 -4 -2 -4 10 0 -4 -4 0 0 17 -3 2 -3 -8 5 3 0 -5 6 2 -4 6 -3 12 (1) G,A,S, T, P: small hydrophilic residues (2) L, I, M, V: hydrophobic residues Dayhoffコード (3) D, N, E, Q: nagatively charged residues and the relatives (4) F, Y, W: aromatic residues (5) K, R, H: positively charged residues (6) C: Cys

71.

Multiple Alignment of Lysozyme Amino Acid Sequences CLUSTAL W (1.81) multiple sequence alignment Human Bovine Trout Chikcen Silkworm Fruitfly LYC_HUMAN LYC1_BOVIN LYC2_ONCMY LYC_CHICK LYC_BOMMO LYSP_DROME -MKALIVLGLVLLSVTVQGKVFERCELARTLKRLGMDGYRGISLANWMCLAKWESGYNTR -MKALIILGFLFLSVAVQGKVFERCELARTLKKLGLDGYKGVSLANWLCLTKWESSYNTK ----MRAVVVLLLVAVASAKVYDRCELARALKASGMDGYAGNSLPNWVCLSKWESSYNTQ -MRSLLILVLCFLPLAALGKVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQ -MQKLIIFALVVLCVGSEAKTFTRCGLVHELRKHGFEENL---MRNWVCLVEHESSRDTS MKAFLVICALTLTAVATQARTMDRCSLAREMSKLGVPRDQ---LAKWTCIAQHESSFRTG : . . .:. ** *. : *. : :* * : **. * LYC_HUMAN LYC1_BOVIN LYC2_ONCMY LYC_CHICK LYC_BOMMO LYSP_DROME ATNYNAGDRSTDYGIFQINSRYWCNDGKTPGAVNACHLSCSALLQDNIADAVACAKRVVR ATNYNPGSESTDYGIFQINSKWWCNDGKTPNAVDGCHVSCSELMENDIAKAVACAKQIVS ATNRN-TDGSTDYGIFQINSRYWCDDGRTPGAKNVCGIRCSQLLTADLTVAIRCAKRVVL ATNRN-TDGSTDYGILQINSRWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVS KTNTN-RNGSKDYGLFQINDRYWCS--KGASPGKDCNVKCSDLLTDDITKAAKCAKKIYK VVGPANSNGSNDYGIFQINNKYWCKPADGRFSYNECGLSCNALLTDDITNSVKCARKIQR .. . *.***::***.::**. . . * : *. *: ::: : **::: LYC_HUMAN LYC1_BOVIN LYC2_ONCMY LYC_CHICK LYC_BOMMO LYSP_DROME DPQGIRAWVAWRNRCQNRDVRQYVQGCGV E-QGITAWVAWKSHCRDHDVSSYVEGCTL DPNGIGAWVAWRLHCQNQDLRSYVAGCGV DGNGMNAWVAWRNRCKGTDVQAWIRGCRL R-HRFDAWYGWKNHCQGS--LPDISSC-Q-QGWTAWSTWK-YCSGS--LPSINSCF: ** *: * . : .*

72.

モチーフ: short stretch of conserved amino acid sequences When several motifs are found by the sequence comparison, the sequences are closely located in the 3 dimensional structure. A B A C (a) catalytic center of enzyme C B C B A (b) Interface of complex A B C (c) hydrophobic core

73.

Characterization of Retroviral Proteases - Development of HIV Protease Inhibitor -

74.

75.

CLUSTAL format alignment by MAFFT L-INS-i (v7.130b) gi|443546|pdb|7 HIV2 simian gi|4389337|pdb| gi|224443|prf|| PQITLW----------QRPLVTIRIGGQL----------KEALLDTGADDTVLEEMNLPG --------------------VTAYIEDQP----------VEVLLDTGADDSIVAGIELGD ---SLW----------NRPTTVVEIEGQK----------VEALLDTGADDTVIKDLDLKG LAMTMEHK--------DRPLVRVILTNTGSHPVKQRSVYITALLDTGADDTVISEEDWPT ---TLDDQGGQGQEPPPEPRITLKVGGQP----------VTFLVDTGAQHSVLTQNPGPL : . *:****:.::: gi|443546|pdb|7 HIV2 simian gi|4389337|pdb| gi|224443|prf|| KW------KPKMIGGIGGFIKVRQ---YDQIPVEIXGHKAIGTVL----VGPTPVNIIGR NY------TPKIVGGIGGFINTKE---YKNVEIKVLNKRVRATIM----TGDTPINIFGR NW------KPQIIGGIGGSINVKQ---FFNCKVTIAGKTTHASVL----VGPTPVNIVGR DWPVMEAANPQ-IHGIGGGIPVRKSRDMIELGVINRDGSLERPLLLFPLVAMTPVNILGR SD------KSAWVQGATGGKRYRW---TTDRKVHLATGKVTHSFLH---VPDCPYPLLGR . .. : * * : : : ..: . * :.** gi|443546|pdb|7 HIV2 simian gi|4389337|pdb| gi|224443|prf|| NLLTQIGXTLN------------------F NILT-------------------------NVLKKLGCTLN------------------DCLQGLGLRLT-----------------NL DLLTKLKAQIHFEGSGAQVMGPMGQPLQVL : *

76.

レトロウイルス・プロテアーゼのコンセンサス配列 (Hydrophobic)-Asp-Thr-Gly-(Small Hydrophilic)

77.

Proteases with the Sequences Similar to Retroviral Protease Motif Input: Retroviral Protease Motif Amino Acid Sequence Database

78.

Retroviral Protease califlower mosaic virus copi-like element 17.6 fruit fly Moloney murine leulkaemia virus human T-cell leukaemia virus Rous sarcoma virus LHCFV-DTGASLCIAS LKCLI-DTGSTVNMTS VTFLV-DTGAQHSVLT IEALL-DTGADMTVLP ITALL-DSGADITIIS Aspartic Acid Protease (C-terminal domain) pepsinogen（human） CQAIV-DTGTSLLTGP pepsinogen（pig） CQAIV-DTGTSLLTGP prochymosin（cow） CQAIL-DTGTSKLVGP penisilopepsin FSGIA-DTGTTLLLLP renin (mouse） CEVVV-DTGSSFISAP renin（human） CLALV-DTGASYISGS Aspartic Acid Protease (N-terminal domain) pepsinogen（human） DFTVVFDTGSSNLWVP pepsinogen（pig） DFTVIFDTGSSNLWVP prochymosin (cow） EFTVLFDTGSSDFWVP penusilopepsin TLNLNFDTGSSDFWVP renin (mouse） TFKVMFDTGSANLWVP renin (human) TFKVVFDTGSSNVWVP モチーフ配列は、酸性プロテアーゼの活性中⼼に類似

79.

N末ドメインと C末ドメインが相同 N D D ホモダイマー D C

80.

81.

予測レトロウイルスのプロテアーゼは酸性プロテアーゼである。 H. Toh et al. EMBO J. 4, 1267 (1985) H. Toh et al. Nature 315, 691 (1985) 実験 [1] 既知酸性プロテアーゼの立体構造を鋳型としたHIV プロテアーゼのホモロジー・モデリング L.H. Pearl and W.R. Taylor, Nature 329, 351 (1987). [2] 酸性プロテーゼ阻害剤（ペプスタチン）によるHIV プロテアーゼの阻害 R.F. Nutt et al. Proc. Natl. Acad. Sci. USA 85, 7129 (1988). P.L. Darke et al. J. Biol. Chem. 264, 2307 (1989). 検証 X 線結晶構造解析からHIV プロテアーゼは酸性プロテーゼと類似の構造である。 M. Miller et al. Science 246, 1149 (1989).

82.

Coffin, JM (1997)

83.

N末ドメインと C末ドメインが相同 N D D ホモダイマー D C

84.

mafftによる配列アラインメント CLUSTAL format alignment by MAFFT L-INS-i (v7.402) 2APRN 2APRC AGVGTVPMTDYGNDIEYYGQVTIGTPGKKFNLDFDTGSSDLWIASTLCTNCGSGQTKYDP ---------------------------------YD-------------------STKFKG :* .**:. 2APRN 2APRC NQSSTYQADGRT-WSISYGDGSSASGILAKDNVNLGGLLIKGQTI-----ELAKREAASF SLTTVPIDNSRGWWGITVDRATVGTSTVAS---SFDGILDTGTTLLILPNNIAASVARAY . ::. :.* *.*: . .: .:. :*. .:.*:* .* *: ::* * :: 2APRN 2APRC ASGPN-DGLLGLGFDT------ITTVRGV--KTPMDNLISQGLISRPIFGVYLGK----GASDNGDGTYTISCDTSAFKPLVFSINGASFQVSPDSLVFEEFQGQCIAGFGYGNWGFAI .:. * ** :. ** : ::.*. :.. *.*: : : .: * *. *: 2APRN 2APRC -----AKNGGGGEYI-------------FGG IGDTFLKN----NYVVFNQGVPEVQIAPVAE ** :*: .. 進化的関係が遠いと配列情報だけでは正しいアラインメントが作れない入力ファイルは 2aprNC.fasta

85.

構造を⽐較することの意味アミノ酸配列に⽐べ、⽴体構造は保存しやすいアミノ酸配列は類似していない、つまり配列レベルの検索で検出できないような類似性(遠い進化的関係）を、構造⽐較により検出できる。（構造データベース検索）また、⽴体構造⽐較から、配列レベルでは検出できない機能部位の同定も可能（構造アラインメント）

86.

図４ Δ＝0.40 exp(1.87H) Δ：common core 主鎖の重ねあわせのRMSD H：配列の相違度 Hが小さい時：表面のみの変化 Hが大きい時：表面と内部の変化内部の変化は表面に比べ大きな構造変化をもたらす

87.

構造⽐較のサイト http://ekhidna2.biocenter.helsinki.fi/dali/ 87

http://ekhidna2.biocenter.helsinki.fi/dali/

88.

10/7/23 88

89.

タンパク質の機能⽣化学的機能 vs Biochemical Function 酵素活性、リガンド結合能⽣物学的機能 Biological Function 記憶、発⽣、⾏動 X X

90.

ネットワークの解析のツール (1) R igraph (2) Cytoscape

91.

タンパク質間相互作⽤ネットワーク解析 1. 2. 3. 4. 5. ネットワーク可視化次数分布中⼼性解析コミュニティ抽出 …

92.

ネットワークの可視化 Igraphによる可視化の例

93.

次数分布次数：各ノードに接続する辺の数 degree(f) gene0 gene1 gene2 gene3 gene4 gene5 2 3 2 1 2 4

94.

次数分布を調べる

95.

次数分布 log-log plot log-log プロットをとると直線関係 ---à スケールフリーであることを⽰している少数のハブ(hub =次数の⾼いノード）と多数の次数の低いノードから構成されている

96.

スケールフリーネットワーク少数のハブと多数の相互作⽤の数の少ないノードからなる。ハブ多数の相互作⽤相⼿を持つ従来の鍵-鍵⽳モデルやinduced fitモデルでは説明できない天然変性領域がハブの役割を担っていることが多い

97.

スケールフリー性は、社会学をはじめとするこれまでの研究により、現実世界のネットワークで幅広く観察されている。・⼈々の持っている知⼈関係の数をみると、⼀部の⼈は⾮常にたくさんの知⼈を持っているが、⼤多数の⼈々の知⼈の数は限られている。・WWWではごく少数の有名サイトが数百万単位のリンクを集めているが、⼤多数のサイトはわずかなリンク先からしかリンクされていない。・⽣体内の相互作⽤でも、ごく⼀部のタンパク質が多数のタンパク質と相互作⽤する構造になっている。数学的には、スケールフリー性は頂点が次数 k を持つ確率 p(k) の確率分布が p(k) ∝ k-γ のべき乗則になると表現される log( p(k) ) ∝ γ log(k-) スケールフリーグラフが持つ注⽬すべき特性として、ネットワーク障害など「ランダムな故障や攻撃」に対して頑強性が⾼いことがあげられる。ただし、スケールフリーなネットワークの場合、特定の重要なハブをピンポイントで狙った攻撃に対しては脆弱 https://ja.wikipedia.org/wiki/複雑ネットワークより

https://ja.wikipedia.org/wiki/複雑ネットワーク

98.

中⼼性ノードがネットワーク中でどの程度中⼼的であるかを評価する指標ネットワークの中の各ノードの重要性の評価に⽤いられる様々な中⼼性の定義がある次数中⼼性近接中⼼性媒介中⼼性次数の⾼いノードが重要他のノードに短い距離で繋がるノードが重要ノード間最短距離を考えた時によく通過するノードが重要固有ベクトル中⼼性隣接するノードの中⼼性も考慮次数中⼼性の拡張版 (Google Page rankで使⽤）

99.

タンパク質間相互作⽤ネットワークの中⼼性解析 ecoli_proteins_essentiality_Baba2006MSB.txt Baba et al. (2006) Mol Syst Biol 2, 0008 gene essential . . . b0023 N non essential b0024 u unknown b0025 N b0026 E essential . . .

100.

中⼼性が⾼いものほどessentialなものが多い

101.

重複可能性(duplicability)とネットワークの関係

102.

(2012) 進化速度と中⼼性の相関は⼀般には低いが、特定の機能カテゴリーについては、発現レベルと進化速度の間の相関と同程度かそれ以上の相関を⽰す。ネットワーク内で相互作⽤するタンパク質をコードする遺伝⼦は⽐較的類似した進化速度を持つシロイヌナズナでは重複している遺伝⼦由来のタンパク質の⽅が、シングルトン（重複のない）遺伝⼦由来のタンパク質の⽅が⾼度に相互作⽤が多く、ヒトでも同じ傾向。⼀⽅、E. coli, 酵⺟、線⾍、ハエでは重複遺伝⼦はネットワークの周辺に位置する傾向がある。 ---à 中⼼性と重複可能性(duplicability)の関係が、真核⽣物の進化の過程で少なくとも２回逆転した

103.

104.

(2012) 中⼼性と重複可能性との関係の⽅向性は普遍的ではない： Escherichia coli、酵⺟、ハエ、および線⾍では、重複した遺伝⼦はネットワークの周辺に存在する傾向ヒトでは重複しが遺伝⼦はネットワークの中⼼的な位置を占める傾向霊⻑類の異なる系統の各枝で起きた重複について調査種系統樹の13の枝のうち、10個の枝で重複した遺伝⼦の⽅が、重複のない遺伝⼦よりも次数が⾼いそのうち、５つの枝でその差は統計的に有意 3個の枝（ヒトへ⾄る外部枝を含む）で逆のパターン。そのうち２つ（ヒトへ⾄る外部枝含む）でその差は統計的に有意次数以外の中⼼性でも同様の傾向が⾒られる。中⼼性と重複可能性には関連はあるが、その関係性は霊⻑類の進化の過程で変化している。相互作⽤するタンパク質の遺伝⼦は、同じ枝で同時に重複する傾向がある。

105.

106.

Conclusion ⽣化学的機能の解析: アミノ酸配列データ、⽴体構造データ⽣物学的機能の解析相互作⽤データタンパク質の情報解析には、その他にも使えるデータがある（塩基配列、ゲノムデータ、etc) 異なるタイプのデータを組み合わせることで、個別のデータのみを⽤いるより豊かな情報を得ることができる

計算生命科学の基礎10（藤博幸）

R-CCS　計算科学研究推進室

関連スライド

第1回配信講義　計算科学技術特論A （2023）

第1回配信講義　計算科学技術特論A（2025）

第2回配信講義　計算科学技術特論A （2023）

第6回配信講義　計算科学技術特論A （2023）

第8回配信講義　計算科学技術特論A （2023）

第４回配信講義　計算科学技術特論A （2023）

各ページのテキスト

計算生命科学の基礎10（藤 博幸）

R-CCS 計算科学研究推進室

関連スライド

第1回 配信講義 計算科学技術特論A （2023）

第1回 配信講義 計算科学技術特論A（2025）

第2回 配信講義 計算科学技術特論A （2023）

第6回 配信講義 計算科学技術特論A （2023）

第8回 配信講義 計算科学技術特論A （2023）

第４回 配信講義 計算科学技術特論A （2023）

各ページのテキスト

計算生命科学の基礎10（藤博幸）

R-CCS　計算科学研究推進室

第1回配信講義　計算科学技術特論A （2023）

第1回配信講義　計算科学技術特論A（2025）

第2回配信講義　計算科学技術特論A （2023）

第6回配信講義　計算科学技術特論A （2023）

第8回配信講義　計算科学技術特論A （2023）

第４回配信講義　計算科学技術特論A （2023）