タンパク質たんぱくしつ構造こうぞう予測よそく

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』
構成こうせいアミノ酸あみのさん分析ぶんせきして、タンパク質たんぱくしつさんよん構造こうぞう予測よそくすることができる。

タンパク質たんぱくしつ構造こうぞう予測よそく (たんぱくしつこうぞうよそく、えい: protein structure prediction) は、タンパク質たんぱくしつについてそのアミノ酸あみのさん配列はいれつをもとに3次元じげん構造こうぞう立体りったいはい)を推定すいていすることであり、バイオインフォマティクスおよび計算けいさん化学かがくにおける研究けんきゅう分野ぶんやひとつである。専門せんもんてき言葉ことばでは「タンパク質たんぱくしついち構造こうぞうをもとに構造こうぞうさん構造こうぞう予測よそくすること」と表現ひょうげんできる。構造こうぞう予測よそくは、ぎゃく問題もんだいであるタンパク質たんぱくしつ設計せっけいとはことなる。タンパク質たんぱくしつアミノ酸あみのさん配列はいれついち構造こうぞうばれる。タンパク質たんぱくしつアミノ酸あみのさん配列はいれつは、その遺伝子いでんし記録きろくされたDNA塩基えんき配列はいれつから、遺伝いでんコード(コドン)の対応たいおうひょうもとづいて、導出どうしゅつすることができる。生体せいたいないにおいて、ほとんどのタンパク質たんぱくしついち構造こうぞう一意的いちいてきに3次元じげん構造こうぞうさん構造こうぞう、コンフォメーション)を形成けいせいする。これをタンパク質たんぱくしつりたたまれる(フォールディング)という。タンパク質たんぱくしつの3次元じげん構造こうぞうることは、そのタンパク質たんぱくしつ機能きのう理解りかいするじょう有力ゆうりょくがかりとなる。医学いがくれい医薬品いやくひん設計せっけい)や、バイオテクノロジーれいあたらしい酵素こうそ設計せっけい)において重要じゅうよう役割やくわりたしている。

タンパク質たんぱくしつ構造こうぞう予測よそくにおいてはおおくの手法しゅほう考案こうあんされている。それぞれの手法しゅほう性能せいのうは、2ねんごとにCASP実験じっけんおこなわれ、評価ひょうかされている。タンパク質たんぱくしつ構造こうぞう予測よそくウェブサーバの継続けいぞくてき評価ひょうかは、コミュニティプロジェクトCAMEO3D英語えいごばんによっておこなわれている。

概要がいよう[編集へんしゅう]

現在げんざいではタンパク質たんぱくしつ構造こうぞう予測よそくたす役割やくわりは、これまで以上いじょう重要じゅうようになっている。近年きんねんヒトゲノム計画けいかくなどDNA塩基えんき配列はいれつ解読かいどくするだい規模きぼなプロジェクトがさかんにおこなわれるようになってきている。 こうしたプロジェクトの成果せいかであるDNA塩基えんき配列はいれつのデータから、遺伝いでんコードの対応たいおうひょうもとづいて、非常ひじょうおおくのタンパク質たんぱくしつアミノ酸あみのさん配列はいれつのデータを導出どうしゅつすることができる。公共こうきょう配列はいれつデータベースGenBankSwiss-Protなど)に蓄積ちくせきされるアミノ酸あみのさん配列はいれつのデータは急速きゅうそく増大ぞうだいしているが、現在げんざいのところ、実験じっけんによる方法ほうほう決定けっていされたタンパク質たんぱくしつ構造こうぞうデータの増加ぞうかペースはあまりたかくない。実験じっけんによる方法ほうほうタンパク質たんぱくしつ構造こうぞう決定けっていする作業さぎょうでは、Xせん回折かいせつかく磁気じき共鳴きょうめい(NMR)のような時間じかんがかかり費用ひようようする手法しゅほう使つかうことがおおい。そのため、この項目こうもく説明せつめいする予測よそくによる方法ほうほうタンパク質たんぱくしつ構造こうぞう解明かいめいすることがおおおこなわれている。

しかしタンパク質たんぱくしつ構造こうぞう予測よそく非常ひじょうむずかしい。その背景はいけいには、つぎべるようなおおくの要因よういんがある。

  • タンパク質たんぱくしつがとる可能かのうせいがある構造こうぞうかずは、膨大ぼうだいである(レヴィンタールのパラドックス)。
  • タンパク質たんぱくしつ構造こうぞう安定あんていせいかんする物理ぶつりがくてき基盤きばんが、あまり理解りかいされていない。
  • 一部いちぶタンパク質たんぱくしつでは、そのいち構造こうぞうのみでさん構造こうぞう決定けっていできないことがある。たとえば、シャペロンという名前なまえられる一群いちぐんタンパク質たんぱくしつは、べつタンパク質たんぱくしつまさしくりたたむ(さん構造こうぞうをとる)のをたすける。
  • 分子ぶんし動力どうりょくがくほう(MDほう)のような手法しゅほうタンパク質たんぱくしつりたたみ直接ちょくせつシミュレートすることは、実際じっさいてき理由りゆうおよび理論りろんてき理由りゆうから、一般いっぱんてきにはあつかいにくい。

このような困難こんなんはあるが、タンパク質たんぱくしつ構造こうぞう予測よそく関心かんしんおおくの研究けんきゅうグループにより、すうおおくの進歩しんぽがなされてきている。 ちいさなタンパク質たんぱくしつ構造こうぞう予測よそくについては、現在げんざいでは手法しゅほう確立かくりつしている。さまざまな手法しゅほうタンパク質たんぱくしつ構造こうぞう予測よそく日常にちじょうてきおこなわれるようになっている。タンパク質たんぱくしつ構造こうぞう予測よそく手法しゅほうは、de novoモデリングと比較ひかくモデリングの2つにおおきく分類ぶんるいすることができる。

タンパク質たんぱくしつ構造こうぞう用語ようご[編集へんしゅう]

タンパク質たんぱくしつは、アミノ酸あみのさんペプチド結合けつごうでつながったくさりである。このくさりは、かくαあるふぁ炭素たんそ原子げんし(Cαあるふぁ原子げんし)を中心ちゅうしん回転かいてんするため、おおくのコンフォメーション立体りったい構造こうぞう)が可能かのうである。タンパク質たんぱくしつさん次元じげん構造こうぞうちがいは、このようなコンフォメーション変化へんかによるものである。くさりないかくアミノ酸あみのさん極性きょくせいっている。つまり、せいまけ電荷でんか領域りょういきかれており、水素すいそ結合けつごうのアクセプターとなる遊離ゆうりカルボニルもとと、水素すいそ結合けつごうのドナーとなるNHもとっている。そのため、これらのもとタンパク質たんぱくしつ構造こうぞうなか相互そうご作用さようすることができる。20種類しゅるいアミノ酸あみのさん[どれ?]構造こうぞうてきにも重要じゅうよう役割やくわりたすがわくさり化学かがくてき性質せいしつによって分類ぶんるいできる。グリシンは、もっとちいさいがわくさりち、水素すいそ原子げんしが1つしかないため、タンパク質たんぱくしつ構造こうぞう局所きょくしょてき柔軟じゅうなんせいたかめることができるという特別とくべつ立場たちばにある。一方いっぽうシステインべつのシステインざんもと反応はんのうして構造こうぞう全体ぜんたい安定あんていさせる架橋かきょう形成けいせいすることができる[よう出典しゅってん]

タンパク質たんぱくしつ構造こうぞうは、αあるふぁヘリックスやβべーたシートなどの構造こうぞうてき要素ようそならびとかんがえることができ、これらの要素ようそわさってタンパク質たんぱくしつくさり全体ぜんたいてき立体りったい構造こうぞう構成こうせいしている。このような構造こうぞうでは、隣接りんせつするアミノ酸あみのさんあいだ水素すいそ結合けつごう規則きそくてきパターンが形成けいせいされ、アミノ酸あみのさんΦふぁいかくΨぷさいかく[よう説明せつめい]類似るいじしている[よう出典しゅってん]

結合けつごうΦふぁいかくψぷさいかく

これらの構造こうぞう形成けいせいは、かくアミノ酸あみのさん極性きょくせいもと中和ちゅうわする。構造こうぞうは、疎水そすいせい環境かんきょうタンパク質たんぱくしつコアにしっかりとまれている。かくアミノ酸あみのさんがわくさり占有せんゆうする体積たいせきかぎられており、ちかくにあるほかがわくさりとの相互そうご作用さようかずかぎられているため、分子ぶんしモデリングやアライメントのさいにはこの状況じょうきょう考慮こうりょする必要ひつようがある[1]

αあるふぁヘリックス[編集へんしゅう]

αあるふぁヘリックスは、タンパク質たんぱくしつ構造こうぞうなかもっとおお存在そんざいするタイプである。αあるふぁヘリックスは、1ターンあたり3.6アミノ酸あみのさんち、4番目ばんめざんもとごとに水素すいそ結合けつごう形成けいせいされている。平均へいきんてきながさは10アミノ酸あみのさん(3ターン)または10Åだが、5~40(1.5~11ターン)とばらつきがある。水素すいそ結合けつごう整列せいれつすることで、ヘリックスに双極そうきょくモーメントがしょうじ、その結果けっか、ヘリックスのアミノ末端まったん部分ぶぶんてきせい電荷でんかしょうじる。この領域りょういきには遊離ゆうりNH2もとがあるため、リンさんしおなどのまけ電荷でんかもと相互そうご作用さようする。αあるふぁヘリックスは、タンパク質たんぱくしつコアの表面ひょうめんもっとおお存在そんざいし、そこは水性すいせい環境かんきょうとの界面かいめんとなっている。らせんの内側うちがわめんするがわ疎水そすいせいアミノ酸あみのさんが、外側そとがわめんするがわ親水しんすいせいアミノ酸あみのさん存在そんざいする傾向けいこうがある。このように、4つのアミノ酸あみのさんのうち3ぶんの1ずつが疎水そすいせいになる傾向けいこうがあり、このパターンは容易よういつけることができる。ロイシンジッパーモチーフでは、隣接りんせつする2つのヘリックスのかいめんにあるロイシンのかえしパターンがモチーフの予測よそくおおきく影響えいきょうしている。ヘリカルホイール英語えいごばんプロットを使用しようして、このかえしパターンをしめすことができる。タンパク質たんぱくしつコアや細胞さいぼうまくうずもれているほかαあるふぁヘリックスは、疎水そすいせいアミノ酸あみのさん分布ぶんぷがよりたかく、規則きそくてきであり、そのような構造こうぞう予測よそく可能かのうである。表面ひょうめん露出ろしゅつしたヘリックスは、疎水そすいせいアミノ酸あみのさん割合わりあいひくい。アミノ酸あみのさん含有がんゆうりょうは、αあるふぁヘリックス領域りょういき予測よそくすることができる。アラニン(A)、グルタミン酸ぐるたみんさん(E)、ロイシン(L)、メチオニン(M)にみ、プロリン(P)、グリシン(G)、チロシン(Y)、セリン(S)にとぼしい領域りょういきは、αあるふぁヘリックスを形成けいせいさせる傾向けいこうがある。プロリンは、αあるふぁヘリックスを不安定ふあんていにしたり破壊はかいしたりするが、よりながいヘリックスに存在そんざいし、屈曲くっきょく形成けいせいすることもある。

水素すいそ結合けつごう(黄色おうしょく点線てんせん)をαあるふぁヘリックス(緑色みどりいろのらせん構造こうぞう)。

βべーたシート[編集へんしゅう]

βべーたシートは、くさり一部分いちぶぶんにある平均へいきん5~10連続れんぞくしたアミノ酸あみのさんと、そのさきにあるべつの5~10アミノ酸あみのさんとのあいだ水素すいそ結合けつごうによって形成けいせいされる。相互そうご作用さようする領域りょういきは、隣接りんせつしていてあいだみじかいループがある場合ばあいもあれば、はなれていてそのあいだ構造こうぞう存在そんざいする場合ばあいもある。すべてのくさりおな方向ほうこうはしって平行へいこうシートを形成けいせいしたり、のすべてのくさり化学かがくてきぎゃく方向ほうこうはしってはん平行へいこうシートを形成けいせいしたり、またはくさり平行へいこうおよびはん平行へいこうはしって混合こんごうシートを形成けいせいしてもよい。平行へいこうがたはん平行へいこうがたでは、水素すいそ結合けつごうのパターンはことなっている。シートの内部ないぶストランドのかくアミノ酸あみのさん隣接りんせつするアミノ酸あみのさんと2つの水素すいそ結合けつごう形成けいせいするのにたいし、外部がいぶストランドのかくアミノ酸あみのさん内部ないぶストランドと1つの結合けつごうしか形成けいせいしない。ストランドにたいして直角ちょっかくにシートを横切よこぎってたとき、よりはなれたストランドがわずかにはん時計とけいまわりに回転かいてんして、左巻ひだりまきのねじれを形成けいせいしている。Cαあるふぁ原子げんしはプリーツ構造こうぞうのシートの上下じょうげ交互こうご配置はいちされ、アミノ酸あみのさんのRがわもとはプリーツの上下じょうげ交互こうご配置はいちされる。シートちゅうアミノ酸あみのさんΦふぁいかくΨぷさいかくは、ラマチャンドランプロットの1つの領域りょういきおおきく変化へんかする。βべーたシートの位置いち予測よそくすることは、αあるふぁへリックスよりも困難こんなんである。多重たじゅう整列せいれつにおけるアミノ酸あみのさんのバリエーションを考慮こうりょすると、状況じょうきょう多少たしょう改善かいぜんされる。

ループ[編集へんしゅう]

タンパク質たんぱくしつ一部いちぶ固定こていした立体りったい構造こうぞうっているが、規則きそくてき構造こうぞう形成けいせいしていない。これらを、タンパク質たんぱくしつ無秩序むちつじょ部分ぶぶんりたたまれていない部分ぶぶん、あるいはランダムコイル固定こていされたさん次元じげん構造こうぞうたないりたたまれていないポリペプチドくさり)と混同こんどうしてはならない。これらの部分ぶぶんは、βべーたシートとαあるふぁへリックスをつなぐことから、しばしば「ループ」とばれている。ループは通常つうじょうタンパク質たんぱくしつ表面ひょうめん位置いちしているため、そのざんもと容易ようい突然変異とつぜんへんいゆるされる。配列はいれつアライメント特定とくてい領域りょういきで、置換ちかん挿入そうにゅう削除さくじょかずおおいことは、ループの兆候ちょうこうである可能かのうせいがある。ゲノムDNAじょうイントロン位置いちは、コードされたタンパク質たんぱくしつのループの位置いち相関そうかんしている可能かのうせいがある[よう出典しゅってん]。ループはまた、荷電かでんアミノ酸あみのさん極性きょくせいアミノ酸あみのさん傾向けいこうがあり、しばしば活性かっせい部位ぶい構成こうせい要素ようそとなる。

タンパク質たんぱくしつ分類ぶんるい[編集へんしゅう]

タンパク質たんぱくしつは、構造こうぞうてき類似るいじせい配列はいれつ類似るいじせい両方りょうほうしたがって分類ぶんるいできる。構造こうぞう分類ぶんるいでは、上述じょうじゅつ構造こうぞうおおきさや空間くうかんてき配置はいちを、既知きちさん次元じげん構造こうぞうなか比較ひかくする。歴史れきしてきには、配列はいれつ類似るいじせいもとづく分類ぶんるい最初さいしょ使用しようされた。最初さいしょに、ぜん配列はいれつのアライメントにもとづく類似るいじせいによる分類ぶんるい実施じっしされた。その保存ほぞんアミノ酸あみのさんパターン出現しゅつげんもとづいてタンパク質たんぱくしつ分類ぶんるいされた。これらの方式ほうしきタンパク質たんぱくしつ分類ぶんるいしたデータベース利用りようできる。タンパク質たんぱくしつ分類ぶんるい方法ほうほう検討けんとうするさいには、いくつかのてん留意りゅういする必要ひつようがある。だいいちに、ことなる進化しんか起源きげんからのまったことなるタンパク質たんぱくしつ配列はいれつは、おなじような構造こうぞうりたたまれる可能かのうせいがある。ぎゃくに、特定とくてい構造こうぞう古代こだい遺伝子いでんし配列はいれつは、おな基本きほんてき構造こうぞうてき特徴とくちょう維持いじしながらも、ことなるたねおおきく分岐ぶんきしている可能かのうせいがある。このような場合ばあいのこっている配列はいれつ類似るいじせい認識にんしきすることは、非常ひじょう困難こんなん作業さぎょうとなる可能かのうせいがある。だいに、たがいにあるいはだい3の配列はいれつとかなりの程度ていど配列はいれつ類似るいじせい共有きょうゆうする2つのタンパク質たんぱくしつも、進化しんかてき起源きげん共有きょうゆうし、いくつかの構造こうぞうてき特徴とくちょう共有きょうゆうしているとかんがえられている。しかし、進化しんか過程かてい遺伝子いでんし重複じゅうふく遺伝子いでんしさい編成へんせいこると、あたらしい遺伝子いでんしのコピーがまれ、それがあたらしい機能きのう構造こうぞうタンパク質たんぱくしつ進化しんかすることがある[1]

タンパク質たんぱくしつ構造こうぞう配列はいれつ分類ぶんるいするための用語ようご[編集へんしゅう]

タンパク質たんぱくしつあいだ進化しんか構造こうぞう関係かんけいについてより一般いっぱんてき使用しようされる用語ようご以下いかしめす。このほかにも、タンパク質たんぱくしつのさまざまな種類しゅるい構造こうぞうじょう特徴とくちょうあらわす、おおくの追加ついか用語ようご使つかいられる。このような用語ようご説明せつめいは、CATH Webサイト、タンパク質たんぱくしつ立体りったい構造こうぞう分類ぶんるいデータベース(SCOP)Webサイト、スイスのバイオインフォマティクスExpasy Webサイトに掲載けいさいされているグラクソ・ウエルカムチュートリアルなどに掲載けいさいされている。

活性かっせい部位ぶい
化学かがくてき特異とくいてき基質きしつ相互そうご作用さようすることができ、タンパク質たんぱくしつ生物せいぶつがくてき活性かっせいあたえる、さん構造こうぞうさん次元じげん)またはよん構造こうぞうタンパク質たんぱくしつサブユニット)ないアミノ酸あみのさんがわくさり局所きょくしょてきわせのこと。まったことなるアミノ酸あみのさん配列はいれつタンパク質たんぱくしつは、おな活性かっせい部位ぶい構造こうぞうりたたまれることがある。
アーキテクチャ
さん次元じげん構造こうぞうにおける構造こうぞう相対そうたいてききであり、類似るいじのループ構造こうぞう共有きょうゆうしているかどうかにかかわらずあらわしたもの。
りたたみ(トポロジー)
保存ほぞんループ構造こうぞうつアーキテクチャの一種いっしゅ
ブロック
タンパク質たんぱくしつファミリーの保存ほぞんアミノ酸あみのさん配列はいれつパターン。そのパターンには、表現ひょうげんされた配列はいれつじょうかく位置いちにマッチする可能かのうせいのある一連いちれんのものがふくまれているが、パターンにも配列はいれつにも挿入そうにゅう削除さくじょ位置いちはない。対照たいしょうてきに、配列はいれつプロファイルは、挿入そうにゅう削除さくじょふく類似るいじのパターンのあつまりをあらわすスコアリングマトリックスの一種いっしゅである。
クラス英語えいごばん
タンパク質たんぱくしつドメインを、構造こうぞう内容ないよう構成こうせいおうじて分類ぶんるいするための用語ようご。LevittとChothia (1976)によって4つのクラス英語えいごばん最初さいしょ認識にんしきされ、ほかにもいくつかのクラスがSCOPデータベースに追加ついかされている。CATHデータベースでは、All-αあるふぁ、All-βべーたαあるふぁ-βべーたの3つのクラスがあり、αあるふぁ-βべーたクラスには交互こうごがたαあるふぁ/βべーた構造こうぞう分離ぶんりがたαあるふぁ+βべーた構造こうぞう両方りょうほうふくまれる。
コア
りたたまれたタンパク質たんぱくしつ分子ぶんしのうち、αあるふぁヘリックスとβべーたシートの疎水そすいせい内部ないぶ構成こうせいする部分ぶぶん。コンパクトな構造こうぞうにより、アミノ酸あみのさんがわくさり十分じゅうぶん接近せっきんしているため、相互そうご作用さようすることができる。SCOPデータベースのようにタンパク質たんぱくしつ構造こうぞう比較ひかくする場合ばあい、コアとは、共通きょうつうのフォールドをつ、またはおなじスーパーファミリーにあるほとんどの構造こうぞう共通きょうつうする領域りょういきである。構造こうぞう予測よそくでは、進化しんか過程かてい保存ほぞんされる可能かのうせいたか構造こうぞう配列はいれつをコアと定義ていぎすることがある。
ドメイン配列はいれつ文脈ぶんみゃく
ポリペプチドくさりじょうほかのセグメントの存在そんざいにかかわらず、さん次元じげん構造こうぞうりたたむことができるポリペプチドくさりのセグメント。あるタンパク質たんぱくしつ別個べっこのドメインは、広範囲こうはんいわたって相互そうご作用さようすることもあれば、ポリペプチドくさりながさのみで結合けつごうすることもある。複数ふくすうのドメインをタンパク質たんぱくしつは、ことなる分子ぶんしとの機能きのうてき相互そうご作用さようのために、これらのドメインを使用しようする場合ばあいがある。
ファミリー配列はいれつ文脈ぶんみゃく
整列せいれつさせたときに50%以上いじょう同一どういつせいがある生化学せいかがくてき機能きのう類似るいじしたタンパク質たんぱくしつのグループ。この判断はんだん基準きじゅんは、現在げんざいタンパク質たんぱくしつ情報じょうほう資源しげん英語えいごばん(PIR)で使用しようされている。タンパク質たんぱくしつファミリーは、ことなる生物せいぶつおな機能きのうタンパク質たんぱくしつ(オーソロガス配列はいれつ)で構成こうせいされているが、遺伝子いでんし重複じゅうふくさい配列はいれつ由来ゆらいするどういち生物せいぶつタンパク質たんぱくしつ(パラロガス配列はいれつ)がふくまれる場合ばあいもある。あるタンパク質たんぱくしつファミリーの多重たじゅう整列せいれつ結果けっかタンパク質たんぱくしつなが全体ぜんたい共通きょうつうレベルの類似るいじせいられる場合ばあい、PIRはそのファミリーをあいどうファミリーとんでいる。整列せいれつした領域りょういきあいどうドメインとばれ、この領域りょういきのファミリーと共有きょうゆうされるいくつかのちいさなあいどうドメインから構成こうせいされている場合ばあいがある。ファミリーは、配列はいれつ類似るいじせいこうレベルまたはていレベルにもとづいて、さらにサブファミリーに細分さいぶんされたり、スーパーファミリーにグループされる。SCOPデータベースでは1296ファミリーが、CATHデータベース(バージョン1.7ベータばん)では1846ファミリーが報告ほうこくされている。:おな機能きのうタンパク質たんぱくしつ配列はいれつくわしく調しらべると、類似るいじせいたか配列はいれつ共有きょうゆうしているものがある。上記じょうき基準きじゅんでは、これらはあきらかにおなじファミリーの一員いちいんである。しかし、のファミリーメンバーとの配列はいれつ類似るいじせいがほとんどないか、あるいはわずかであるものもられる。このような場合ばあい、2つの遠縁とおえんのファミリーメンバーAとCのあいだのファミリー関係かんけいは、AとCの両方りょうほう有意ゆうい類似るいじせい共有きょうゆうする追加ついかのファミリーメンバーBをつけることによって説明せつめいされることがよくある。このように、BはAとCのあいだをつなぐ役割やくわりたす。もうひとつの方法ほうほうは、とおくのアライメントを調しらべて、保存ほぞんたか一致いっちさがすことである。
同一どういつせいレベルが50%の場合ばあいタンパク質たんぱくしつおなさん次元じげん構造こうぞう可能かのうせいたかく、配列はいれつアライメントの同一どういつ原子げんし構造こうぞうモデルにおいてもやく1Åの範囲はんいかさなりう。このように、あるファミリーで1つのメンバーの構造こうぞうがわかっていれば、そのファミリーのべつのメンバーについても信頼しんらいせいたか立体りったい構造こうぞう予測よそくできる可能かのうせいがあり、同一どういつせいレベルがたかいほど、その予測よそく信頼しんらいせいたかくなる。タンパク質たんぱくしつ構造こうぞうモデリングは、アミノ酸あみのさん置換ちかんさん次元じげん構造こうぞうのコアにどれだけ適合てきごうするかを調しらべることでおこなうことができる。
ファミリー(構造こうぞう文脈ぶんみゃく
FSSPデータベース構造こうぞう類似るいじタンパク質たんぱくしつファミリーのデータベース)やDALI/FSSP Webサイトで使用しようされているように、構造こうぞうてき有意ゆういなレベルで類似るいじしているが、かならずしも有意ゆうい配列はいれつ類似るいじせいたない2つの構造こうぞう
りたたみ(フォールディング
構造こうぞうモチーフと同様どうようで、おな構成こうせい構造こうぞう単位たんいのよりおおきなわせをふくむ。このように、おなりたたみをタンパク質たんぱくしつは、構造こうぞうわせがおなじで、おなじようなループでむすばれている。たとえば、いくつかの交互こうごαあるふぁヘリックスと平行へいこうβべーた-ストランドからなるロスマンフォールドがあげられる。SCOP、CATH、FSSPのデータベースでは、既知きちタンパク質たんぱくしつ構造こうぞうが、構造こうぞう複雑ふくざつさにおうじて階層かいそうてき分類ぶんるいされていて、その基本きほんレベルは「フォールド(りたたみ)」がもちいられている。
あいどうドメイン(配列はいれつ文脈ぶんみゃく
一般いっぱんてき配列はいれつアラインメントほうによって見出みいだされる拡張かくちょう配列はいれつパターン。これは、整列せいれつされた配列はいれつあいだにおける共通きょうつう進化しんかてき起源きげんしめす。あいどうドメインは一般いっぱんてきにモチーフよりもながい。ドメインは、あたえられたタンパク質たんぱくしつ配列はいれつのすべてをふくむこともあれば、配列はいれつ一部いちぶのみをふく場合ばあいもある。ドメインのなかには複雑ふくざつなものもあり、進化しんか過程かていでいくつかのちいさなあいどうドメインが結合けつごうしておおきなドメインになったものもある。配列はいれつ全体ぜんたいをカバーするドメインは、PIR(タンパク質たんぱくしつ情報じょうほう資源しげん英語えいごばん)によってあいどうドメインとばれている。
モジュール
1つまたは複数ふくすうのモチーフからなる保存ほぞんアミノ酸あみのさんパターンの領域りょういきで、構造こうぞうまたは機能きのう基本きほん単位たんいかんがえられているもの。モジュールの存在そんざいは、タンパク質たんぱくしつをファミリーに分類ぶんるいするのにも使用しようされている。
モチーフ配列はいれつ文脈ぶんみゃく
2つ以上いじょうタンパク質たんぱくしつられる、保存ほぞんアミノ酸あみのさんパターン。Prositeカタログ英語えいごばんでは、モチーフとは、生化学せいかがくてきおなじような活性かっせいタンパク質たんぱくしつのグループにられるアミノ酸あみのさんパターンで、おおくの場合ばあいタンパク質たんぱくしつ活性かっせい部位ぶいちかくにある。配列はいれつモチーフデータベースのれいとしては、PrositeカタログやStanford Motifs Databaseなどがある[2]
モチーフ(構造こうぞう文脈ぶんみゃく
ポリペプチドくさり隣接りんせつする部分ぶぶん特定とくていさん次元じげん構造こうぞうりたたまれることによってしょうじる、いくつかの構造こうぞう要素ようそわせである。たとえば、ヘリックス-ループ-ヘリックスのモチーフがある。構造こうぞうモチーフは、ちょう構造こうぞうちょうフォールドともばれる。
位置いち特異とくいてきスコアリングマトリックス英語えいごばん配列はいれつ文脈ぶんみゃく
ギャップのない多重たじゅう整列せいれつにおける保存ほぞん領域りょういきあらわす。マトリックスのかくれつは、多重たじゅう整列せいれつの1れつられるバリエーションをあらわす。ウェイトマトリックスまたはスコアリングマトリックスともばれる。
位置いち特異とくいてきスコアリングマトリックス-3D (構造こうぞう文脈ぶんみゃく
おな構造こうぞうクラスに分類ぶんるいされるタンパク質たんぱくしつのアライメントにられるアミノ酸あみのさんのバリエーションをあらわす。マトリックスのれつは、整列せいれつした構造こうぞうたいの1つのアミノ酸あみのさん位置いちつかったアミノ酸あみのさんのバリエーションをあらわしている。
プロファイル英語えいごばん配列はいれつ文脈ぶんみゃく
タンパク質たんぱくしつファミリーの多重たじゅう整列せいれつあらわすスコアリングマトリックス。プロファイルは、通常つうじょう多重たじゅう整列せいれつなかで「よく保存ほぞんされた領域りょういき」から取得しゅとくされる。プロファイルはマトリックスの形式けいしきで、かくれつはアライメントない位置いちあらわし、各行かくこうアミノ酸あみのさんの1つをあらわす。マトリックスのは、かくアミノ酸あみのさんがアライメントの対応たいおうする位置いちにある可能かのうせいしめす。プロファイルはターゲット配列はいれつ沿って移動いどうされ、動的どうてき計画けいかくほうアルゴリズムによって最良さいりょうのスコアリング領域りょういきつだす。マッチングのギャップは許容きょようされており、このケースにはアミノ酸あみのさんがマッチしなかった場合ばあいまけのスコアであるギャップペナルティがふくまれる。配列はいれつプロファイルは、かくれマルコフモデルあらわすこともでき、プロファイルHMMとばれる。
プロファイル(構造こうぞう文脈ぶんみゃく
既知きちタンパク質たんぱくしつ構造こうぞう連続れんぞくした位置いちに、どのアミノ酸あみのさんがうまく適合てきごうし、どのアミノ酸あみのさんがうまく適合てきごうしないのかをあらわすスコアリングマトリックス。プロファイルのれつ構造こうぞうない連続れんぞくした位置いちあらわし、プロファイルのくだりは20アミノ酸あみのさんあらわしている。配列はいれつプロファイルと同様どうように、構造こうぞうプロファイルもターゲット配列はいれつ沿って移動いどうされ、動的どうてき計画けいかくほうアルゴリズムにより、可能かのうかぎたかいアライメントスコアをつだす。ギャップがふくまれ、ペナルティをける場合ばあいがある。られたスコアは、対象たいしょうとなるタンパク質たんぱくしつがそのような構造こうぞうをとる可能かのうせいしめすものである。
いち構造こうぞう
タンパク質たんぱくしつちょくくさりじょうアミノ酸あみのさん配列はいれつのこと。化学かがくてきには、アミノ酸あみのさんがペプチド結合けつごう結合けつごうしたポリペプチドくさりである。
構造こうぞう
ポリペプチドくさり構成こうせいするアミノ酸あみのさんのC、O、NHもとあいだ相互そうご作用さようにより、αあるふぁヘリックス、βべーたシート、ターン、ループ、およびその形態けいたい形成けいせいされ、さん次元じげん構造こうぞうへのりたたみが促進そくしんされること。
さん構造こうぞう
さん構造こうぞうとは、ポリペプチドくさり構造こうぞうかさなってできた立体りったいてき構造こうぞうまたは球状きゅうじょう構造こうぞうのこと[1]
よん構造こうぞう
複数ふくすう独立どくりつしたポリペプチドくさりからなるタンパク質たんぱくしつ分子ぶんしさん次元じげん構造こうぞう
スーパーファミリー
とおはなれていても検出けんしゅつ可能かのう配列はいれつ類似るいじせいによって関連かんれんしている、おなじまたはことなるながさのタンパク質たんぱくしつファミリーのグループ。このように、あるスーパーファミリーのメンバーは、共通きょうつう進化しんかてき起源きげんっている。もともとはDayhoffが、スーパーファミリーであることの判断はんだん基準きじゅんを、アライメントスコアにもとづいて、配列はいれつ関連かんれんしていない可能かのうせいが10 6であると定義ていぎした(Dayhoff et al. 1978)。配列はいれつアライメントの同一どういつせいひくタンパク質たんぱくしつでも、納得なっとくのゆく共通きょうつうかず構造こうぞうてきおよび機能きのうてき特徴とくちょうっていれば、おなじスーパーファミリーに分類ぶんるいされる。スーパーファミリータンパク質たんぱくしつは、さん次元じげん構造こうぞうのレベルでは共通きょうつうりたたみなどの構造こうぞうてき特徴とくちょう共有きょうゆうするが、構造こうぞうかず配置はいちことなる場合ばあいもある。 PIRリソースでは、同相どうしょうスーパーファミリー(homeomorphic superfamily)という言葉ことば使用しようして、配列はいれつはしからはしまでをそろえることができ、単一たんいつ配列はいれつしょう同性どうせいドメイン(配列はいれつ全体ぜんたいひろがる類似るいじせいのある領域りょういき)を共有きょうゆうしているスーパーファミリーのことをす。このドメインは、タンパク質たんぱくしつファミリーやスーパーファミリーと共有きょうゆうされる、よりちいさなあい同性どうせいドメインから構成こうせいされている可能かのうせいもある。あるタンパク質たんぱくしつ配列はいれつには、複数ふくすうのスーパーファミリーにぞくするドメインがふくまれている可能かのうせいがあり、複雑ふくざつ進化しんか歴史れきししめしているが、多重たじゅう整列せいれつ全体ぜんたい類似るいじせいみとめられれば、配列はいれつは1つの同相どうしょうスーパーファミリーにのみてられる。また、スーパーファミリーのアライメントには、アライメントうちまたはアライメントのりょうはし整列せいれつしない領域りょういきふくまれる場合ばあいがある。対照たいしょうてきに、おなじファミリーの配列はいれつは、アラインメント全体ぜんたいひとしてうまく整列せいれつする。

構造こうぞう予測よそく[編集へんしゅう]

構造こうぞう予測よそくとは、タンパク質たんぱくしつアミノ酸あみのさん配列はいれつ知識ちしきのみにもとづいて、タンパク質たんぱくしつ局所きょくしょてき構造こうぞう予測よそくすることを目的もくてきとしたバイオインフォマティクス一連いちれん技術ぎじゅつである。タンパク質たんぱくしつ場合ばあい予測よそくは、アミノ酸あみのさん配列はいれつ領域りょういきを、適当てきとうαあるふぁヘリックスβべーたストランド(しばしば「拡張かくちょう」コンフォメーションとばれる)、ターンのいずれかにてることで構成こうせいされる。予測よそく成功せいこうは、タンパク質たんぱくしつ結晶けっしょう構造こうぞう適用てきようされたDSSPアルゴリズム(または同様どうようれいSTRIDE)の結果けっか比較ひかくして判断はんだんされる。タンパク質たんぱくしつまく貫通かんつうヘリックス英語えいごばんコイルドコイルなど、明確めいかく定義ていぎされた特定とくていのパターンを検出けんしゅつするために、特殊とくしゅなアルゴリズムが開発かいはつされている[1]

タンパク質たんぱくしつ構造こうぞう予測よそくする現代げんだい最良さいりょう方法ほうほうでは、機械きかい学習がくしゅう配列はいれつアライメント使用しようしたのち、80%の精度せいどたっすると主張しゅちょうされている[3]。このたか精度せいどにより、予測よそく手法しゅほうは、りたたみ認識にんしきほうde novoab initioタンパク質たんぱくしつ構造こうぞう予測よそく構造こうぞうモチーフ分類ぶんるい、および配列はいれつアライメントの精密せいみつのための改善かいぜん機能きのうとして使用しようすることができる。現在げんざいタンパク質たんぱくしつ構造こうぞう予測よそく手法しゅほう精度せいどは、LiveBench英語えいごばんEVA英語えいごばんなどのベンチマーク毎週まいしゅう評価ひょうかされている。

背景はいけい[編集へんしゅう]

1960年代ねんだいから1970年代ねんだい初頭しょとう導入どうにゅうされた初期しょき構造こうぞう予測よそくほう[4][5][6][7][8]可能かのうせいたかαあるふぁヘリックスを特定とくていすることに重点じゅうてんかれ、おもらせん-コイル遷移せんいモデル英語えいごばんもとづいていた[9]。1970年代ねんだい登場とうじょうしたβべーたシートをふくむ、大幅おおはば精度せいどたか予測よそくは、既知きち解明かいめいみの構造こうぞうからられたかくりつパラメータにもとづく統計とうけいてき評価ひょうか依存いぞんしていた。これらの手法しゅほうを1つの配列はいれつ適用てきようした場合ばあい一般いっぱんてきにはせいぜい60~65%程度ていど精度せいどで、βべーたシートを過小かしょう評価ひょうかすることがおお[1]構造こうぞう進化しんかてき保存ほぞんは、多重たじゅう整列せいれつ多数たすうあいどう配列はいれつ英語えいごばん同時どうじ評価ひょうかし、整列せいれつされたアミノ酸あみのさんれつ正味しょうみ構造こうぞう傾向けいこう計算けいさんすることで開発かいはつできる。既知きちタンパク質たんぱくしつ構造こうぞうだい規模きぼなデータベースと、ニューラルネットサポートベクターマシンなどの最新さいしん機械きかい学習がくしゅう手法しゅほう併用へいようすることで、これらの手法しゅほう球状きゅうじょうタンパク質たんぱくしつにおいて総合そうごうてきに80%の精度せいど達成たっせいできる[10]精度せいど理論りろんてき上限じょうげんやく90%であるが[10]、これは構造こうぞう末端まったん付近ふきんでDSSPのてが特異とくいになることが原因げんいんひとつである。構造こうぞう末端まったん付近ふきんでは、ネイティブな状態じょうたいでは局所きょくしょてき立体りったい構造こうぞう変化へんかするが、結晶けっしょうちゅうではパッキングの制約せいやくにより単一たんいつ立体りったい構造こうぞうることを余儀よぎなくされる場合ばあいがある。さらに、典型てんけいてき構造こうぞう予測よそくほうでは、構造こうぞう形成けいせいたいするさん構造こうぞう影響えいきょう考慮こうりょしていない。たとえば、ヘリックスと予測よそくされた配列はいれつであっても、タンパク質たんぱくしつβべーたシート領域りょういきない位置いちし、そのがわくさり隣接りんせつするものとうまく結合けつごうしていれば、βべーたストランド構造こうぞうをとることができる可能かのうせいがある。また、タンパク質たんぱくしつ機能きのう環境かんきょう起因きいんする劇的げきてき構造こうぞう変化へんかによっても、局所きょくしょてき構造こうぞう変化へんかすることがある。

歴史れきしてき展望てんぼう[編集へんしゅう]

現在げんざいまでに20種類しゅるい以上いじょう構造こうぞう予測よそくほう開発かいはつされている。最初さいしょアルゴリズムの1つはChou-Fasmanほう英語えいごばんで、これはおも構造こうぞう種類しゅるいごとにかくアミノ酸あみのさん出現しゅつげんする相対そうたいてき頻度ひんどから決定けっていされるかくりつパラメータに依存いぞんしている[11]。1970年代ねんだいなかばに解析かいせきされた構造こうぞうちいさなサンプルから決定けっていされたオリジナルのChou-Fasmanパラメータは、最初さいしょ発表はっぴょうからパラメータが更新こうしんされたものの、現代げんだい手法しゅほう比較ひかくして不十分ふじゅうぶん結果けっかとなっている。Chou-Fasmanほうは、構造こうぞう予測よそくにおいて、およそ50~60%の精度せいどである[1]

つぎ注目ちゅうもくすべきは、情報じょうほう理論りろんもとづいたGORほう英語えいごばんというプログラムである。これは、より強力きょうりょくかくりつてき手法しゅほうであるベイズ推定すいてい使用しようする[12]。GORほうでは、かくアミノ酸あみのさん特定とくてい構造こうぞうかくりつだけでなく、隣接りんせつするアミノ酸あみのさん寄与きよ考慮こうりょしたうえで、かく構造こうぞうアミノ酸あみのさん条件じょうけんかくりつ考慮こうりょする(隣接りんせつするアミノ酸あみのさんおな構造こうぞうつことは想定そうていされていない)。アミノ酸あみのさん構造こうぞうてき傾向けいこうは、プロリングリシンなどの少数しょうすうアミノ酸あみのさんたいしてのみつよあらわれるため、このアプローチはChou-Fasmanのアプローチよりも感度かんどたかく、精度せいどたかい。おおくの隣接りんせつアミノ酸あみのさんのそれぞれからのよわ寄与きよが、全体ぜんたいとしてつよ効果こうかをもたらす可能かのうせいがある。オリジナルのGORほう精度せいどやく65%で、βべーたシートよりもαあるふぁヘリックスの予測よそく劇的げきてき成功せいこうをおさめたが、βべーたシートはループや無秩序むちつじょ領域りょういきとしばしば誤認ごにんされた[1]

もうひとつのおおきな進歩しんぽは、機械きかい学習がくしゅう手法しゅほうもちいたことである。最初さいしょ人工じんこうニューラルネットワーク手法しゅほう使つかわれた。トレーニングセットとして解明かいめいされた構造こうぞう使用しようし、構造こうぞう特定とくてい配置はいち関連かんれんする共通きょうつう配列はいれつモチーフを識別しきべつする。これらの手法しゅほうは70%以上いじょう精度せいど予測よそくすることができるが、完全かんぜんβべーたシートの配置はいち必要ひつよう拡張かくちょうコンフォメーション形成けいせいたすける水素すいそ結合けつごうパターンを評価ひょうかするためのさん次元じげん構造こうぞう情報じょうほうがないため、βべーたストランドの予測よそく不十分ふじゅうぶんになることがおおい。ニューラルネットワークをもちいたタンパク質たんぱくしつ構造こうぞう予測よそくプログラムとしては、PSIPRED英語えいごばんJPRED英語えいごばんなどがられている[1]つぎに、サポートベクターマシン(SVM)は、統計とうけいてき手法しゅほうでは特定とくてい困難こんなんなターンの位置いち予測よそくするのにとく有効ゆうこうであることがわかっている[13][14]

機械きかい学習がくしゅう技術ぎじゅつ拡張かくちょうして、領域りょういきしゅくさりめんかくなど、タンパク質たんぱくしつのよりきめこまかい局所きょくしょてき特性とくせい予測よそくこころみられている。この問題もんだいには、SVM[15]とニューラルネットワーク[16]両方りょうほう適用てきようされている[13]最近さいきんでは、SPINE-Xを使つかってじつ数値すうちのねじれかく正確せいかく予測よそくし、ab initio構造こうぞう予測よそくもちいることに成功せいこうしている[17]

その改善かいぜん[編集へんしゅう]

構造こうぞう形成けいせいは、タンパク質たんぱくしつ配列はいれつくわえて、要因よういんにも左右さゆうされることが報告ほうこくされている。たとえば、構造こうぞう傾向けいこうは、局所きょくしょてき環境かんきょう[18]ざんもと溶媒ようばいへのアクセスせい[19]タンパク質たんぱくしつ構造こうぞうクラス[20]、さらにはタンパク質たんぱくしつ由来ゆらいとなる生物せいぶつにも依存いぞんすることが報告ほうこくされている[21]。このような考察こうさつもとづいて、タンパク質たんぱくしつ構造こうぞうクラス[22]ざんもとのアクセス可能かのう表面積ひょうめんせき[23][24]、さらには接触せっしょくすう英語えいごばん情報じょうほうくわえることで、構造こうぞう予測よそく改善かいぜんできることがいくつかの研究けんきゅうしめされている[25]

さん構造こうぞう予測よそく[編集へんしゅう]

タンパク質たんぱくしつ構造こうぞう予測よそく実用じつようてき役割やくわりは、これまで以上いじょう重要じゅうようになっている[26]ヒトゲノム計画けいかくなどのだい規模きぼDNA塩基えんき配列はいれつ解析かいせきにより、膨大ぼうだいりょうタンパク質たんぱくしつ配列はいれつデータが作成さくせいされている。構造こうぞうゲノミクスにおけるコミュニティ全体ぜんたいみにもかかわらず、実験じっけんてき決定けっていされたタンパク質たんぱくしつ構造こうぞうは、通常つうじょう時間じかん費用ひようのかかるXせん結晶けっしょう構造こうぞう解析かいせきNMR分光ぶんこうほうによってられるものであり、タンパク質たんぱくしつ塩基えんき配列はいれつからられるものにくらべてはるかにおくれているのが現状げんじょうである。

タンパク質たんぱくしつ構造こうぞう予測よそく非常ひじょうむずかしく、解決かいけつ課題かだいである。おも問題もんだいは、タンパク質たんぱくしつ自由じゆうエネルギー計算けいさんと、このエネルギーの全体ぜんたいてき最小さいしょうつける英語えいごばんことの2つである。タンパク質たんぱくしつ構造こうぞう予測よそくほうは、天文学てんもんがくてき巨大きょだいタンパク質たんぱくしつ構造こうぞう可能かのうせいのある空間くうかん探索たんさくする必要ひつようがある。このような問題もんだいは、比較ひかくモデリングまたはホモロジーモデリング英語えいごばんばれるモデリングやりたたみ認識にんしきほうでは、部分ぶぶんてき回避かいひすることができる。この方法ほうほうでは、問題もんだいタンパク質たんぱくしつが、べつあいどうタンパク質たんぱくしつ実験じっけんてき決定けっていされた構造こうぞうちか構造こうぞう採用さいようしているという仮定かていで、探索たんさく空間くうかんられる。一方いっぽうde novoタンパク質たんぱくしつ構造こうぞう予測よそく手法しゅほうでは、これらの問題もんだい明示めいじてき解決かいけつする必要ひつようがある。タンパク質たんぱくしつ構造こうぞう予測よそく進歩しんぽ課題かだいについては、Zhangによってレビューされている[27]

モデリングぜんステップ[編集へんしゅう]

Rosettaをはじめとするほとんどのさん構造こうぞうモデリング手法しゅほうは、単一たんいつタンパク質たんぱくしつドメインのさん構造こうぞうをモデリングするために最適さいてきされている。タンパク質たんぱくしつ潜在せんざいてき構造こうぞうドメインに分割ぶんかつするために、通常つうじょう、ドメイン解析かいせきまたはドメイン境界きょうかい予測よそくばれるステップが最初さいしょおこなわれる。さん構造こうぞう予測よそくほか部分ぶぶん同様どうように、これは既知きち構造こうぞうから比較ひかくしておこなうことも[28]配列はいれつのみをもちいてab initioてきおこなうこともできる(通常つうじょうきょう分散ぶんさん利用りようした機械きかい学習がくしゅうによっておこなう)[29]個々ここのドメインの構造こうぞうは、ドメインアセンブリとばれるプロセスでドッキングされ、最終さいしゅうてきさん構造こうぞう形成けいせいする[30][31]

タンパク質たんぱくしつde novoモデリング[編集へんしゅう]

エネルギーベースおよびフラグメントベースの手法しゅほう[編集へんしゅう]

de novoまたはab initioタンパク質たんぱくしつモデリング手法しゅほうは、「最初さいしょから」、つまり過去かこ解明かいめいされた構造こうぞうではなく(直接ちょくせつ物理ぶつりてき原理げんりもとづいて、さん次元じげんタンパク質たんぱくしつモデルを構築こうちくすることを目的もくてきとしている。タンパク質たんぱくしつフォールディング模倣もほうする方法ほうほうや、かくりつてき英語えいごばん手法しゅほうもちいて可能かのうせいたかかい探索たんさくする方法ほうほう適切てきせつなエネルギー関数かんすう大域たいいきてき最適さいてき英語えいごばんなど)など、さまざまな方法ほうほう考案こうあんされている。これらの方法ほうほう膨大ぼうだいなコンピュータ資源しげん必要ひつようとするため、これまではちいさなタンパク質たんぱくしつたいしてしかおこなわれていなかった。だい規模きぼタンパク質たんぱくしつ構造こうぞうあらたに予測よそくするには、よりすぐれたアルゴリズムと、強力きょうりょくなスーパーコンピュータ(IBM Blue GeneNEC SXMDGRAPE-3など)や分散ぶんさんがたコンピューティングFolding@homeRosetta@Homeヒトプロテオーム・フォールディング・プロジェクト英語えいごばんなど)が提供ていきょうするだい規模きぼ計算けいさん資源しげん必要ひつようになる。これらの計算けいさんじょう障壁しょうへき広大こうだいなものであるが、構造こうぞうゲノミクスの潜在せんざいてき利益りえきのために(予測よそくほうまたは実験じっけんほうによる)、de novo(ab initio)構造こうぞう予測よそく活発かっぱつ研究けんきゅう分野ぶんやとなっている[27]

2009ねん時点じてんで、50ざんもとタンパク質たんぱくしつをスーパーコンピュータじょうで1ミリびょうあいだ原子げんしごとにシミュレートすることができる[32]。2012ねん時点じてんでは、あたらしいグラフィックカードとより洗練せんれんされたアルゴリズムをそなえた標準ひょうじゅんてきなデスクトップコンピュータで、同等どうとう安定あんてい状態じょうたいのサンプリングが可能かのうである[33]あらモデリング英語えいごばん使用しようすると、はるかにおおきなシミュレーションのタイムスケールをることができる[34][35]

進化しんかてききょう分散ぶんさんによるさん次元じげん接触せっしょく予測よそく[編集へんしゅう]

1990年代ねんだいシークエンシング一般いっぱんてきになると、いくつかのグループがタンパク質たんぱくしつ配列はいれつアライメントを利用りようして相関そうかん突然変異とつぜんへんい予測よそくし、これらのきょう進化しんかざんもと利用りようしてさん構造こうぞう予測よそくできるのではないかと期待きたいされた(NMRなどの実験じっけんてき手法しゅほうによる距離きょり制約せいやくとの類似るいじせい利用りよう)。この仮定かていは、単一たんいつざんもと突然変異とつぜんへんいがわずかに有害ゆうがいである場合ばあいざんもと-ざんもとあいだ相互そうご作用さよう回復かいふくさせるために代償だいしょうせい突然変異とつぜんへんいこる可能かのうせいがあるとするものである。この初期しょき研究けんきゅうでは、タンパク質たんぱくしつ配列はいれつから相関そうかん突然変異とつぜんへんい計算けいさんするために、いわゆる個別こべつメソッドをもちいていたが、かくざんもとのペアをのすべてのペアから独立どくりつしたものとしてあつかうことからしょうじる間接かんせつてきにせ相関そうかんなやまされていた[36][37][38]

2011ねんには、これまでとはことなるグローバルな統計とうけいてきアプローチにより、十分じゅうぶん配列はいれつがあれば(1,000以上いじょうあいどう配列はいれつ必要ひつよう)、きょう進化しんかざんもと予測よそくするだけでタンパク質たんぱくしつの3Dフォールドを予測よそくできることが実証じっしょうされた[39]。このEVfoldほうは、あい同性どうせいモデリング、スレッディング、3D構造こうぞうフラグメントを使用しようせず、すうひゃくざんもとタンパク質たんぱくしつたいしても標準ひょうじゅんてきなパーソナルコンピュータで実行じっこうすることができる。この手法しゅほう関連かんれんするアプローチをもちいて予測よそくされた接触せっしょく精度せいどは、実験じっけんてき解明かいめいまく貫通かんつうタンパク質たんぱくしつ予測よそくふくめ、おおくの既知きち構造こうぞうコンタクトマップ英語えいごばん実証じっしょうされている[40][41][42][43]

タンパク質たんぱくしつ比較ひかくモデリング[編集へんしゅう]

タンパク質たんぱくしつ比較ひかくモデリングでは、最初さいしょ構造こうぞうモデリングの出発しゅっぱつてんとして、すで解明かいめいされているタンパク質たんぱくしつ構造こうぞうもしくはテンプレート(鋳型いがた)を使つかう。この方法ほうほう有効ゆうこうである理由りゆうは、タンパク質たんぱくしつ種類しゅるい膨大ぼうだいであるが、タンパク質たんぱくしつおおくがもつさん構造こうぞう構造こうぞうモチーフ種類しゅるいすくないとみられているからである。現在げんざい実際じっさい存在そんざいするタンパク質たんぱくしつフォールディングのパターンは2000種類しゅるい程度ていどかんがえられている[よう出典しゅってん]タンパク質たんぱくしつ比較ひかくモデリングは、構造こうぞう予測よそくにおける進化しんかてききょう分散ぶんさんわせることができる[44]

比較ひかくモデリングの手法しゅほうつぎの2種類しゅるい分類ぶんるいすることができる。[27]

  • あい同性どうせいモデリング英語えいごばんは、あい同性どうせいたかい2つのタンパク質たんぱくしつ非常ひじょう似通にかよった構造こうぞうをもっているという合理ごうりてき前提ぜんていもとづいている。タンパク質たんぱくしつのフォールディングはアミノ酸あみのさん配列はいれつよりも進化しんかてき保存ほぞんされているため、配列はいれつアライメントによってターゲット(構造こうぞう未知みちタンパク質たんぱくしつ)とテンプレートの関係かんけい識別しきべつできる場合ばあいには、非常ひじょうとお関係かんけいにあるテンプレートじょうでターゲット配列はいれつ合理ごうりてき精度せいどでモデルすることができる。比較ひかくモデリングのおもなボトルネックは、既知きち良好りょうこうなアライメントによる構造こうぞう予測よそくのエラーではなく、アライメントのむずかしさからしょうじるとかんがえられている[45]当然とうぜんのことながら、あい同性どうせいモデリングは、ターゲットとテンプレートの配列はいれつ類似るいじしている場合ばあいもっと正確せいかくになる。
  • タンパク質たんぱくしつスレッディング[46]は、未知みち構造こうぞうアミノ酸あみのさん配列はいれつを、解明かいめいみの構造こうぞうのデータベースにたいして検索けんさくするものである。いずれの場合ばあいも、スコアリング関数かんすうもちいて、配列はいれつ構造こうぞう適合てきごうせい評価ひょうかし、可能かのうせいたかさん次元じげんモデルを作成さくせいする。このたね手法しゅほうは、さん次元じげん構造こうぞう直線ちょくせんてきタンパク質たんぱくしつ配列はいれつあいだ適合てきごうせい解析かいせきであることから、「3D-1Dフォールド認識にんしきほう」ともばれている。さらにまた、あたえられた構造こうぞうだい規模きぼ配列はいれつのデータベースとの適合てきごうせい評価ひょうかすることで、どの配列はいれつあたえられたフォールディングを可能かのうせいがあるかを予測よそくし、「ぎゃくフォールディング検索けんさく」をおこな方法ほうほうした。

がわくさりコンフォメーションのモデリング[編集へんしゅう]

アミノ酸あみのさんがわくさり正確せいかくにパッキングすることは、タンパク質たんぱくしつ構造こうぞう予測よそくにおけるべつ問題もんだいである。がわくさり形状けいじょう予測よそくする問題もんだいとくした手法しゅほうとしては、デッドエンド除去じょきょほう英語えいごばん自己じこ撞着どうちゃくがた平均へいきんじょうほう英語えいごばんなどがある。ていエネルギーのがわくさりコンフォメーションは、通常つうじょう剛性ごうせいたかいポリペプチドぬしくさりじょうで、「回転かいてん異性いせいたい(ロータマー)」とばれる個別こべつがわくさりコンフォメーションのあつまりをもちいて決定けっていされる。この手法しゅほうでは、モデルの全体ぜんたいてきなエネルギーを最小さいしょうする一連いちれんのロータマーを特定とくていしようとする。

これらの方法ほうほうでは、タンパク質たんぱくしつかくざんもとタイプにてきしたコンフォメーションのコレクションである回転かいてん異性いせいたいライブラリを使用しようする。回転かいてん異性いせいたいライブラリには、コンフォメーション、その頻度ひんど平均へいきんめんかくかんする標準ひょうじゅん偏差へんさなどの情報じょうほうふくまれていることがあり、サンプリングに利用りようできる[47]回転かいてん異性いせいたいライブラリは、構造こうぞうバイオインフォマティクスや、タンパク質たんぱくしつ既知きち実験じっけんてき構造こうぞうにおけるがわくさりコンフォメーションを統計とうけいてき分析ぶんせきしてみちびしたものである。たとえば、よん面体めんてい炭素たんそ観測かんそくされたコンフォメーションをスタガー(60°, 180°, -60°のように位相いそうをずらした)の近辺きんぺんにクラスタリングすることでられる。

回転かいてん異性いせいたいライブラリには、しゅくさり依存いぞんしないもの、構造こうぞう依存いぞんするもの、しゅくさり依存いぞんするものがある。しゅくさり依存いぞんしない回転かいてん異性いせいたいライブラリは、しゅくさりのコンフォメーションを考慮こうりょせず、特定とくていのタイプの利用りよう可能かのうなすべてのがわくさりから計算けいさんされる(たとえば、1987ねんにイェール大学だいがくのPonderとRichardsがおこなった回転かいてん異性いせいたいライブラリの最初さいしょれいがある)[48]構造こうぞう依存いぞんしたライブラリは、αあるふぁヘリックス、βべーたシート、またはコイルの構造こうぞうたいして、ことなるめんかく回転かいてん異性いせいたい頻度ひんどしめ[49]しゅくさり依存いぞんする回転かいてん異性いせいたいライブラリは、構造こうぞう関係かんけいなく、しゅくさりめんかくφふぁいおよびψぷさいによって定義ていぎされる局所きょくしょてきしゅくさりのコンフォメーションに依存いぞんした立体りったい構造こうぞうおよび/または頻度ひんどしめ[50]

ほとんどのソフトウェアで使用しようされているこれらのライブラリの最新さいしんバージョンは、確率かくりつまたは頻度ひんど多次元たじげん分布ぶんぷとして表示ひょうじされ、ピークはリストない個々ここ回転かいてん異性いせいたいとしてなされるめんかくのコンフォメーションに対応たいおうする。一部いちぶのバージョンは非常ひじょう注意深ちゅういぶか精査せいさされたデータにもとづいており、おも構造こうぞう検証けんしょう使用しようされるが[51]べつのバージョンは、はるかにだい規模きぼなデータセットにおける相対そうたいてき頻度ひんど重視じゅうししており、Dunbrack回転かいてん異性いせいたいライブラリのようにおも構造こうぞう予測よそく使用しようされるかたちである[52]

がわくさり充填じゅうてんほうは、がわくさりがよりみつ充填じゅうてんされているタンパク質たんぱくしつ疎水そすいせいコアを分析ぶんせきするのにもっと有効ゆうこうである。一方いっぽう、1つの回転かいてん異性いせいたいコンフォメーションではなく、複数ふくすう回転かいてん異性いせいコンフォメーションをとることがおお表面ひょうめんざんもとのよりゆる制約せいやくたか柔軟じゅうなんせいあつかうのはむずかしい[53][54]

よん構造こうぞう予測よそく[編集へんしゅう]

複数ふくすうタンパク質たんぱくしつ結合けつごうしたタンパク質たんぱくしつふく合体がったいよん構造こうぞう多量たりょうたい)の構造こうぞう予測よそくにおいては、ふく合体がったい構成こうせいするかくタンパク質たんぱくしつ構造こうぞうがわかっているかたか精度せいど予測よそくできる場合ばあいは、タンパク質たんぱくしつ-タンパク質たんぱくしつドッキングほう英語えいごばんもちいてふく合体がったい構造こうぞう予測よそくすることができる。ふく合体がったい親和しんわせいたいする特定とくてい部位ぶいでの変異へんいおよぼす影響えいきょうかんする情報じょうほうは、ふく合体がったい構造こうぞう理解りかいし、ドッキング手法しゅほう導出どうしゅつするのに役立やくだつ。

ソフトウェア[編集へんしゅう]

タンパク質たんぱくしつ構造こうぞう予測よそくのためのソフトウェアツールは数多かずおお存在そんざいする。アプローチとしては、ホモロジーモデリング英語えいごばんタンパク質たんぱくしつスレッディングab initioほう構造こうぞう予測よそくまく貫通かんつうヘリックスおよびシグナルペプチド予測よそくなどがある。CASP実験じっけんもとづいて最近さいきん成功せいこうした手法しゅほうには、I-TASSER英語えいごばんHHpred英語えいごばんAlphaFoldなどがある。完全かんぜんなリストはメイン記事きじ英語えいごばん参照さんしょうのこと。

自動じどう構造こうぞう予測よそくサーバの評価ひょうか[編集へんしゅう]

CASPは、1994ねんから2ねんごとにおこなわれているタンパク質たんぱくしつ構造こうぞう予測よそくのためのコミュニティ全体ぜんたいでの実験じっけんである。CASPは、利用りよう可能かのう人間にんげん自動じどう手法しゅほう人間にんげんカテゴリー)、およびタンパク質たんぱくしつ構造こうぞう予測よそくのための自動じどうサーバー(サーバーカテゴリー、CASP7で導入どうにゅう)の品質ひんしつ評価ひょうかする機会きかい提供ていきょうしている[55]

CAMEO3D英語えいごばんは、あたらしく公開こうかいされたタンパク質たんぱくしつ構造こうぞうのブラインド予測よそくもちいて、自動じどうタンパク質たんぱくしつ構造こうぞう予測よそくサーバーの評価ひょうかしゅう単位たんいおこなっている。CAMEOでは、その結果けっかをウェブサイトで公開こうかいしている。

参照さんしょう項目こうもく[編集へんしゅう]

脚注きゃくちゅう[編集へんしゅう]

  1. ^ a b c d e f g h Mount DM (2004). Bioinformatics: Sequence and Genome Analysis. 2. Cold Spring Harbor Laboratory Press. ISBN 978-0-87969-712-9 
  2. ^ Huang JY, Brutlag DL (January 2001). “The EMOTIF database”. Nucleic Acids Research 29 (1): 202–4. doi:10.1093/nar/29.1.202. PMC 29837. PMID 11125091. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC29837/. 
  3. ^ Pirovano W, Heringa J (2010). “Protein secondary structure prediction”. Data Mining Techniques for the Life Sciences. Methods in Molecular Biology. 609. pp. 327–48. doi:10.1007/978-1-60327-241-4_19. ISBN 978-1-60327-240-7. PMID 20221928 
  4. ^ Guzzo AV (November 1965). “The influence of amino-acid sequence on protein structure”. Biophysical Journal 5 (6): 809–22. Bibcode1965BpJ.....5..809G. doi:10.1016/S0006-3495(65)86753-4. PMC 1367904. PMID 5884309. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1367904/. 
  5. ^ Prothero JW (May 1966). “Correlation between the distribution of amino acids and alpha helices”. Biophysical Journal 6 (3): 367–70. Bibcode1966BpJ.....6..367P. doi:10.1016/S0006-3495(66)86662-6. PMC 1367951. PMID 5962284. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1367951/. 
  6. ^ Schiffer M, Edmundson AB (March 1967). “Use of helical wheels to represent the structures of proteins and to identify segments with helical potential”. Biophysical Journal 7 (2): 121–35. Bibcode1967BpJ.....7..121S. doi:10.1016/S0006-3495(67)86579-2. PMC 1368002. PMID 6048867. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1368002/. 
  7. ^ Kotelchuck D, Scheraga HA (January 1969). “The influence of short-range interactions on protein onformation. II. A model for predicting the alpha-helical regions of proteins”. Proceedings of the National Academy of Sciences of the United States of America 62 (1): 14–21. Bibcode1969PNAS...62...14K. doi:10.1073/pnas.62.1.14. PMC 285948. PMID 5253650. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC285948/. 
  8. ^ Lewis PN, Go N, Go M, Kotelchuck D, Scheraga HA (April 1970). “Helix probability profiles of denatured proteins and their correlation with native structures”. Proceedings of the National Academy of Sciences of the United States of America 65 (4): 810–5. Bibcode1970PNAS...65..810L. doi:10.1073/pnas.65.4.810. PMC 282987. PMID 5266152. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC282987/. 
  9. ^ Froimowitz M, Fasman GD (1974). “Prediction of the secondary structure of proteins using the helix-coil transition theory”. Macromolecules 7 (5): 583–9. Bibcode1974MaMol...7..583F. doi:10.1021/ma60041a009. PMID 4371089. 
  10. ^ a b Dor O, Zhou Y (March 2007). “Achieving 80% ten-fold cross-validated accuracy for secondary structure prediction by large-scale training”. Proteins 66 (4): 838–45. doi:10.1002/prot.21298. PMID 17177203. 
  11. ^ Chou PY, Fasman GD (January 1974). “Prediction of protein conformation”. Biochemistry 13 (2): 222–45. doi:10.1021/bi00699a002. PMID 4358940. 
  12. ^ Garnier J, Osguthorpe DJ, Robson B (March 1978). “Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins”. Journal of Molecular Biology 120 (1): 97–120. doi:10.1016/0022-2836(78)90297-8. PMID 642007. 
  13. ^ a b Pham TH, Satou K, Ho TB (April 2005). “Support vector machines for prediction and analysis of beta and gamma-turns in proteins”. Journal of Bioinformatics and Computational Biology 3 (2): 343–58. doi:10.1142/S0219720005001089. PMID 15852509. 
  14. ^ Zhang Q, Yoon S, Welsh WJ (May 2005). “Improved method for predicting beta-turn using support vector machine”. Bioinformatics 21 (10): 2370–4. doi:10.1093/bioinformatics/bti358. PMID 15797917. 
  15. ^ Zimmermann O, Hansmann UH (December 2006). “Support vector machines for prediction of dihedral angle regions”. Bioinformatics 22 (24): 3009–15. doi:10.1093/bioinformatics/btl489. PMID 17005536. 
  16. ^ Kuang R, Leslie CS, Yang AS (July 2004). “Protein backbone angle prediction with machine learning approaches”. Bioinformatics 20 (10): 1612–21. doi:10.1093/bioinformatics/bth136. PMID 14988121. 
  17. ^ Faraggi E, Yang Y, Zhang S, Zhou Y (November 2009). “Predicting continuous local structure and the effect of its substitution for secondary structure in fragment-free protein structure prediction”. Structure 17 (11): 1515–27. doi:10.1016/j.str.2009.09.006. PMC 2778607. PMID 19913486. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2778607/. 
  18. ^ Zhong L, Johnson WC (May 1992). “Environment affects amino acid preference for secondary structure”. Proceedings of the National Academy of Sciences of the United States of America 89 (10): 4462–5. Bibcode1992PNAS...89.4462Z. doi:10.1073/pnas.89.10.4462. PMC 49102. PMID 1584778. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC49102/. 
  19. ^ Macdonald JR, Johnson WC (June 2001). “Environmental features are important in determining protein secondary structure”. Protein Science 10 (6): 1172–7. doi:10.1110/ps.420101. PMC 2374018. PMID 11369855. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2374018/. 
  20. ^ Costantini S, Colonna G, Facchiano AM (April 2006). “Amino acid propensities for secondary structures are influenced by the protein structural class”. Biochemical and Biophysical Research Communications 342 (2): 441–51. doi:10.1016/j.bbrc.2006.01.159. PMID 16487481. 
  21. ^ Marashi SA, Behrouzi R, Pezeshk H (January 2007). “Adaptation of proteins to different environments: a comparison of proteome structural properties in Bacillus subtilis and Escherichia coli”. Journal of Theoretical Biology 244 (1): 127–32. doi:10.1016/j.jtbi.2006.07.021. PMID 16945389. 
  22. ^ Costantini S, Colonna G, Facchiano AM (October 2007). “PreSSAPro: a software for the prediction of secondary structure by amino acid properties”. Computational Biology and Chemistry 31 (5–6): 389–92. doi:10.1016/j.compbiolchem.2007.08.010. PMID 17888742. 
  23. ^ Adamczak R, Porollo A, Meller J (May 2005). “Combining prediction of secondary structure and solvent accessibility in proteins”. Proteins 59 (3): 467–75. doi:10.1002/prot.20441. PMID 15768403. 
  24. ^ Momen-Roknabadi A, Sadeghi M, Pezeshk H, Marashi SA (August 2008). “Impact of residue accessible surface area on the prediction of protein secondary structures”. BMC Bioinformatics 9: 357. doi:10.1186/1471-2105-9-357. PMC 2553345. PMID 18759992. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2553345/. 
  25. ^ Lakizadeh A, Marashi SA (2009). “Addition of contact number information can improve protein secondary structure prediction by neural networks”. Excli J. 8: 66–73. http://www.excli.de/vol8/lakizadeh_03_2009/lakizadeh_250309a_proof.pdf. 
  26. ^ Dorn, Márcio; e Silva, Mariel Barbachan; Buriol, Luciana S.; Lamb, Luis C. (2014-12-01). “Three-dimensional protein structure prediction: Methods and computational strategies” (英語えいご). Computational Biology and Chemistry 53: 251–276. doi:10.1016/j.compbiolchem.2014.10.001. ISSN 1476-9271. PMID 25462334. http://www.sciencedirect.com/science/article/pii/S1476927114001248. 
  27. ^ a b c Zhang Y (June 2008). “Progress and challenges in protein structure prediction”. Current Opinion in Structural Biology 18 (3): 342–8. doi:10.1016/j.sbi.2008.02.004. PMC 2680823. PMID 18436442. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2680823/. 
  28. ^ Ovchinnikov S, Kim DE, Wang RY, Liu Y, DiMaio F, Baker D (September 2016). “Improved de novo structure prediction in CASP11 by incorporating coevolution information into Rosetta”. Proteins 84 Suppl 1: 67–75. doi:10.1002/prot.24974. PMC 5490371. PMID 26677056. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5490371/. 
  29. ^ Hong SH, Joo K, Lee J (November 2018). “ConDo: Protein domain boundary prediction using coevolutionary information”. Bioinformatics 35 (14): 2411–2417. doi:10.1093/bioinformatics/bty973. PMID 30500873. 
  30. ^ Wollacott AM, Zanghellini A, Murphy P, Baker D (February 2007). “Prediction of structures of multidomain proteins from structures of the individual domains”. Protein Science 16 (2): 165–75. doi:10.1110/ps.062270707. PMC 2203296. PMID 17189483. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2203296/. 
  31. ^ Xu D, Jaroszewski L, Li Z, Godzik A (July 2015). “AIDA: ab initio domain assembly for automated multi-domain protein structure prediction and domain-domain interaction prediction”. Bioinformatics 31 (13): 2098–105. doi:10.1093/bioinformatics/btv092. PMC 4481839. PMID 25701568. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4481839/. 
  32. ^ Shaw DE, Dror RO, Salmon JK, Grossman JP, Mackenzie KM, Bank JA, Young C, Deneroff MM, Batson B, Bowers KJ, Chow E (2009). Millisecond-scale molecular dynamics simulations on Anton. Proceedings of the Conference on High Performance Computing Networking, Storage and Analysis - SC '09. p. 1. doi:10.1145/1654059.1654126. ISBN 9781605587448
  33. ^ Pierce LC, Salomon-Ferrer R, de Oliveira CA, McCammon JA, Walker RC (September 2012). “Routine Access to Millisecond Time Scale Events with Accelerated Molecular Dynamics”. Journal of Chemical Theory and Computation 8 (9): 2997–3002. doi:10.1021/ct300284c. PMC 3438784. PMID 22984356. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3438784/. 
  34. ^ Kmiecik S, Gront D, Kolinski M, Wieteska L, Dawid AE, Kolinski A (July 2016). “Coarse-Grained Protein Models and Their Applications”. Chemical Reviews 116 (14): 7898–936. doi:10.1021/acs.chemrev.6b00163. PMID 27333362. 
  35. ^ Cheung NJ, Yu W (November 2018). “De novo protein structure prediction using ultra-fast molecular dynamics simulation”. PLOS ONE 13 (11): e0205819. Bibcode2018PLoSO..1305819C. doi:10.1371/journal.pone.0205819. PMC 6245515. PMID 30458007. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6245515/. 
  36. ^ Göbel U, Sander C, Schneider R, Valencia A (April 1994). “Correlated mutations and residue contacts in proteins”. Proteins 18 (4): 309–17. doi:10.1002/prot.340180402. PMID 8208723. 
  37. ^ Taylor WR, Hatrick K (March 1994). “Compensating changes in protein multiple sequence alignments”. Protein Engineering 7 (3): 341–8. doi:10.1093/protein/7.3.341. PMID 8177883. 
  38. ^ Neher E (January 1994). “How frequent are correlated changes in families of protein sequences?”. Proceedings of the National Academy of Sciences of the United States of America 91 (1): 98–102. Bibcode1994PNAS...91...98N. doi:10.1073/pnas.91.1.98. PMC 42893. PMID 8278414. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC42893/. 
  39. ^ Marks DS, Colwell LJ, Sheridan R, Hopf TA, Pagnani A, Zecchina R, Sander C (2011). “Protein 3D structure computed from evolutionary sequence variation”. PLOS ONE 6 (12): e28766. Bibcode2011PLoSO...628766M. doi:10.1371/journal.pone.0028766. PMC 3233603. PMID 22163331. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3233603/. 
  40. ^ Burger L, van Nimwegen E (January 2010). “Disentangling direct from indirect co-evolution of residues in protein alignments”. PLOS Computational Biology 6 (1): e1000633. Bibcode2010PLSCB...6E0633B. doi:10.1371/journal.pcbi.1000633. PMC 2793430. PMID 20052271. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2793430/. 
  41. ^ Morcos F, Pagnani A, Lunt B, Bertolino A, Marks DS, Sander C, Zecchina R, Onuchic JN, Hwa T, Weigt M (December 2011). “Direct-coupling analysis of residue coevolution captures native contacts across many protein families”. Proceedings of the National Academy of Sciences of the United States of America 108 (49): E1293-301. arXiv:1110.5223. Bibcode2011PNAS..108E1293M. doi:10.1073/pnas.1111471108. PMC 3241805. PMID 22106262. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3241805/. 
  42. ^ Nugent T, Jones DT (June 2012). “Accurate de novo structure prediction of large transmembrane protein domains using fragment-assembly and correlated mutation analysis”. Proceedings of the National Academy of Sciences of the United States of America 109 (24): E1540-7. Bibcode2012PNAS..109E1540N. doi:10.1073/pnas.1120036109. PMC 3386101. PMID 22645369. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3386101/. 
  43. ^ Hopf TA, Colwell LJ, Sheridan R, Rost B, Sander C, Marks DS (June 2012). “Three-dimensional structures of membrane proteins from genomic sequencing”. Cell 149 (7): 1607–21. doi:10.1016/j.cell.2012.04.012. PMC 3641781. PMID 22579045. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3641781/. 
  44. ^ Jin, Shikai; Chen, Mingchen; Chen, Xun; Bueno, Carlos; Lu, Wei; Schafer, Nicholas P.; Lin, Xingcheng; Onuchic, José N. et al. (9 June 2020). “Protein Structure Prediction in CASP13 Using AWSEM-Suite”. Journal of Chemical Theory and Computation 16 (6): 3977–3988. doi:10.1021/acs.jctc.0c00188. PMID 32396727. 
  45. ^ Zhang Y, Skolnick J (January 2005). “The protein structure prediction problem could be solved using the current PDB library”. Proceedings of the National Academy of Sciences of the United States of America 102 (4): 1029–34. Bibcode2005PNAS..102.1029Z. doi:10.1073/pnas.0407152101. PMC 545829. PMID 15653774. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC545829/. 
  46. ^ Bowie JU, Lüthy R, Eisenberg D (July 1991). “A method to identify protein sequences that fold into a known three-dimensional structure”. Science 253 (5016): 164–70. Bibcode1991Sci...253..164B. doi:10.1126/science.1853201. PMID 1853201. 
  47. ^ Dunbrack RL (August 2002). “Rotamer libraries in the 21st century”. Current Opinion in Structural Biology 12 (4): 431–40. doi:10.1016/S0959-440X(02)00344-5. PMID 12163064. 
  48. ^ Ponder JW, Richards FM (February 1987). “Tertiary templates for proteins. Use of packing criteria in the enumeration of allowed sequences for different structural classes”. Journal of Molecular Biology 193 (4): 775–91. doi:10.1016/0022-2836(87)90358-5. PMID 2441069. 
  49. ^ Lovell SC, Word JM, Richardson JS, Richardson DC (August 2000). “The penultimate rotamer library”. Proteins 40 (3): 389–408. doi:10.1002/1097-0134(20000815)40:3<389::AID-PROT50>3.0.CO;2-2. PMID 10861930. 
  50. ^ Shapovalov MV, Dunbrack RL (June 2011). “A smoothed backbone-dependent rotamer library for proteins derived from adaptive kernel density estimates and regressions”. Structure 19 (6): 844–58. doi:10.1016/j.str.2011.03.019. PMC 3118414. PMID 21645855. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3118414/. 
  51. ^ Chen VB, Arendall WB, Headd JJ, Keedy DA, Immormino RM, Kapral GJ, Murray LW, Richardson JS, Richardson DC (January 2010). “MolProbity: all-atom structure validation for macromolecular crystallography”. Acta Crystallographica. Section D, Biological Crystallography 66 (Pt 1): 12–21. doi:10.1107/S0907444909042073. PMC 2803126. PMID 20057044. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2803126/. 
  52. ^ Bower MJ, Cohen FE, Dunbrack RL (April 1997). “Prediction of protein side-chain rotamers from a backbone-dependent rotamer library: a new homology modeling tool”. Journal of Molecular Biology 267 (5): 1268–82. doi:10.1006/jmbi.1997.0926. PMID 9150411. 
  53. ^ Voigt CA, Gordon DB, Mayo SL (June 2000). “Trading accuracy for speed: A quantitative comparison of search algorithms in protein sequence design”. Journal of Molecular Biology 299 (3): 789–803. doi:10.1006/jmbi.2000.3758. PMID 10835284. 
  54. ^ Krivov GG, Shapovalov MV, Dunbrack RL (December 2009). “Improved prediction of protein side-chain conformations with SCWRL4”. Proteins 77 (4): 778–95. doi:10.1002/prot.22488. PMC 2885146. PMID 19603484. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2885146/. 
  55. ^ Battey JN, Kopp J, Bordoli L, Read RJ, Clarke ND, Schwede T (2007). “Automated server predictions in CASP7”. Proteins 69 Suppl 8 (Suppl 8): 68–82. doi:10.1002/prot.21761. PMID 17894354. 

推薦すいせん文献ぶんけん[編集へんしゅう]

外部がいぶリンク[編集へんしゅう]