コンセンサス配列はいれつ

分子生物学ぶんしせいぶつがくやバイオインフォマティクスにおいて、コンセンサス配列はいれつ（英えい: consensus sequence）もしくはカノニカル配列はいれつ（英えい: canonical sequence）とは、シーケンスアラインメントの各かく位置いちにおける最もっとも高こう頻度ひんどの残ざん基もと（ヌクレオチドやアミノ酸あみのさんなど）が計算けいさんされた配列はいれつである。関連かんれんのある配列はいれつが比較ひかくされ、類似るいじの配列はいれつモチーフについて多重たじゅう配列はいれつアラインメントがなされた結果けっかを表あらわしている。このような情報じょうほうは、RNAポリメラーゼのような配列はいれつ依存いぞん性せいの酵素こうそについて考慮こうりょする場合ばあいに重要じゅうようである^[1]。

生物せいぶつ学がく的てき重要じゅうよう性せい[編集へんしゅう]

コンセンサス配列はいれつで表あらわされるタンパク質たんぱくしつ結合けつごう部位ぶいは、ゲノム中なかに何なん度どか現あらわれるヌクレオチドの短みじかい配列はいれつであり、異ことなる位置いちであっても同おなじ役割やくわりを果はたすと考かんがえられている。例たとえば多おおくの転写てんしゃ因子いんしは、調節ちょうせつする遺伝子いでんしのプロモーター領域りょういきの中なかの特定とくていのパターンを認識にんしきする。同様どうように、制限せいげん酵素こうそは多おおくの場合ばあい、パリンドロミックなコンセンサス配列はいれつを持もち、その部位ぶいのDNAを切断せつだんする。トランスポゾンは、転位てんいのための標的ひょうてき配列はいれつの同定どうていにおいてほとんど同おなじように振ふる舞まう。そして、スプライシング部位ぶい（エクソンとイントロンの境界きょうかいの直前ちょくぜん直後ちょくごの配列はいれつ）についてもコンセンサス配列はいれつと考かんがえることができる。

このように、コンセンサス配列はいれつは、推定すいていされるDNA結合けつごう部位ぶいのモデルである。特定とくていの認識にんしき部位ぶいについて既知きちの例れいをすべてアラインメントすることによって得えられる、各かく位置いちにおいて優勢ゆうせいな塩基えんきが表あらわされた、理想りそう化かされた配列はいれつとして定義ていぎされる。すべての実例じつれいが、いくつかの置換ちかんという以上いじょうにコンセンサスから異ことなっていてはならないが、ミスマッチの数かずを数かぞえるという方法ほうほうはコンセンサス配列はいれつを計算けいさんする際さいに必かならずしも適切てきせつであるとは言いえない^[2]。

コアプロモーター配列はいれつにおいて、コンセンサス配列はいれつに近ちかくなるようなヌクレオチドの変異へんいはup mutationとして知しられる。一般いっぱん的てきにこの種たねの変異へんいはプロモーターを強化きょうかし、RNAポリメラーゼは転写てんしゃしようとするDNAとより強つよい結合けつごうを形成けいせいするために、転写てんしゃが上昇じょうしょうする。反対はんたいに、コンセンサス配列はいれつにおいて保存ほぞんされているヌクレオチドを破壊はかいする変異へんいはdown mutationとして知しられる。この種たねの変異へんいは、もはやRNAポリメラーゼがコアプロモーター配列はいれつに強固きょうこに結合けつごうできなくなるため、転写てんしゃは低下ていかする。

配列はいれつ解析かいせき[編集へんしゅう]

パターン認識にんしきのためのソフトウェア開発かいはつは、遺伝いでん学がく、分子生物学ぶんしせいぶつがく、そしてバイオインフォマティクスにおいて主要しゅようなトピックである。特定とくていの配列はいれつモチーフは、生なま合成ごうせいをコントロールする制御せいぎょ配列はいれつとして、もしくは細胞さいぼう内ないの特定とくていの位置いちに分子ぶんしを差さし向むけたり、分子ぶんしの成熟せいじゅくを調節ちょうせつするようなシグナル配列はいれつとして機能きのうする。これらの配列はいれつの制御せいぎょ機能きのうは重要じゅうようであるため、進化しんかの長ながい過程かていにわたって保存ほぞんされていると考かんがえられている。いくつかの場合ばあいにおいては、進化しんか的てきな関連かんれん性せいがこれらの部位ぶいの保存ほぞん性せいの程度ていどから推定すいていされる。

表記ひょうき法ほう[編集へんしゅう]

保存ほぞんされた配列はいれつモチーフはコンセンサス配列はいれつと呼よばれ、どの残ざん基もとが保存ほぞんされ、どの残ざん基もとが変化へんかしやすいものであるかを示しめしている。次つぎのようなDNA配列はいれつの例れいについて考かんがえてみよう。

A[CT]N{A}YR

この表記ひょうきでは、左端ひだりはしのAは常つねにこの位置いちにAが見みつかることを意味いみしている。[CT]はこの位置いちにCまたはTが見みつかること、Nはこの位置いちにすべての塩基えんきが入はいりうること、{A}は A 以外いがいの塩基えんき、Yはピリミジン塩基えんき（pYrimidine）、Rはプリン塩基えんき（puRine）をそれぞれ意味いみしている。

シーケンスロゴで表あらわされたLexAタンパク質たんぱくしつのDNA結合けつごうモチーフ

この例れいでの[CT]という表記ひょうきにはその位置いちにおけるCとTの相対そうたい的てき頻度ひんどについて何なにの情報じょうほうも示しめされていない。コンセンサス配列はいれつを表現ひょうげんする別べつの方法ほうほうとして、シーケンスロゴ（英語えいご版ばん）が用もちいられる。シーケンスロゴはコンセンサス配列はいれつの画像がぞう的てきな表現ひょうげんであり、特定とくていの位置いちにおけるヌクレオチド（もしくはアミノ酸あみのさん）の頻度ひんどがそのシンボルのサイズによって表現ひょうげんされる。より多おおく保存ほぞんされている残ざん基もとは、より大おおきなシンボルで描えがかれ、頻度ひんどの低ひくいものは小ちいさなシンボルで描えがかれる。シーケンスロゴはWebLogoやGestalt Workbenchを用もちいることで生成せいせいすることができる^[2]。

ソフトウェア[編集へんしゅう]

バイオインフォマティクスのツールでコンセンサス配列はいれつを計算けいさんし視覚しかく化かすることができる。JalViewやUGENEなどのツールがある。

出典しゅってん[編集へんしゅう]

^ Pierce, Benjamin A. 2002. Genetics : A Conceptual Approach. 1st ed. New York: W.H. Freeman and Co.
^ ^a ^b Schneider TD (2002). “Consensus Sequence Zen”. Appl Bioinform 1 (3): 111–119. PMC 1852464. PMID 15130839.

生物せいぶつ学がく的てき重要じゅうよう性せい[編集へんしゅう]

配列はいれつ解析かいせき[編集へんしゅう]

表記ひょうき法ほう[編集へんしゅう]

ソフトウェア[編集へんしゅう]

出典しゅってん[編集へんしゅう]

関連かんれん項目こうもく[編集へんしゅう]