(Translated by https://www.hiragana.jp/)
基因预测 - 维基百科,自由的百科全书 とべ转到内容ないよう

もといん预测

本页使用了标题或全文手工转换
维基百科ひゃっか自由じゆうてき百科ひゃっかぜん

もといんあずかはか生物せいぶつしんいきがくてき一个重要分支,使用しよう生物せいぶつがく实验ある计算つくえとう手段しゅだん识别DNA序列じょれつうえてき具有ぐゆう生物せいぶつがくとくせいてきかただんもといん识别てき对象主要しゅよう蛋白たんぱく质编码もといん,也包括ほうかつ其他具有ぐゆう一定生物学功能的因子,如RNAもといん调控因子いんしもといん识别もといん研究けんきゅうてきもと础。

ざい早期そうきいん识别てき主要しゅよう手段しゅだんもと于活てき细胞ある生物せいぶつてき实验。つう过对若干じゃっかん种不どうもといんてきどうみなもとしげるまとそくりつてき统计分析ぶんせきわが们能够获它们ざい染色せんしょくたいうえてき顺序。わか进行大量たいりょう类似てき分析ぶんせきわが们可以确ていかく个基いんてきだい位置いち。现在,ゆかり于人类已经获とくりょうきょだい数量すうりょうてきもといん组信いきもたれ较慢てき实验分析ぶんせきやめ不能ふのう满足もといん识别てき需要じゅよう,而基于计さんつくえ算法さんぽうてきもといん识别いたりょう长足てき发展,なり为了もといん识别てき主要しゅよう手段しゅだん

识别具有ぐゆう生物せいぶつがくこうのうてきかただんあずか判定はんてい该片だんある其对应的产品)てきこうのう两个不同ふどうてき概念がいねんきさきしゃ通常つうじょう需要じゅようどおりもといん敲除ひとしてき实验手段しゅだんらい决定。过,生物せいぶつしんいきがくてきぜん沿研究けんきゅうただしざい使つかいとくよしもといん序列じょれつ预测もといんこうのう变得いよいよ可能かのう

间接识别ほう

[编辑]

ざいもといんてき间接识别ほう(Extrinsic Approach)ちゅうにん利用りようやめ知的ちてきmRNAある蛋白たんぱく序列じょれつ为线さくざいDNA序列じょれつちゅうさがせ寻所对应てきかただんよし给定てきmRNA序列じょれつ确定ただ一的作为转录源的DNA序列じょれつ;而由给定てき蛋白たんぱく序列じょれつ,也可以由みつ码子はん转确てい一族いちぞく可能かのうてきDNA序列じょれつよし此,ざい线索てき提示ていじさがせ工作こうさくしょう对较为容易よういさがせ寻算法的ほうてき关键ざい于提だか效率こうりつ,并能够容しのぶゆかり于测じょかんせいあるもの不精ぶしょう确所带来てき误差。BLAST目前もくぜん以此为目的もくてきさい广泛使用しようてき软件いち

わかDNA序列じょれつてきぼう一片いっぺんだんあずかmRNAある蛋白たんぱく序列じょれつ具有ぐゆう高度こうど相似そうじせい,这说あかり该DNAかただん极有可能かのう蛋白たんぱく编码もといんただし,测定mRNAある蛋白たんぱく序列じょれつてき成本なりもとこうのぼる,而且ざい复杂てき生物せいぶつたいちゅう任意にんい确定てき时刻往往おうおうただゆう一部分基因得到了表达。这意味いみ从任なん单个细胞てきmRNA蛋白たんぱく质上ただのう获得一小部分基因的信息;ようそういたさら为完せいてきしんいきとく对成百上千个不同状态的细胞中的mRNA蛋白たんぱく质测じょ。这是相当そうとうこま难的。如,ぼう些人类基いんただざい胚胎はいたいある胎儿时期ざいいたおもて达,对它们的研究けんきゅう就会受到道德どうとくいん素的すてきせい约。

つきかんゆう以上いじょうこま难,对人类自身じしん一些常见的实验生物如ろうねずみ酵母こうぼきんにん们已经建立こんりゅうりょう大量たいりょう转录蛋白たんぱく序列じょれつてきかずすえ。如RefSeqかずすえ库,Ensemblかずすえ库等とうただし这些すうすえ库既かんせい,也含有がんゆう相当そうとう数量すうりょうてき错误。

从头计算ほう

[编辑]

鉴于间接识别法的ほうてき种种缺陷けっかん,仅仅よしDNA序列じょれつしんいき预测蛋白たんぱく质编码基いんてき从头计算ほうAb Initio Approach)就显とくじゅうふん重要じゅうようりょう。一般意义上基因具有两种类型的特征,いち类特せい信号しんごう”,よし一些特殊的序列构成,通常つうじょう预示其周围存在そんざいいち个基いん;另一类特せい内容ないよう”,そく蛋白たんぱく质编码基いんしょ具有ぐゆうてきぼう些统计学とくせい使用しようAb Initio方法ほうほう识别もといんまたしょうもといん预测通常つうじょうわが们仍需借じょ实验证实预测てきDNAへんだん具有ぐゆう生物せいぶつがくこうのう

ざい原核げんかく生物せいぶつなかもといん往往おうおう具有ぐゆう特定とくてい容易ようい识别てき启动序列じょれつ信号しんごう),如Pribnow盒转录因子いんしあずか此同时,构成蛋白たんぱく质编码的序列じょれつ构成いち个连续的开放阅读かまち内容ないよう),其长约为すう百个到数千个碱基对(すえ该长间可以筛选合适的みつ码子)。じょ此之がい原核げんかく生物せいぶつてき蛋白たんぱく质编码还具有ぐゆう其他一些容易判别的统计学的特征。这使とく对原かく生物せいぶつてきもといん预测のう达到しょう对较だかてき精度せいど

かく生物せいぶつゆう其是复杂てき生物せいぶつ如人类)てきもといん预测则相とうゆう挑战せい一方いっぽうめんかく生物せいぶつちゅうてき启动其他ひかえせい信号しんごうさら为复杂,还未很好てき了解りょうかい。两个かく生物せいぶつもといんさがせ寻器识别到てき讯号れいゆうCpG islandspoly(A) tailてき合点がてん

另一方面ほうめんゆかり于真かく生物せいぶつしょ具有ぐゆうてきsplicingつくえせいいんちゅう一个蛋白质编码序列被分为了若干段(そと显子),ちゅう间由编码序列じょれつ连接(もといんない)。ひと类的一个普通蛋白质编码基因可能被分为了十几个外显子,其中ごと个外显子てき长度しょう于200个碱もと对,而某些外显子さら可能かのうただゆうさん十个碱基对长。よし而蛋しろ质编码的一些统计学特征变得难于判别。

こう级的もといん识别算法さんぽうつね使用しようさら复杂てきがいりつ模型もけい,如隐马尔可おっと模型もけいGlimmer一个广泛应用的高级基因识别程序,它对原核げんかく生物せいぶつもといんてき预测やめ非常ひじょうせい确,そうした,对真かく生物せいぶつてき预测则效果こうか有限ゆうげんGENSCAN计划一个著名的例子。

较基いん组学てき方法ほうほう

[编辑]

よし于多个物种的もといん序列じょれつやめ完全かんぜん测出,使つかいとく较基いん组学とく以发てん,并产せいりょうしんてきもといん识别てき方法ほうほう。该方ほうもと于如原理げんり自然しぜん选择てき力量りきりょう使とくもといんDNA序列じょれつじょう具有ぐゆう生物せいぶつがくこうのうてき其他へんだん较其部分ぶぶんゆう较慢てき变异そくりつただし前者ぜんしゃてき变异さらゆう可能かのう对生物体ぶったいてき生存せいぞん产生负面影おもかげ响,いん而难以得いた保存ほぞんよし此,つう过比较相关的ぶつ种的DNA序列じょれつわが们能够取得しゅとく预测もといんてきしん线索。2003ねんつう过对若干じゃっかん种酵ははもといん组的较,にん类对ばらさきてきもといん识别结果さくりょう较大てきおさむあらため;类似てき方法ほうほう也正ざい应用于人类的もといん研究けんきゅう,并可能かのうざい将来しょうらいてき若干じゃっかん年内ねんない取得しゅとく成果せいか

にせもといん (pseudogene) あずかはか

[编辑]

にせもといんあずかもといん非常ひじょう相近すけちかゆう非常ひじょうだかてき序列じょれつどうみなもとせいただし無法むほうさんせいしょうどうてき蛋白質たんぱくしつ,雖然一旦いったん作為さくいもといんていじょてきふく產品さんぴんずいちょ越來ごえくえつ調しらべひかえかくしょく發現はつげん,它們本身ほんみ就成ためあずかはか目標もくひょう[1]にせもといんあずかはか使用しよう現有げんゆうてき序列じょれつ相似そうじせいしたがえあたまさん (ab initio) 方法ほうほう同時どうじ增加ぞうかがくがいふるいせん條件じょうけん識別しきべつにせもといん特徵とくちょうてき方法ほうほう

にせもといんあずかはか使用しようじょうせいてき序列じょれつ相似そうじせい方法ほうほう,其定せいてき方式ほうしき增加ぞうかがく外的がいてきふるいせん條件じょうけん。這可以使用しようしつのうけんはか (disablement detection),這個方法ほうほう找尋無意義むいぎ(nonsense)あるへんだん移動いどう變異へんい(frameshift mutations),這些突變しょう截斷せつだんあるおりたたみ其他こうのうせいへん序列じょれつ[2]。另外,はたDNA翻譯ほんやくなり蛋白質たんぱくしつ序列じょれつ可能かのう直接ちょくせつDNAどうみなもとせいさら有效ゆうこう[3]

感知かんちてきふるいせん條件じょうけん根據こんきょにせもといんもといんあいだてき統計とうけい特性とくせいてき差異さいらい決定けっていれい如,にせもといんちゅうCpGとう(CpG islands)てき數量すうりょう減少げんしょうあるにせもといんあずか它們てき鄰居あいだてきG-C含量てき差異さい信號しんごうでんかん也可以用於偽もといんひろ找沒ゆう內含 (introns) あるせん嘌呤ともえ (poltadenine tails)[4]

外部がいぶ链接

[编辑]
  1. ^ Alexander RP, Fang G, Rozowsky J, Snyder M, Gerstein MB. Annotating non-coding regions of the genome. Nature Reviews. Genetics. August 2010, 11 (8): 559–71. PMID 20628352. doi:10.1038/nrg2814. 
  2. ^ Svensson O, Arvestad L, Lagergren J. Genome-wide survey for biologically functional pseudogenes. PLoS Computational Biology. May 2006, 2 (5): e46. PMC 1456316可免费查阅. PMID 16680195. doi:10.1371/journal.pcbi.0020046. 
  3. ^ 引用いんよう错误:ぼつゆう为名为Alexander20102てき参考さんこう文献ぶんけん提供ていきょう内容ないよう
  4. ^ Zhang Z, Gerstein M. Large-scale analysis of pseudogenes in the human genome. Current Opinion in Genetics & Development. August 2004, 14 (4): 328–35. PMID 15261647. doi:10.1016/j.gde.2004.06.003.