基因預測

基因預測，是生物信息學的一個重要分支，使用生物學實驗或計算機等手段識別DNA序列上的具有生物學特徵的片段。基因識別的對象主要是蛋白質編碼基因，也包括其他具有一定生物學功能的因子，如RNA基因和調控因子。基因識別是基因組研究的基礎。

在早期，基因識別的主要手段是基於活的細胞或生物的實驗。通過對若干種不同基因的同源重組的速率的統計分析，我們能夠獲知它們在染色體上的順序。若進行大量類似的分析，我們可以確定各個基因的大致位置。現在，由於人類已經獲得了巨大數量的基因組信息，依靠較慢的實驗分析已不能滿足基因識別的需要，而基於計算機算法的基因識別得到了長足的發展，成為了基因識別的主要手段。

識別具有生物學功能的片段與判定該片段（或其對應的產品）的功能是兩個不同的概念，後者通常需要通過基因敲除等的實驗手段來決定。不過，生物信息學的前沿研究正在使得由基因序列預測基因功能變得愈發可能。

間接識別法

在基因的間接識別法（Extrinsic Approach）中，人們利用已知的mRNA或蛋白質序列為線索在DNA序列中搜尋所對應的片段。由給定的mRNA序列確定唯一的作為轉錄源的DNA序列；而由給定的蛋白質序列，也可以由密碼子反轉確定一族可能的DNA序列。因此，在線索的提示下搜尋工作相對較為容易，搜尋算法的關鍵在於提高效率，並能夠容忍由於測序不完整或者不精確所帶來的誤差。BLAST是目前以此為目的最廣泛使用的軟件之一。

若DNA序列的某一片段與mRNA或蛋白質序列具有高度相似性，這說明該DNA片段極有可能是蛋白編碼基因。但是，測定mRNA或蛋白質序列的成本高昂，而且在複雜的生物體中，任意確定的時刻往往只有一部分基因得到了表達。這意味着從任何單個細胞的mRNA和蛋白質上都只能獲得一小部分基因的信息；要想得到更為完整的信息，不得不對成百上千個不同狀態的細胞中的mRNA和蛋白質測序。這是相當困難的。比如，某些人類基因只在胚胎或胎兒時期才得到表達，對它們的研究就會受到道德因素的制約。

儘管有以上困難，對人類自身和一些常見的實驗生物如老鼠和酵母菌，人們已經建立了大量轉錄和蛋白質序列的數據庫。如RefSeq數據庫，Ensembl數據庫等等。但這些數據庫既不完整，也含有相當數量的錯誤。

從頭計算法

鑑於間接識別法的種種缺陷，僅僅由DNA序列信息預測蛋白質編碼基因的從頭計算法（Ab Initio Approach）就顯得十分重要了。一般意義上基因具有兩種類型的特徵，一類特徵是「信號」，由一些特殊的序列構成，通常預示着其周圍存在着一個基因；另一類特徵是「內容」，即蛋白質編碼基因所具有的某些統計學特徵。使用Ab Initio方法識別基因又稱為基因預測。通常我們仍需藉助實驗證實預測的DNA片段是否具有生物學功能。

在原核生物中，基因往往具有特定且容易識別的啟動子序列（信號），如Pribnow盒和轉錄因子。與此同時，構成蛋白質編碼的序列構成一個連續的開放閱讀框（內容），其長度約為數百個到數千個鹼基對（依據該長度區間可以篩選合適的密碼子）。除此之外，原核生物的蛋白質編碼還具有其他一些容易判別的統計學的特徵。這使得對原核生物的基因預測能達到相對較高的精度。

對真核生物（尤其是複雜的生物如人類）的基因預測則相當有挑戰性。一方面，真核生物中的啟動子和其他控制信號更為複雜，還未被很好的了解。兩個被真核生物基因搜尋器識別到的訊號例子有CpG islands及poly(A) tail的結合點。

另一方面，由於真核生物所具有的splicing機制，基因中一個蛋白質編碼序列被分為了若干段（外顯子），中間由非編碼序列連接（基因內區）。人類的一個普通蛋白質編碼基因可能被分為了十幾個外顯子，其中每個外顯子的長度少於200個鹼基對，而某些外顯子更可能只有二三十個鹼基對長。因而蛋白質編碼的一些統計學特徵變得難於判別。

高級的基因識別算法常使用更加複雜的概率論模型，如隱馬爾可夫模型。Glimmer是一個廣泛應用的高級基因識別程序，它對原核生物基因的預測已非常精確，相比之下，對真核生物的預測則效果有限。GENSCAN計劃是一個著名的例子。

比較基因組學的方法

由於多個物種的基因組序列已完全測出，使得比較基因組學得以發展，並產生了新的基因識別的方法。該方法基於如下原理：自然選擇的力量使得基因和DNA序列上具有生物學功能的其他片段較其他部分有較慢的變異速率，但前者的變異更有可能對生物體的生存產生負面影響，因而難以得到保存。因此，通過比較相關的物種的DNA序列，我們能夠取得預測基因的新線索。2003年，通過對若干種酵母基因組的比較，人類對原先的基因識別結果作了較大的修改；類似的方法也正在應用於人類的基因組研究，並可能在將來的若干年內取得成果。

偽基因 (pseudogene) 預測

偽基因與基因非常相近，有非常高的序列同源性，但無法產生相同的蛋白質，雖然一旦作為基因定序的副產品，隨著越來越多調控角色被發現，它們本身就成為預測目標^[1]。偽基因預測使用現有的序列相似性和從頭算 (ab initio) 方法，同時增加額外篩選條件和識別偽基因特徵的方法。

偽基因預測可以使用定製的序列相似性方法，其定製的方式是增加額外的篩選條件。這可以使用失能檢測 (disablement detection)，這個方法是去找尋無意義(nonsense)或是片段移動變異(frameshift mutations)，這些突變將截斷或折疊其他功能性編碼序列^[2]。另外，將DNA翻譯成蛋白質序列可能比直接DNA同源性更有效。^[3]

感知器的篩選條件可以根據偽基因和基因之間的統計特性的差異來決定，例如，偽基因中CpG島(CpG islands)的數量減少，或偽基因與它們的鄰居之間的G-C含量的差異。信號傳感器也可以用於偽基因，尋找沒有內含子 (introns) 或多腺嘌呤尾巴 (poltadenine tails)^[4]。

外部連結

http://www.genefinding.org （頁面存檔備份，存於網際網路檔案館）
https://web.archive.org/web/20050305091432/http://www.binf.ku.dk/users/krogh/genefinding.html
http://www.swbic.org/links/1.4.3.2.php （頁面存檔備份，存於網際網路檔案館）
http://cbcb.umd.edu/software/glimmer （頁面存檔備份，存於網際網路檔案館）
http://cbcb.umd.edu/software/GlimmerHMM （頁面存檔備份，存於網際網路檔案館）

^ Alexander RP, Fang G, Rozowsky J, Snyder M, Gerstein MB. Annotating non-coding regions of the genome. Nature Reviews. Genetics. August 2010, 11 (8): 559–71. PMID 20628352. doi:10.1038/nrg2814.
^ Svensson O, Arvestad L, Lagergren J. Genome-wide survey for biologically functional pseudogenes. PLoS Computational Biology. May 2006, 2 (5): e46. PMC 1456316 . PMID 16680195. doi:10.1371/journal.pcbi.0020046.
^ 引用錯誤：沒有為名為Alexander20102的參考文獻提供內容
^ Zhang Z, Gerstein M. Large-scale analysis of pseudogenes in the human genome. Current Opinion in Genetics & Development. August 2004, 14 (4): 328–35. PMID 15261647. doi:10.1016/j.gde.2004.06.003.

[Alexander2010-1] Alexander RP, Fang G, Rozowsky J, Snyder M, Gerstein MB. Annotating non-coding regions of the genome. Nature Reviews. Genetics. August 2010, 11 (8): 559–71. PMID 20628352. doi:10.1038/nrg2814.

[Svensson2006-2] Svensson O, Arvestad L, Lagergren J. Genome-wide survey for biologically functional pseudogenes. PLoS Computational Biology. May 2006, 2 (5): e46. PMC 1456316 . PMID 16680195. doi:10.1371/journal.pcbi.0020046.

[Alexander20102-3] 引用錯誤：沒有為名為Alexander20102的參考文獻提供內容

[Zhang2004-4] Zhang Z, Gerstein M. Large-scale analysis of pseudogenes in the human genome. Current Opinion in Genetics & Development. August 2004, 14 (4): 328–35. PMID 15261647. doi:10.1016/j.gde.2004.06.003.

[1]

[2]

[3]

[4]