| 5 | 1/1 | 返回列表 |
| 查看: 13268 | 回復(fù): 87 | ||||||||
| 當(dāng)前只顯示滿足指定條件的回帖,點(diǎn)擊這里查看本話題的所有回帖 | ||||||||
BlueGuy榮譽(yù)版主 (正式寫手)
懶懶的小蟲蟲
|
[交流]
生物信息學(xué)專題-生物版,醫(yī)學(xué)版和信息科學(xué)版共同創(chuàng)建 已有2人參與
|
|||||||
|
為進(jìn)一步建好小木蟲的專業(yè)學(xué)科版,現(xiàn)由生物版、醫(yī)學(xué)版和信息科學(xué)版共同創(chuàng)建生物信息學(xué)專題,歡迎大家積極參與! [ Last edited by fishery on 2005-6-16 at 21:05 ] |
生物信息學(xué) | 高通量測(cè)序 | 生物信息-分析與挖掘 | ENVIRON TECHNOL |
劉安安 |
榮譽(yù)版主 (正式寫手)
懶懶的小蟲蟲
|
5 分子進(jìn)化 分子進(jìn)化鐘的發(fā)現(xiàn)與中性理論的提出,極大地推動(dòng)了進(jìn)化尤其是分子進(jìn)化研究,填補(bǔ)了人們對(duì)分子進(jìn)化即微觀進(jìn)化認(rèn)識(shí)上的空白,推動(dòng)進(jìn)化論的研究進(jìn)入分子水平,并建立了一套依賴于核酸、蛋白質(zhì)序列信息的理論方法。分子進(jìn)化研究有助于進(jìn)一步闡明物種進(jìn)化的分子基礎(chǔ),探索基因起源機(jī)制,從基因進(jìn)化的角度研究基因序列與功能的關(guān)系。 5.1 分子進(jìn)化鐘與中性理論 60年代早期“分子進(jìn)化鐘”的發(fā)現(xiàn)與60年代末期“中性理論”的提出是本世紀(jì)進(jìn)化學(xué)的重大事件,是古老的進(jìn)化學(xué)與新生的分子生物學(xué)兩者“雜交”的產(chǎn)物。它們的相繼問世極大地推動(dòng)了進(jìn)化尤其是分子進(jìn)化研究,填補(bǔ)了人們對(duì)分子進(jìn)化即微觀進(jìn)化認(rèn)識(shí)上的空白,并在生物醫(yī)學(xué)等領(lǐng)域產(chǎn)生了廣泛影響。 隨著不同生物來源的大量蛋白質(zhì)序列的確定,Zucherkandl等發(fā)現(xiàn):某一蛋白在不同物種間的取代數(shù)與所研究物種間的分歧時(shí)間接近正線性關(guān)系,進(jìn)而將分子水平的這種恒速變異稱為“分子鐘”。 支持進(jìn)化鐘存在的證據(jù)來自哺乳動(dòng)物與其它脊椎動(dòng)物諸如血清白蛋與轉(zhuǎn)鐵蛋白等的免疫學(xué)(如微量補(bǔ)體固定)定量比較。人們發(fā)現(xiàn)多肽間的免疫距離(如抗原性)與其氨基酸取代百分?jǐn)?shù)成良好的線性相關(guān),如鳥溶菌酶、哺乳動(dòng)物RNase、細(xì)胞色素C與白蛋白、大腸桿菌色氨酸合成酶等。雖然這種相關(guān)性的分子基礎(chǔ)尚不清楚,但這種客觀存在經(jīng)過反復(fù)驗(yàn)證后是不容置疑的。免抗血清由此成為初步估算球形單體蛋白間序列差異的有效工具,但其適用范圍0-30%的氨基酸差異。 自從進(jìn)化鐘假設(shè)提出之后,存在許多反駁它的相反事實(shí)與異議。這些異議主要針對(duì)序列進(jìn)化的恒速。分子進(jìn)化鐘的最明顯的例外之一是分子序列證據(jù)與化石證據(jù)在人類起源時(shí)間上的差異。60年代中期,許多人類學(xué)家認(rèn)為人類在3000年前與我們最近的親屬-- 非洲猿分歧。根據(jù)分子鐘假設(shè),分歧3000萬年的物種氨基酸序列差異的應(yīng)達(dá)4-5%、非重復(fù)序列DNA差異應(yīng)約為8%,但實(shí)測(cè)值分別為0.8%與1.1%。對(duì)這種6倍左右的差別有兩種解釋。許多人類學(xué)家傾向于懷疑鐘的存在,并認(rèn)為在高等靈長(zhǎng)類中分子進(jìn)化速率下降。總之,雖然大部分分子進(jìn)化學(xué)家同意序列進(jìn)化與分歧時(shí)間密相關(guān),但進(jìn)化是以年限還是以代限為刻度則仍有分歧與爭(zhēng)議;而且因?yàn)榭v多因素的影響,與進(jìn)化鐘相左的數(shù)據(jù),無論是用氨基酸、核苷酸序列差異、免疫學(xué)距離,還是用DNA雜交復(fù)性等參數(shù),均不斷有所報(bào)道,其論爭(zhēng)預(yù)計(jì)將繼續(xù)下去。 . 自從60年代初發(fā)現(xiàn)分子進(jìn)化鐘--“分子進(jìn)化速率在不同種系中恒定”以來,人們又陸續(xù)發(fā)現(xiàn)蛋白質(zhì)中氨基酸的置換是隨機(jī)而非模式性的;DNA在哺乳動(dòng)物種系的總變異速率遠(yuǎn)遠(yuǎn)高于形態(tài)上的變異速率并遠(yuǎn)遠(yuǎn)超出人們的預(yù)期的大于0.5核苷酸/ 基因組/ 年;蛋白質(zhì)電泳表明物種內(nèi)存在大量的變異即廣泛的種內(nèi)多態(tài)性,且這些多態(tài)性并無可見的表型效應(yīng),與環(huán)境條件亦無明顯相關(guān)。以上這些都是新達(dá)爾文主義與綜合進(jìn)化理論所難以解釋的。 面對(duì)上述問題,日本群體遺傳學(xué)家木村資生(Motoo Kimura)提出:(1) 進(jìn)化過程中的核苷酸置換其絕大部分是中性或近似中性的突變隨機(jī)固定的結(jié)果而不是正向達(dá)爾文選擇的結(jié)果:(2) 許多蛋白質(zhì)多態(tài)性必須在選擇上為中性或近中性,并在群體中由突變引入與隨機(jī)滅絕間兩者的平衡維持。 上述論著問世遭遇到經(jīng)典進(jìn)化學(xué)家的強(qiáng)烈批判。他們認(rèn)為新的分子生物學(xué)數(shù)據(jù)完全可以用新達(dá)爾文主義的原理來解釋。直至現(xiàn)在,選擇論者與中性論者的議爭(zhēng)仍在繼續(xù)。這兩大學(xué)派的本質(zhì)區(qū)別可通過它們各自對(duì)突變基因如何在物種內(nèi)置換老基因這一進(jìn)化過程的不同解釋來洞悉。每一置換剛出現(xiàn)時(shí)在群體內(nèi)均為稀有的突變等位基因,隨后擴(kuò)散至個(gè)群體并被固定,即頻率達(dá)100%。選擇論者認(rèn)為:一個(gè)突變的等位基因在物種內(nèi)擴(kuò)散,就必需具有某些選擇上的優(yōu)勢(shì),如在選擇上為中性,就必需與一選擇上具優(yōu)勢(shì)的基因緊密連鎖,通過“搭車”而達(dá)到較高頻率。與此相反,中性論者認(rèn)為:一些突變?cè)跊]有任何選擇優(yōu)勢(shì)的情況下也能自身在群體中擴(kuò)散。如果一突變體在選擇上等同于已存在的等位基因,其命運(yùn)將取決于機(jī)會(huì)-隨機(jī),其頻率存在上下起伏,因?yàn)樵诿看恳淮、雄個(gè)體所生的大量配子中只有很少數(shù)配子最終被“采用”以形成合子以及相應(yīng)的個(gè)體,并出現(xiàn)在下一代中。在這種隨機(jī)漂變(random drift)中,絕大部分突變等位基因隨機(jī)丟失,但有一少部分在群體中被固定下來。如果中性突變?cè)诜肿铀缴掀毡榇嬖冢译S機(jī)漂變?cè)诤荛L(zhǎng)時(shí)間(如百萬年)一直延續(xù),群體的遺傳組成將發(fā)生顯著性改變。群體中出現(xiàn)的任何中性突變其最終固定的概率都等于其原始頻率,其固定的平均時(shí)間四倍于有效群體的大。ㄋ频扔诿恳淮鷧⑴c繁殖的個(gè)體數(shù),通常遠(yuǎn)小于物種的個(gè)體總數(shù))。中性理論并非認(rèn)為中性基因無功能,而僅是認(rèn)為不同的等位基因在促進(jìn)個(gè)體的生存與生殖方面是有等同的效果。此外,還需強(qiáng)調(diào)個(gè)體基因突變與群體基因置換的差別,因?yàn)橹挥泻笳卟排c分子進(jìn)化相關(guān)。 自Zuckerkandl與Pauling的早期工作以來,已經(jīng)知道在蛋白質(zhì)進(jìn)化中結(jié)構(gòu)和化學(xué)性質(zhì)上相似的氨基酸間的替換比不相似間的替換更為頻繁。他們認(rèn)為,這種“保守的”的替換看來只造成分子功能的微小改變,因而更容易“被自然選擇接受”。同時(shí)他們指出,關(guān)于氨基酸殘基的最重要性質(zhì)是什么,“化學(xué)家和生物學(xué)家間顯然沒有同樣的見解”。從中性學(xué)說的立場(chǎng)看,保守替換的性質(zhì),只需注意到兩種氨基酸間的差異越小,它們等于選擇等價(jià)而不是突變有害的概率就越大,就很容易加以解釋。因此,選擇上呈中性的替換在得類似的氨基酸間則概率越高,而這類氨基酸的進(jìn)化替換由于隨機(jī)遺傳漂變則出現(xiàn)得更為頻繁。 在闡明分子進(jìn)化中突變型替換的保守性的同時(shí),有越來越多的證據(jù)表明,功能上較不重要的分子或某一分子較不重要的部分,其進(jìn)化(以突變型替換表示)比那些較重要的要快些。中性論和選擇論間的差別,在它們對(duì)快速進(jìn)化的分子(如血纖蛋白肽)或分子的某部分(如胰島素原的C肽)進(jìn)行解釋時(shí),可以最清楚地看出,按中性學(xué)說解釋,它們?cè)诠δ苌喜恢匾,因而大多?shù)突變是中性的,突變通過隨機(jī)漂變而迅速積累。另一方,選擇論的解釋是,快速進(jìn)化的分子或分子的某部分或許有某些尚不知道的功能,并且通過積累許多由正達(dá)爾文選擇產(chǎn)生的較微有利的突變,而經(jīng)歷了迅速的適應(yīng)性方面的改善。這兩種解釋那一種更為恰當(dāng)還有待積累更多數(shù)據(jù)以后才能判定。為了加深我們對(duì)分子進(jìn)化機(jī)制的理解,很有必要研究突變型替換的模式與分子的三級(jí)結(jié)構(gòu)和功能的相互關(guān)系。 綜上,中性學(xué)說(或者更確切地說是中性突變-隨機(jī)漂變假說)是分子生物學(xué)與群體遺傳學(xué)交融的產(chǎn)物。它不象傳統(tǒng)的綜合理論(或新達(dá)爾文派的觀點(diǎn)),它明確主張:進(jìn)化中大多數(shù)突變型的置換,不是由于正達(dá)爾文選擇,而是由選擇上呈中性或近中性的突變型的隨機(jī)固定所致。它還斷言,分子水平上大多數(shù)種內(nèi)遺傳多態(tài)性,象以蛋白質(zhì)多態(tài)性形式展現(xiàn)出來的那樣,是選擇上呈中性或近中性的,并靠著突變輸入和等位基因的隨機(jī)清除或固定這兩者之間的平衡而在物種中維持。應(yīng)該說,這一理論對(duì)于人們所認(rèn)識(shí)的分子進(jìn)化眾多現(xiàn)象與規(guī)律的闡釋比新達(dá)爾文更為科學(xué),且提出的多項(xiàng)預(yù)測(cè)被隨后的實(shí)驗(yàn)研究所證實(shí)。問題是,它作為一種更基本層次-分子水平的進(jìn)化理論未能給更高層次的進(jìn)化提供理性闡釋與描寫。中性論者過多地注目于與功能無關(guān)的分子進(jìn)化,而忽視了與功能相關(guān)的分子進(jìn)化現(xiàn)象與規(guī)律的探索,這恐怕是中性理論之所以能問世,但同時(shí)又先天性地帶上無視宏觀進(jìn)化,對(duì)宏觀進(jìn)化束手無策這一天然缺陷的癥結(jié)所在。 5.2 進(jìn)化樹 分子鐘的發(fā)現(xiàn)對(duì)于進(jìn)化研究具有十分重要的意義。它不僅能用于粗略估計(jì)不同類群生物間的進(jìn)化時(shí)間,亦可用于構(gòu)建進(jìn)化樹。實(shí)際上,分子鐘發(fā)現(xiàn)不久,蛋白質(zhì)序列分析即被廣泛用于生物的長(zhǎng)時(shí)進(jìn)化研究。 根據(jù)蛋白質(zhì)的序列或結(jié)構(gòu)差異關(guān)系可構(gòu)建分子進(jìn)化樹(evolutionary tree)或種系發(fā)生樹(phylogenetic tree)。進(jìn)化樹給出分支層次或拓?fù)鋱D形,它是產(chǎn)生新的基因復(fù)制或享有共同祖先的生物體的歧異點(diǎn)的一種反映,樹枝的長(zhǎng)度反映當(dāng)這些事件發(fā)生時(shí)就存在的蛋白質(zhì)與現(xiàn)在的蛋白質(zhì)之間的進(jìn)化距離。根據(jù)進(jìn)化樹不僅可以研究從單細(xì)胞有機(jī)體到多細(xì)胞有機(jī)體的生物進(jìn)化過程,而且可以粗略估計(jì)現(xiàn)存的各類種屬生物的分歧時(shí)間。通過蛋白質(zhì)的分子進(jìn)化樹分析,為從分子水平研究物種進(jìn)化提供了新的手段,可以比較精確的確定某物種的進(jìn)化地位。對(duì)于物種分類問題,蛋白質(zhì)的分子進(jìn)化樹亦可作為一個(gè)重要的依據(jù)。 構(gòu)建進(jìn)化樹的方法包括兩種:一類是序列類似性比較,主要是基于氨基酸相對(duì)突變率矩陣(常用PAM250)計(jì)算不同序列差異性積分作為它們的差異性量度(序列進(jìn)化樹);另一類在難以通過序列比較構(gòu)建序列進(jìn)化樹的情況下,通過蛋白質(zhì)結(jié)構(gòu)比較包括剛體結(jié)構(gòu)疊合和多結(jié)構(gòu)特征比較等方法建立結(jié)構(gòu)進(jìn)化樹。 序列進(jìn)化樹 構(gòu)建序列進(jìn)化樹的主要步驟是比對(duì),建立取代模型,建立進(jìn)化樹以及進(jìn)化樹評(píng)估。 1.建立數(shù)據(jù)模型(比對(duì)) 建立一個(gè)比對(duì)模型的基本步驟包括:選擇合適的比對(duì)程序;然后從比對(duì)結(jié)果中提取系統(tǒng)發(fā)育的數(shù)據(jù)集,至于如何提取有效數(shù)據(jù),取決于所選擇的建樹程序如何處理容易引起歧義的比對(duì)區(qū)域和插入/刪除序列(即所謂的indel狀態(tài)或者空位狀態(tài))。 一個(gè)典型的比對(duì)過程包括:首先應(yīng)用CLUSTALW程序,然后進(jìn)行手工比對(duì),最后提交給一個(gè)建樹程序。這個(gè)過程有如下特征選項(xiàng):(1)部分依賴于計(jì)算機(jī)(也就是說,需要手工調(diào)整);(2)需要一個(gè)先驗(yàn)的系統(tǒng)發(fā)育標(biāo)準(zhǔn)(即需要一個(gè)前導(dǎo)樹);(3)使用先驗(yàn)評(píng)估方法和動(dòng)態(tài)評(píng)估方法(推薦)對(duì)比對(duì)參數(shù)進(jìn)行評(píng)估;(4)對(duì)基本結(jié)構(gòu)(序列)進(jìn)行比對(duì)(對(duì)于親水氨基酸,推薦引入部分二級(jí)結(jié)構(gòu)特征);(5)應(yīng)用非統(tǒng)計(jì)數(shù)學(xué)優(yōu)化。這些特征選項(xiàng)的取舍依賴于系統(tǒng)發(fā)育分析方法。 2.決定取代模型 取代模型既影響比對(duì),也影響建樹;因此需要采用遞歸方法。對(duì)于核酸數(shù)據(jù)而言,可以通過取代模型中的兩個(gè)要素進(jìn)行計(jì)算機(jī)評(píng)估,但是對(duì)于氨基酸和密碼子數(shù)據(jù)而言,沒有什么評(píng)估方案。其中一個(gè)要素是堿基之間相互取代的模型;另外一個(gè)要素是序列中不同位點(diǎn)的所有取代的相對(duì)速率。還沒有一種簡(jiǎn)單的計(jì)算機(jī)程序可以對(duì)較復(fù)雜的變量(比如,位點(diǎn)特異性或者系統(tǒng)特異性取代模型)進(jìn)行評(píng)估,同樣,現(xiàn)有的建樹軟件也不可能理解這些復(fù)雜變量。 3.建樹方法 三種主要的建樹方法分別是距離、最大節(jié)約(maximum parsimony, MP)和最大似然(maximum likelihood,ML)。最大似然方法考察數(shù)據(jù)組中序列的多重比對(duì)結(jié)果,優(yōu)化出擁有一定拓?fù)浣Y(jié)構(gòu)和樹枝長(zhǎng)度的進(jìn)化樹,這個(gè)進(jìn)化樹能夠以最大的概率導(dǎo)致考察的多重比對(duì)結(jié)果。距離樹考察數(shù)據(jù)組中所有序列的兩兩比對(duì)結(jié)果,通過序列兩兩之間的差異決定進(jìn)化樹的拓?fù)浣Y(jié)構(gòu)和樹枝長(zhǎng)度。最大節(jié)約方法考察數(shù)據(jù)組中序列的多重比對(duì)結(jié)果,優(yōu)化出的進(jìn)化樹能夠利用最少的離散步驟去解釋多重比對(duì)中的堿基差異。 距離方陣方法簡(jiǎn)單的計(jì)算兩個(gè)序列的差異數(shù)量。這個(gè)數(shù)量被看作進(jìn)化距離,而其準(zhǔn)確大小依賴于進(jìn)化模型的選擇。然后運(yùn)行一個(gè)聚類算法,從最相似(也就是說,兩者之間的距離最短)的序列開始,通過距離值方陣計(jì)算出實(shí)際的進(jìn)化樹,或者通過將總的樹枝長(zhǎng)度最小化而優(yōu)化出進(jìn)化樹。用最大節(jié)約方法搜索進(jìn)化樹的原理是要求用最小的改變來解釋所要研究的分類群之間的觀察到的差異。最大似然方法評(píng)估所選定的進(jìn)化模型能夠產(chǎn)生實(shí)際觀察到的數(shù)據(jù)的可能性。進(jìn)化模型可能只是簡(jiǎn)單地假定所有核苷酸(或者氨基酸)之間相互轉(zhuǎn)變的概率一樣。程序會(huì)把所有可能的核苷酸輪流置于進(jìn)化樹的內(nèi)部節(jié)點(diǎn)上,并且計(jì)算每一個(gè)這樣的序列產(chǎn)生實(shí)際數(shù)據(jù)的可能性(如果兩個(gè)姐妹分類群都有核苷酸“A”,那么,如果假定原先的核苷酸是“C”,得到現(xiàn)在的“A”的可能性比起假定原先就是“A”的可能性要小得多)。所有可能的再現(xiàn)(不僅僅是比較可能的再現(xiàn))的幾率被加總,產(chǎn)生一個(gè)特定位點(diǎn)的似然值,然后這個(gè)數(shù)據(jù)集的所有比對(duì)位點(diǎn)的似然值的加和就是整個(gè)進(jìn)化樹的似然值。 4.進(jìn)化樹搜索 單一的進(jìn)化樹的數(shù)量會(huì)隨著分類群數(shù)量的增長(zhǎng)而呈指數(shù)增長(zhǎng),從而變?yōu)橐粋(gè)天文數(shù)字。由于計(jì)算能力的限制,現(xiàn)在一般只允許對(duì)很小一部分的可能的進(jìn)化樹進(jìn)行搜索。具體的數(shù)目主要依賴于分類群的數(shù)量、優(yōu)化標(biāo)準(zhǔn)、參數(shù)設(shè)定、數(shù)據(jù)結(jié)構(gòu)、計(jì)算機(jī)硬件以及計(jì)算機(jī)軟件。 有兩種搜索方法保證可以找到最優(yōu)化的進(jìn)化樹:窮舉法和樹枝 跳躍法(BB)。對(duì)于一個(gè)很大的數(shù)據(jù)集,這兩種方法都很不實(shí)用。對(duì)分類群數(shù)量的限制主要取決于數(shù)據(jù)結(jié)構(gòu)和計(jì)算機(jī)速度,但是對(duì)于超過20個(gè)分類群的數(shù)據(jù)集,BB方法很少會(huì)得到應(yīng)用。窮舉法要根據(jù)優(yōu)化標(biāo)準(zhǔn),對(duì)每一個(gè)可能的進(jìn)化樹進(jìn)行評(píng)估。BB方法提供一個(gè)邏輯方法,以確定那些進(jìn)化樹值得評(píng)估,而另一些進(jìn)化樹可被簡(jiǎn)單屏蔽。因此BB方法通常要比窮舉法快得多。 絕大多數(shù)分析方法都使用“啟發(fā)式”的搜索。啟發(fā)式現(xiàn)搜索出相近的次優(yōu)化的進(jìn)化樹家族(“島嶼”),然后從中得到優(yōu)化解(“山頂”)。不同的算法用不同程度的精確性搜索這些島嶼和山頂。最徹底也是最慢的程序(TBR,tree bisection-reconnection,進(jìn)化樹對(duì)分重接)先把進(jìn)化樹在每一個(gè)內(nèi)部樹枝處劈開,然后以任意方式將劈開的碎片重新組合起來。最快的算法只是檢查一下相鄰終端的不太重要的重新組合,因此傾向于找到最近的島嶼的山頂。 降低搜索代價(jià)的最好方法是對(duì)數(shù)據(jù)集進(jìn)行剪除。影響優(yōu)化搜索策略選擇的因素(數(shù)據(jù)量,數(shù)據(jù)結(jié)構(gòu),時(shí)間量,硬件,分析目的)太復(fù)雜,無法推薦一個(gè)簡(jiǎn)單可行的處方。因此進(jìn)行搜索的用戶必須對(duì)數(shù)據(jù)非常熟悉且有明確的目標(biāo),了解各種各樣的搜索程序及自己硬件設(shè)備和軟件的能力。 除上述當(dāng)前應(yīng)用最廣的方法外,還有大量的建立和搜索進(jìn)化樹的其它方法。這些方法包括Wagner距離方法和親近方法(距離轉(zhuǎn)化方法);Lake的不變式方法(一個(gè)基于特征符的方法,它選擇的拓?fù)浣Y(jié)構(gòu)包含一個(gè)意義重大的正數(shù)以支持顛換);Hadamard結(jié)合方法(一個(gè)精細(xì)的代數(shù)方陣方法,對(duì)距離數(shù)據(jù)或者觀察到的特征符進(jìn)行修正);裂解方法(這個(gè)方法決定在數(shù)據(jù)中應(yīng)該支持哪一個(gè)基于距離的可選的拓?fù)浣Y(jié)構(gòu));四重奏迷惑(Quartet puzzling)方法可以為ML建樹方法所應(yīng)用,這個(gè)算法相對(duì)而言是個(gè)較快的進(jìn)化樹搜索算法。 5.確定樹根 上述的建樹方法所產(chǎn)生的都是無根樹(進(jìn)化樹沒有進(jìn)化的極性)。為了評(píng)估進(jìn)化假說,通常必須要確定進(jìn)化樹的樹根。確定系統(tǒng)發(fā)育進(jìn)化樹的樹根并不簡(jiǎn)單問題。一種確定樹根的好方法就是分析時(shí)加入一個(gè)復(fù)制的基因。如果來自絕大多數(shù)物種或者所有物種的所有的平行基因在分析時(shí)都被包含進(jìn)去,那么從邏輯上我們就可以把進(jìn)化樹的樹根定位于平行基因進(jìn)化樹的交匯處,當(dāng)然要假定在所有進(jìn)化樹中都沒有長(zhǎng)樹枝問題。 6.評(píng)估進(jìn)化樹和數(shù)據(jù) 現(xiàn)在已經(jīng)有一些程序可以用來評(píng)估數(shù)據(jù)中的系統(tǒng)發(fā)育信號(hào)和進(jìn)化樹的健壯性。對(duì)于前者,最流行的方法是用數(shù)據(jù)信號(hào)和隨機(jī)數(shù)據(jù)作對(duì)比實(shí)驗(yàn)(偏斜和排列實(shí)驗(yàn));對(duì)于后者,可以對(duì)觀察到的數(shù)據(jù)重新取樣,進(jìn)行進(jìn)化樹的支持實(shí)驗(yàn)(非參數(shù)自引導(dǎo)和對(duì)折方法)。似然比例實(shí)驗(yàn)可以對(duì)取代模型和進(jìn)化樹都進(jìn)行評(píng)估。 5.3結(jié)構(gòu)進(jìn)化樹 隨著X-ray、NMR等實(shí)驗(yàn)技術(shù)的的進(jìn)步,蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)的數(shù)量日益增多,結(jié)構(gòu)精度也越來越高,使得結(jié)構(gòu)比較更為可行。目前已經(jīng)發(fā)現(xiàn)許多蛋白的一級(jí)序列差異很大,難以通過序列比對(duì)進(jìn)行分子進(jìn)化的研究,但它們的空間拓?fù)浣Y(jié)構(gòu)仍然很相似,可以進(jìn)行結(jié)構(gòu)疊合比較、分析它們之間的進(jìn)化關(guān)系,這表明結(jié)構(gòu)比較可以比序列比較獲得更多更精確的結(jié)構(gòu)信息。研究發(fā)現(xiàn)蛋白質(zhì)結(jié)構(gòu)比序列的保守性更強(qiáng),進(jìn)化過程中蛋白質(zhì)序列可能發(fā)生變化,但它的折疊模式更為保守,即使是70%的序列發(fā)生變化,它的折疊模式也不會(huì)有很大的改變[1]。蛋白質(zhì)分子的結(jié)構(gòu)比較與蛋白質(zhì)一級(jí)序列比較法相比,具有更高的優(yōu)越性。 目前有關(guān)蛋白質(zhì)結(jié)構(gòu)比較的研究方法很多,主要有剛體結(jié)構(gòu)疊合比較、多特征的結(jié)構(gòu)比較等方法。前者用比較后確定的拓?fù)涞葍r(jià)位點(diǎn)的個(gè)數(shù)或等價(jià)位點(diǎn)Cα原子距離的均方根值作為不同結(jié)構(gòu)間差異性的量度(結(jié)構(gòu)進(jìn)化樹);后者用蛋白質(zhì)結(jié)構(gòu)的多項(xiàng)特征如殘基的物理特性、殘基的空間傾向性、主側(cè)鏈的方向、主鏈的二面角、二級(jí)結(jié)構(gòu)類型和主側(cè)鏈的可接近性等綜合指標(biāo)作為結(jié)構(gòu)的差異性量度,有時(shí)稱此類方法構(gòu)建的結(jié)構(gòu)進(jìn)化樹為“類結(jié)構(gòu)”進(jìn)化樹。 剛體疊合所構(gòu)建的進(jìn)化樹適用于同源蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的骨架結(jié)構(gòu)的選擇,基于序列的進(jìn)化樹便于描述類似性較大的蛋白質(zhì)的進(jìn)化關(guān)系,而結(jié)構(gòu)的多特征比較則適用于分析分歧較大的蛋白質(zhì)結(jié)構(gòu)。 1.剛體結(jié)構(gòu)疊合比較 當(dāng)已知2個(gè)以上同源蛋白質(zhì)的晶體結(jié)構(gòu)時(shí),可將每?jī)商捉Y(jié)構(gòu)的原子坐標(biāo)進(jìn)行最佳疊合,確定類似結(jié)構(gòu)中完整的一套殘基等價(jià)位點(diǎn),并使等價(jià)位點(diǎn)間的距離平方和最小,這樣便得到各結(jié)構(gòu)的拓?fù)涞葍r(jià)區(qū)。通常將結(jié)構(gòu)簡(jiǎn)化為一系列Cα位置,等價(jià)位點(diǎn)被定義為在重疊結(jié)構(gòu)中位于某個(gè)特定距離范圍(不大于3埃)之內(nèi)的Cα原子。通過計(jì)算不同結(jié)構(gòu)等價(jià)位點(diǎn)的個(gè)數(shù)或計(jì)算多個(gè)結(jié)構(gòu)的等價(jià)位點(diǎn)Cα距離的均方根值作為不同結(jié)構(gòu)間差異性的度量。再根據(jù)一般的建樹方法,給出幾個(gè)結(jié)構(gòu)的進(jìn)化關(guān)系。 剛體結(jié)構(gòu)疊合方法需要蛋白質(zhì)的晶體結(jié)構(gòu)數(shù)據(jù)的質(zhì)量要高。事實(shí)上,相對(duì)于序列而言,已測(cè)定的蛋白質(zhì)晶體結(jié)構(gòu)很少,許多同源蛋白質(zhì)的結(jié)構(gòu)并不知道。其次,盡管同源蛋白質(zhì)具有相同的折疊結(jié)構(gòu),它們的二級(jí)結(jié)構(gòu)成分則經(jīng)歷形變、相對(duì)平移和旋轉(zhuǎn)使側(cè)鏈達(dá)到優(yōu)化的包裝以適應(yīng)進(jìn)化的壓力。對(duì)于序列相同率為30%的兩個(gè)蛋白質(zhì),由剛體疊合所確定的拓?fù)涞葰埢木礁畲蠹s為1.5埃,而且殘基數(shù)可能只占全部殘基數(shù)的1/3。它可能不足以進(jìn)行結(jié)構(gòu)比較。因此需要發(fā)展一種更靈活的確定拓?fù)涞葍r(jià)位點(diǎn)的方法,并且要把二級(jí)結(jié)構(gòu)成分的相對(duì)運(yùn)動(dòng)和變形也考慮進(jìn)去。 2.多特征結(jié)構(gòu)比較 多特征結(jié)構(gòu)比較以及構(gòu)建“類結(jié)構(gòu)”進(jìn)化樹的原理與基于殘基匹配記分方法(常用PAM250矩陣)進(jìn)行多序列比較和構(gòu)建序列進(jìn)化樹的原理相同。包括以下步驟:(1)動(dòng)態(tài)規(guī)劃配準(zhǔn)和結(jié)構(gòu)匹配;(2)多個(gè)結(jié)構(gòu)的多特征比較;(3)多特征結(jié)構(gòu)比較的距離量度;(4)繪制進(jìn)化樹圖。 相關(guān)軟件 Phylip PHYLIP是一個(gè)包含了大約30個(gè)程序的軟件包,這些程序基本上囊括了系統(tǒng)發(fā)育的所有方面。PHYLIP是免費(fèi)軟件,并且可以在很多平臺(tái)上運(yùn)行(Mac, DOS, Unix, VAX/VMS, 及其它)。PHYLIP目前已經(jīng)是最廣泛使用的系統(tǒng)發(fā)育程序。 PAUP 開發(fā)PAUP的目的是為系統(tǒng)發(fā)育分析提供一個(gè)簡(jiǎn)單的,帶有菜單界面的,與平臺(tái)無關(guān)的,擁有多種功能(包括進(jìn)化樹圖)的程序。PAUP 3.0只建立于MP相關(guān)的進(jìn)化樹及其分析功能;而PAUP 4.0已經(jīng)可以針對(duì)核苷酸數(shù)據(jù)進(jìn)行與距離方法和ML方法相關(guān)的分析功能,以及其它一些特色。 除了PAUP和PHYLIP以外,還有其它一些系統(tǒng)發(fā)育程序,這些程序包括FastDNAml, MACCLADE, MEGA plus METREE, MOLPHY和PAML。 PHYLOGENETIC RESOURCES http://www.ucmp.berkeley.edu/subway/phylogen.html PHYLOGENY PROGRAMS http://evolution.genetics.washington.edu/phylip/software.html PHYLOGENETIC ANALYSIS COMPUTER PROGRAMS http://phylogeny.arizona.edu/tree/programs/programs.html BIOCATALOG MOLECULAR EVOLUTION http://www.ebi.ac.uk:/biocat/phylogeny.html PHYLIP http://evolution.genetics.washington.edu/phylip.html |
榮譽(yù)版主 (正式寫手)
懶懶的小蟲蟲
榮譽(yù)版主 (正式寫手)
懶懶的小蟲蟲
|
概述 當(dāng)前人類基因組研究已進(jìn)入一個(gè)重要時(shí)期,2004年已獲得人類基因組的全部序列,這是基因組研究的轉(zhuǎn)折點(diǎn)和關(guān)鍵時(shí)刻,意味著人類基因組的研究將全面進(jìn)入信息提取和數(shù)據(jù)分析階段,即生物信息學(xué)發(fā)揮重要作用的階段。到1999年12月15日發(fā)布的第115版為止,GenBank中的DNA堿基數(shù)目已達(dá)46億5千萬,DNA序列數(shù)目達(dá)到535萬;其中EST序列超過339萬條; UniGene的數(shù)目已達(dá)到7萬個(gè);已有25個(gè)模式生物的完整基因組被測(cè)序完成,另外的70個(gè)模式生物基因組正在測(cè)序當(dāng)中;到2005年初為止,人類基因組的序列完成測(cè)定;同時(shí)功能基因組和蛋白質(zhì)組的大量數(shù)據(jù)已開始涌現(xiàn)。如何分析這些數(shù)據(jù),從中獲得生物結(jié)構(gòu)、功能的相關(guān)信息是基因組研究取得成果的決定性步驟。 生物信息學(xué)是在此背景下發(fā)展起來的綜合運(yùn)用生物學(xué)、數(shù)學(xué)、物理學(xué)、信息科學(xué)以及計(jì)算機(jī)科學(xué)等諸多學(xué)科的理論方法的嶄新交叉學(xué)科。生物信息學(xué)是內(nèi)涵非常豐富的學(xué)科,其核心是基因組信息學(xué),包括基因組信息的獲取、處理、存儲(chǔ)、分配和解釋。基因組信息學(xué)的關(guān)鍵是“讀懂”基因組的核苷酸順序,即全部基因在染色體上的確切位置以及各DNA片段的功能;同時(shí)在發(fā)現(xiàn)了新基因信息之后進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測(cè),然后依據(jù)特定蛋白質(zhì)的功能進(jìn)行藥物設(shè)計(jì)。了解基因表達(dá)的調(diào)控機(jī)理也是生物信息學(xué)的重要內(nèi)容,根據(jù)生物分子在基因調(diào)控中的作用,描述人類疾病的診斷、治療內(nèi)在規(guī)律。它的研究目標(biāo)是揭示"基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語言的根本規(guī)律",解釋生命的遺傳語言。生物信息學(xué)已成為整個(gè)生命科學(xué)發(fā)展的重要組成部分,成為生命科學(xué)研究的前沿。 近來的研究表明,基因組不僅是基因的簡(jiǎn)單排列,它有其特有的組織結(jié)構(gòu)和信息結(jié)構(gòu),這種結(jié)構(gòu)是在長(zhǎng)期的演化過程中產(chǎn)生的,也是基因發(fā)揮其功能所必須的。弄清楚生物體基因組特有的組織結(jié)構(gòu)和信息結(jié)構(gòu),解譯生命的遺傳語言的關(guān)鍵。 目前在數(shù)據(jù)庫中已經(jīng)有越來越多的模式生物全基因組序列,第一個(gè)人類染色體全序列--第22號(hào)染色體的測(cè)序工作已經(jīng)在1999年12月完成,整個(gè)人類基因組計(jì)劃工作草圖將在最近完成。這無疑給基因組組織結(jié)構(gòu)和信息結(jié)構(gòu)的研究工作提供了大量的第一手材料,同時(shí)也為基因組研究取得突破性進(jìn)展提供了可能。人類對(duì)基因的認(rèn)識(shí),將從以往的對(duì)單個(gè)基因的了解,上升到在整個(gè)基因組水平上考察基因的組織結(jié)構(gòu)和信息結(jié)構(gòu),考察基因之間在位置、結(jié)構(gòu)和功能上的相互關(guān)系。 從目前生物信息學(xué)的研究情況來看,國(guó)際上公認(rèn)的生物信息學(xué)的研究?jī)?nèi)容,大致包括以下幾個(gè)方面: 生物信息的收集、存儲(chǔ)、管理與提供。包括建立國(guó)際基本生物信息庫和生物信息傳輸?shù)膰?guó)際聯(lián)網(wǎng)系統(tǒng);建立生物信息數(shù)據(jù)質(zhì)量的評(píng)估與檢測(cè)系統(tǒng);生物信息的在線服務(wù);生物信息可視化和專家系統(tǒng)。 基因組序列信息的提取和分析。包括基因的發(fā)現(xiàn)與鑒定,如利用國(guó)際EST 數(shù)據(jù)庫 (dbEST) 和各自實(shí)驗(yàn)室測(cè)定的相應(yīng)數(shù)據(jù),經(jīng)過大規(guī)模 并行計(jì)算發(fā)現(xiàn)新基因和新SNPs以及各種功能位點(diǎn);基因組中非編碼區(qū)的信息結(jié)構(gòu)分析,提出理論模型,闡明該區(qū)域的重要生物學(xué)功能;進(jìn)行模式生物完整基因組的信息結(jié)構(gòu)分析和比較研究;利用生物信息研究遺傳密碼起源、基因組結(jié)構(gòu)的演化、基因組空間結(jié)構(gòu)與DNA折疊的關(guān)系以及基因組信息與生物進(jìn)化關(guān)系等生物學(xué)的重大問題。 功能基因組相關(guān)信息分析。包括與大規(guī)模基因表達(dá)譜分析相關(guān)的算法、軟件研究,基因表達(dá)調(diào)控網(wǎng)絡(luò)的研究;與基因組信息相關(guān)的核酸、蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測(cè)和模擬,以及蛋白質(zhì)功能預(yù)測(cè)的研究。 生物大分子結(jié)構(gòu)模擬和藥物設(shè)計(jì)。包括RNA(核糖核酸)的結(jié)構(gòu)模擬和反義RNA的分子設(shè)計(jì);蛋白質(zhì)空間結(jié)構(gòu)模擬和分子設(shè)計(jì);具有不同功能域的復(fù)合蛋白質(zhì)以及連接肽的設(shè)計(jì);生物活性分子的電子結(jié)構(gòu)計(jì)算和設(shè)計(jì);納米生物材料的模擬與設(shè)計(jì);基于酶和功能蛋白質(zhì)結(jié)構(gòu)、細(xì)胞表面受體結(jié)構(gòu)的藥物設(shè)計(jì);基于DNA結(jié)構(gòu)的藥物設(shè)計(jì)等。 生物信息分析的技術(shù)與方法研究。包括發(fā)展有效的能支持大尺度作圖與測(cè)序需要的軟件、數(shù)據(jù)庫以及若干數(shù)據(jù)庫工具,諸如電子網(wǎng)絡(luò)等遠(yuǎn)程通訊工具;改進(jìn)現(xiàn)有的理論分析方法,如統(tǒng)計(jì)方法、模式識(shí)別方法、隱馬爾科夫過程方法、分維方法、神經(jīng)網(wǎng)絡(luò)方法、復(fù)雜性分析方法、密碼學(xué)方法、多序列比較方法等;創(chuàng)建一切適用于基因組信息分析的新方法、新技術(shù)。包括引入復(fù)雜系統(tǒng)分析技術(shù)、信息系統(tǒng)分析技術(shù)等;建立嚴(yán)格的多序列比較方法;發(fā)展與應(yīng)用密碼學(xué)方法以及其他算法和分析技術(shù),用于解釋基因組的信息,探索DNA序列及其空間結(jié)構(gòu)信息的新表征;發(fā)展研究基因組完整信息結(jié)構(gòu)和信息網(wǎng)絡(luò)的研究方法等;發(fā)展生物大分子空間結(jié)構(gòu)模擬、電子結(jié)構(gòu)模擬和藥物設(shè)計(jì)的新方法與新技術(shù)。 應(yīng)用與發(fā)展研究。匯集與疾病相關(guān)的人類基因信息,發(fā)展患者樣品序列信息檢測(cè)技術(shù)和基于序列信息選擇表達(dá)載體、引物的技術(shù),建立與動(dòng)植物良種繁育相關(guān)的數(shù)據(jù)庫以及與大分子設(shè)計(jì)和藥物設(shè)計(jì)相關(guān)的數(shù)據(jù)庫。 利用生物信息學(xué)方法進(jìn)行結(jié)構(gòu)功能預(yù)測(cè)要注意的是同一問題采用不同算法,可能產(chǎn)生相同或不同的結(jié)果。因此,必要弄清楚某種方法的基本原理,而不是僅把算法當(dāng)作一個(gè)“黑箱”。因?yàn)橐环N方法可能對(duì)特定實(shí)例很合適,而對(duì)另一個(gè)則完全不對(duì)。因此,本章采用原理和實(shí)用方法并重的原則進(jìn)行介紹。因生物信息學(xué)覆蓋面廣,限于篇幅,本章并未將生物信息學(xué)的全部?jī)?nèi)容詳細(xì)加以講述,僅針對(duì)與目前分子生物學(xué)實(shí)驗(yàn)數(shù)據(jù)分析密切相關(guān)的生物信息學(xué)策略及實(shí)用工具進(jìn)行扼要介紹,文中涉及問題的更詳細(xì)信息可參考相關(guān)網(wǎng)站。 [ Last edited by BlueGuy on 2005-6-7 at 16:47 ] |
榮譽(yù)版主 (正式寫手)
懶懶的小蟲蟲
|
2 生物信息數(shù)據(jù)庫與查詢 近年來大量生物學(xué)實(shí)驗(yàn)的數(shù)據(jù)積累,形成了當(dāng)前數(shù)以百計(jì)的生物信息數(shù)據(jù)庫。它們各自按一定的目標(biāo)收集和整理生物學(xué)實(shí)驗(yàn)數(shù)據(jù),并提供相關(guān)的數(shù)據(jù)查詢、數(shù)據(jù)處理的服務(wù)。隨著因特網(wǎng)的普及,這些數(shù)據(jù)庫大多可以通過網(wǎng)絡(luò)來訪問,或者通過網(wǎng)絡(luò)下載。 一般而言,這些生物信息數(shù)據(jù)庫可以分為一級(jí)數(shù)據(jù)庫和二級(jí)數(shù)據(jù)庫。一級(jí)數(shù)據(jù)庫的數(shù)據(jù)都直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過簡(jiǎn)單的歸類整理和注釋;二級(jí)數(shù)據(jù)庫是在一級(jí)數(shù)據(jù)庫、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定目標(biāo)衍生而來,是對(duì)生物學(xué)知識(shí)和信息的進(jìn)一步整理。國(guó)際上著名的一級(jí)核酸數(shù)據(jù)庫有Genbank數(shù)據(jù)庫、EMBL核酸庫和DDBJ庫等;蛋白質(zhì)序列數(shù)據(jù)庫有SWISS-PROT、PIR等;蛋白質(zhì)結(jié)構(gòu)庫有PDB等。國(guó)際上二級(jí)生物學(xué)數(shù)據(jù)庫非常多,它們因針對(duì)不同的研究?jī)?nèi)容和需要而各具特色,如人類基因組圖譜庫GDB、轉(zhuǎn)錄因子和結(jié)合位點(diǎn)庫TRANSFAC、蛋白質(zhì)結(jié)構(gòu)家族分類庫SCOP等等。 下面將順序簡(jiǎn)要介紹一些著名和有特色的生物信息數(shù)據(jù)庫。 2.1 基因和基因組數(shù)據(jù)庫 1. Genbank Genbank庫包含了所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關(guān)的文獻(xiàn)著作和生物學(xué)注釋。它是由美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)建立和維護(hù)的。它的數(shù)據(jù)直接來源于測(cè)序工作者提交的序列;由測(cè)序中心提交的大量EST序列和其它測(cè)序數(shù)據(jù);以及與其它數(shù)據(jù)機(jī)構(gòu)協(xié)作交換數(shù)據(jù)而來。Genbank每天都會(huì)與歐洲分子生物學(xué)實(shí)驗(yàn)室(EMBL)的數(shù)據(jù)庫,和日本的DNA數(shù)據(jù)庫(DDBJ)交換數(shù)據(jù),使這三個(gè)數(shù)據(jù)庫的數(shù)據(jù)同步。到1999年8月,Genbank中收集的序列數(shù)量達(dá)到460萬條,34億個(gè)堿基,而且數(shù)據(jù)增長(zhǎng)的速度還在不斷加快。Genbank的數(shù)據(jù)可以從NCBI的FTP服務(wù)器上免費(fèi)下載完整的庫,或下載積累的新數(shù)據(jù)。NCBI還提供廣泛的數(shù)據(jù)查詢、序列相似性搜索以及其它分析服務(wù),用戶可以從NCBI的主頁上找到這些服務(wù)。 Genbank庫里的數(shù)據(jù)按來源于約55,000個(gè)物種,其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列)。每條Genbank數(shù)據(jù)記錄包含了對(duì)序列的簡(jiǎn)要描述,它的科學(xué)命名,物種分類名稱,參考文獻(xiàn),序列特征表,以及序列本身。序列特征表里包含對(duì)序列生物學(xué)特征注釋如:編碼區(qū)、轉(zhuǎn)錄單元、重復(fù)區(qū)域、突變位點(diǎn)或修飾位點(diǎn)等。所有數(shù)據(jù)記錄被劃分在若干個(gè)文件里,如細(xì)菌類、病毒類、靈長(zhǎng)類、嚙齒類,以及EST數(shù)據(jù)、基因組測(cè)序數(shù)據(jù)、大規(guī);蚪M序列數(shù)據(jù)等16類,其中EST數(shù)據(jù)等又被各自分成若干個(gè)文件。 (1)Genbank數(shù)據(jù)檢索 NCBI的數(shù)據(jù)庫檢索查詢系統(tǒng)是Entrez。Entrez是基于Web界面的綜合生物信息數(shù)據(jù)庫檢索系統(tǒng)。利用Entrez系統(tǒng),用戶不僅可以方便地檢索Genbank的核酸數(shù)據(jù),還可以檢索來自Genbank和其它數(shù)據(jù)庫的蛋白質(zhì)序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、來自分子模型數(shù)據(jù)庫(MMDB)的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群序列數(shù)據(jù)集、以及由PubMed獲得Medline的文獻(xiàn)數(shù)據(jù)。 Entrez提供了方便實(shí)用的檢索服務(wù),所有操作都可以在網(wǎng)絡(luò)瀏覽器上完成。用戶可以利用Entrez界面上提供的限制條件(Limits)、索引(Index)、檢索歷史(History)和剪貼板(Clipboard)等功能來實(shí)現(xiàn)復(fù)雜的檢索查詢工作。對(duì)于檢索獲得的記錄,用戶可以選擇需要顯示的數(shù)據(jù),保存查詢結(jié)果,甚至以圖形方式觀看檢索獲得的序列。更詳細(xì)的Entrez使用說明可以在該主頁上獲得。 (2)向Genbank提交序列數(shù)據(jù) 測(cè)序工作者可以把自己工作中獲得的新序列提交給NCBI,添加到Genbank數(shù)據(jù)庫。這個(gè)任務(wù)可以由基于Web界面的BankIt或獨(dú)立程序Sequin來完成。 BankIt是一系列表單,包括聯(lián)絡(luò)信息、發(fā)布要求、引用參考信息、序列來源信息、以及序列本身的信息等。用戶提交序列后,會(huì)從電子郵件收到自動(dòng)生成的數(shù)據(jù)條目,Genbank的新序列編號(hào),以及完成注釋后的完整的數(shù)據(jù)記錄。用戶還可以在BankIt頁面下修改已經(jīng)發(fā)布序列的信息。BankIt適合于獨(dú)立測(cè)序工作者提交少量序列,而不適合大量序列的提交,也不適合提交很長(zhǎng)的序列,EST序列和GSS序列也不應(yīng)用BankIt提交。BankIt使用說明和對(duì)序列的要求可詳見其主頁面。 大量的序列提交可以由Sequin程序完成。Sequin程序能方便的編輯和處理復(fù)雜注釋,并包含一系列內(nèi)建的檢查函數(shù)來提高序列的質(zhì)量保證。它還被設(shè)計(jì)用于提交來自系統(tǒng)進(jìn)化、種群和突變研究的序列,可以加入比對(duì)的數(shù)據(jù)。Sequin除了用于編輯和修改序列數(shù)據(jù)記錄,還可以用于序列的分析,任何以FASTA或ASN.1格式序列為輸入數(shù)據(jù)的序列分析程序都可以整合到Sequin程序下。在不同操作系統(tǒng)下運(yùn)行的Sequin程序都可以在ftp://ncbi.nlm.nih.gov/sequin/下找到,Sequin的使用說明可詳見其網(wǎng)頁。 NCBI的網(wǎng)址是:http://www.ncbi.nlm.nih.gov。 Entrez的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/entrez/。 BankIt的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/BankIt。 Sequin的相關(guān)網(wǎng)址是:http://www.ncbi.nlm.nih.gov/Sequin/。 2. EMBL核酸序列數(shù)據(jù)庫 EMBL核酸序列數(shù)據(jù)庫由歐洲生物信息學(xué)研究所(EBI)維護(hù)的核酸序列數(shù)據(jù)構(gòu)成,由于與Genbank和DDBJ的數(shù)據(jù)合作交換,它也是一個(gè)全面的核酸序列數(shù)據(jù)庫。該數(shù)據(jù)庫由Oracal數(shù)據(jù)庫系統(tǒng)管理維護(hù),查詢檢索可以通過通過因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務(wù)完成。向EMBL核酸序列數(shù)據(jù)庫提交序列可以通過基于Web的WEBIN工具,也可以用Sequin軟件來完成。 數(shù)據(jù)庫網(wǎng)址是:http://www.ebi.ac.uk/embl/。 SRS的網(wǎng)址是:http://srs.ebi.ac.uk/。 WEBIN的網(wǎng)址是:http://www.ebi.ac.uk/embl/Submission/webin.html。 3. DDBJ數(shù)據(jù)庫 日本DNA數(shù)據(jù)倉庫(DDBJ)也是一個(gè)全面的核酸序列數(shù)據(jù)庫,與Genbank和EMBL核酸庫合作交換數(shù)據(jù)。可以使用其主頁上提供的SRS工具進(jìn)行數(shù)據(jù)檢索和序列分析?梢杂肧equin軟件向該數(shù)據(jù)庫提交序列。 DDBJ的網(wǎng)址是:http://www.ddbj.nig.ac.jp/。 4. GDB 基因組數(shù)據(jù)庫(GDB)為人類基因組計(jì)劃(HGP)保存和處理基因組圖譜數(shù)據(jù)。GDB的目標(biāo)是構(gòu)建關(guān)于人類基因組的百科全書,除了構(gòu)建基因組圖譜之外,還開發(fā)了描述序列水平的基因組內(nèi)容的方法,包括序列變異和其它對(duì)功能和表型的描述。目前GDB中有:人類基因組區(qū)域(包括基因、克隆、amplimers PCR 標(biāo)記、斷點(diǎn)breakpoints、細(xì)胞遺傳標(biāo)記cytogenetic markers、易碎位點(diǎn)fragile sites、EST序列、綜合區(qū)域syndromic regions、contigs和重復(fù)序列);人類基因組圖譜(包括細(xì)胞遺傳圖譜、連接圖譜、放射性雜交圖譜、content contig圖譜和綜合圖譜等);人類基因組內(nèi)的變異(包括突變和多態(tài)性,加上等位基因頻率數(shù)據(jù))。GDB數(shù)據(jù)庫以對(duì)象模型來保存數(shù)據(jù),提供基于Web的數(shù)據(jù)對(duì)象檢索服務(wù),用戶可以搜索各種類型的對(duì)象,并以圖形方式觀看基因組圖譜。 GDB的網(wǎng)址是:http://www.gdb.org。 GDB的國(guó)內(nèi)鏡像是:http://gdb.pku.edu.cn/gdb/。 2.2 蛋白質(zhì)數(shù)據(jù)庫 1. PIR和PSD PIR國(guó)際蛋白質(zhì)序列數(shù)據(jù)庫(PSD)是由蛋白質(zhì)信息資源(PIR)、慕尼黑蛋白質(zhì)序列信息中心(MIPS)和日本國(guó)際蛋白質(zhì)序列數(shù)據(jù)庫(JIPID)共同維護(hù)的國(guó)際上最大的公共蛋白質(zhì)序列數(shù)據(jù)庫。這是一個(gè)全面的、經(jīng)過注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫,包含超過142,000條蛋白質(zhì)序列(至99年9月),其中包括來自幾十個(gè)完整基因組的蛋白質(zhì)序列。所有序列數(shù)據(jù)都經(jīng)過整理,超過99%的序列已按蛋白質(zhì)家族分類,一半以上還按蛋白質(zhì)超家族進(jìn)行了分類。PSD的注釋中還包括對(duì)許多序列、結(jié)構(gòu)、基因組和文獻(xiàn)數(shù)據(jù)庫的交叉索引,以及數(shù)據(jù)庫內(nèi)部條目之間的索引,這些內(nèi)部索引幫助用戶在包括復(fù)合物、酶-底物相互作用、活化和調(diào)控級(jí)聯(lián)和具有共同特征的條目之間方便的檢索。每季度都發(fā)行一次完整的數(shù)據(jù)庫,每周可以得到更新部分。 PSD數(shù)據(jù)庫有幾個(gè)輔助數(shù)據(jù)庫,如基于超家族的非冗余庫等。PIR提供三類序列搜索服務(wù):基于文本的交互式檢索;標(biāo)準(zhǔn)的序列相似性搜索,包括BLAST、FASTA等;結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級(jí)搜索,包括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索GeneFIND等。 PIR和PSD的網(wǎng)址是:http://pir.georgetown.edu/。 數(shù)據(jù)庫下載地址是:ftp://nbrfa.georgetown.edu/pir/。 2. SWISS-PROT SWISS-PROT是經(jīng)過注釋的蛋白質(zhì)序列數(shù)據(jù)庫,由歐洲生物信息學(xué)研究所(EBI)維護(hù)。數(shù)據(jù)庫由蛋白質(zhì)序列條目構(gòu)成,每個(gè)條目包含蛋白質(zhì)序列、引用文獻(xiàn)信息、分類學(xué)信息、注釋等,注釋中包括蛋白質(zhì)的功能、轉(zhuǎn)錄后修飾、特殊位點(diǎn)和區(qū)域、二級(jí)結(jié)構(gòu)、四級(jí)結(jié)構(gòu)、與其它序列的相似性、序列殘缺與疾病的關(guān)系、序列變異體和沖突等信息。SWISS-PROT中盡可能減少了冗余序列,并與其它30多個(gè)數(shù)據(jù)建立了交叉引用,其中包括核酸序列庫、蛋白質(zhì)序列庫和蛋白質(zhì)結(jié)構(gòu)庫等。 利用序列提取系統(tǒng)(SRS)可以方便地檢索SWISS-PROT和其它EBI的數(shù)據(jù)庫。 SWISS-PROT只接受直接測(cè)序獲得的蛋白質(zhì)序列,序列提交可以在其Web頁面上完成。 SWISS-PROT的網(wǎng)址是:http://www.ebi.ac.uk/swissprot/。 3. PROSITE PROSITE數(shù)據(jù)庫收集了生物學(xué)有顯著意義的蛋白質(zhì)位點(diǎn)和序列模式,并能根據(jù)這些位點(diǎn)和模式快速和可靠地鑒別一個(gè)未知功能的蛋白質(zhì)序列應(yīng)該屬于哪一個(gè)蛋白質(zhì)家族。有的情況下,某個(gè)蛋白質(zhì)與已知功能蛋白質(zhì)的整體序列相似性很低,但由于功能的需要保留了與功能密切相關(guān)的序列模式,這樣就可能通過PROSITE的搜索找到隱含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點(diǎn)、配體結(jié)合位點(diǎn)、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等;除了序列模式之外,PROSITE還包括由多序列比對(duì)構(gòu)建的profile,能更敏感地發(fā)現(xiàn)序列與profile的相似性。PROSITE的主頁上提供各種相關(guān)檢索服務(wù)。 PROSITE的網(wǎng)址是:http://www.expasy.ch/prosite/。 4. PDB 蛋白質(zhì)數(shù)據(jù)倉庫(PDB)是國(guó)際上唯一的生物大分子結(jié)構(gòu)數(shù)據(jù)檔案庫,由美國(guó)Brookhaven國(guó)家實(shí)驗(yàn)室建立。PDB收集的數(shù)據(jù)來源于X光晶體衍射和核磁共振(NMR)的數(shù)據(jù),經(jīng)過整理和確認(rèn)后存檔而成。目前PDB數(shù)據(jù)庫的維護(hù)由結(jié)構(gòu)生物信息學(xué)研究合作組織(RCSB)負(fù)責(zé)。RCSB的主服務(wù)器和世界各地的鏡像服務(wù)器提供數(shù)據(jù)庫的檢索和下載服務(wù),以及關(guān)于PDB數(shù)據(jù)文件格式和其它文檔的說明,PDB數(shù)據(jù)還可以從發(fā)行的光盤獲得。使用Rasmol等軟件可以在計(jì)算機(jī)上按PDB文件顯示生物大分子的三維結(jié)構(gòu)。 RCSB的PDB數(shù)據(jù)庫網(wǎng)址是:http://www.rcsb.org/pdb/。 5. SCOP 蛋白質(zhì)結(jié)構(gòu)分類(SCOP)數(shù)據(jù)庫詳細(xì)描述了已知的蛋白質(zhì)結(jié)構(gòu)之間的關(guān)系。分類基于若干層次:家族,描述相近的進(jìn)化關(guān)系;超家族,描述遠(yuǎn)源的進(jìn)化關(guān)系;折疊子(fold),描述空間幾何結(jié)構(gòu)的關(guān)系;折疊類,所有折疊子被歸于全α、全β、α/β、α+β和多結(jié)構(gòu)域等幾個(gè)大類。SCOP還提供一個(gè)非冗余的ASTRAIL序列庫,這個(gè)庫通常被用來評(píng)估各種序列比對(duì)算法。此外,SCOP還提供一個(gè)PDB-ISL中介序列庫,通過與這個(gè)庫中序列的兩兩比對(duì),可以找到與未知結(jié)構(gòu)序列遠(yuǎn)緣的已知結(jié)構(gòu)序列。 SCOP的網(wǎng)址是:http://scop.mrc-lmb.cam.ac.uk/scop/。 6. COG 蛋白質(zhì)直系同源簇(COGs)數(shù)據(jù)庫是對(duì)細(xì)菌、藻類和真核生物的21個(gè)完整基因組的編碼蛋白,根據(jù)系統(tǒng)進(jìn)化關(guān)系分類構(gòu)建而成。COG庫對(duì)于預(yù)測(cè)單個(gè)蛋白質(zhì)的功能和整個(gè)新基因組中蛋白質(zhì)的功能都很有用。利用COGNITOR程序,可以把某個(gè)蛋白質(zhì)與所有COGs中的蛋白質(zhì)進(jìn)行比對(duì),并把它歸入適當(dāng)?shù)腃OG簇。COG庫提供了對(duì)COG分類數(shù)據(jù)的檢索和查詢,基于Web的COGNITOR服務(wù),系統(tǒng)進(jìn)化模式的查詢服務(wù)等。 COG庫的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/COG。 下載COG庫和COGNITOR程序在:ftp://ncbi.nlm.nih.gov/pub/COG。 2.3 功能數(shù)據(jù)庫 1. KEGG 京都基因和基因組百科全書(KEGG)是系統(tǒng)分析基因功能,聯(lián)系基因組信息和功能信息的知識(shí)庫。基因組信息存儲(chǔ)在GENES數(shù)據(jù)庫里,包括完整和部分測(cè)序的基因組序列;更高級(jí)的功能信息存儲(chǔ)在PATHWAY數(shù)據(jù)庫里,包括圖解的細(xì)胞生化過程如代謝、膜轉(zhuǎn)運(yùn)、信號(hào)傳遞、細(xì)胞周期,還包括同系保守的子通路等信息;KEGG的另一個(gè)數(shù)據(jù)庫是LIGAND,包含關(guān)于化學(xué)物質(zhì)、酶分子、酶反應(yīng)等信息。KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達(dá)圖譜,以及其它序列比較、圖形比較和通路計(jì)算的工具,可以免費(fèi)獲取。 KEGG的網(wǎng)址是:。 2. DIP 相互作用的蛋白質(zhì)數(shù)據(jù)庫(DIP)收集了由實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)-蛋白質(zhì)相互作用。數(shù)據(jù)庫包括蛋白質(zhì)的信息、相互作用的信息和檢測(cè)相互作用的實(shí)驗(yàn)技術(shù)三個(gè)部分。用戶可以根據(jù)蛋白質(zhì)、生物物種、蛋白質(zhì)超家族、關(guān)鍵詞、實(shí)驗(yàn)技術(shù)或引用文獻(xiàn)來查詢DIP數(shù)據(jù)庫。 DIP的網(wǎng)址是:http://dip.doe-mbi.ucla.edu/。 3. ASDB 可變剪接數(shù)據(jù)庫(ASDB)包括蛋白質(zhì)庫和核酸庫兩部分。ASDB(蛋白質(zhì))部分來源于SWISS-PROT蛋白質(zhì)序列庫,通過選取有可變剪接注釋的序列,搜索相關(guān)可變剪接的序列,經(jīng)過序列比對(duì)、篩選和分類構(gòu)建而成。ASDB(核酸)部分來自Genbank中提及和注釋的可變剪接的完整基因構(gòu)成。數(shù)據(jù)庫提供了方便的搜索服務(wù)。 ASDB的網(wǎng)址是:http://cbcg.nersc.gov/asdb。 4. TRRD 轉(zhuǎn)錄調(diào)控區(qū)數(shù)據(jù)庫(TRRD)是在不斷積累的真核生物基因調(diào)控區(qū)結(jié)構(gòu)-功能特性信息基礎(chǔ)上構(gòu)建的。每一個(gè)TRRD的條目里包含特定基因各種結(jié)構(gòu)-功能特性:轉(zhuǎn)錄因子結(jié)合位點(diǎn)、啟動(dòng)子、增強(qiáng)子、靜默子、以及基因表達(dá)調(diào)控模式等。TRRD包括五個(gè)相關(guān)的數(shù)據(jù)表:TRRDGENES(包含所有TRRD庫基因的基本信息和調(diào)控單元信息);TRRDSITES(包括調(diào)控因子結(jié)合位點(diǎn)的具體信息);TRRDFACTORS(包括TRRD中與各個(gè)位點(diǎn)結(jié)合的調(diào)控因子的具體信息);TRRDEXP(包括對(duì)基因表達(dá)模式的具體描述);TRRDBIB(包括所有注釋涉及的參考文獻(xiàn))。TRRD主頁提供了對(duì)這幾個(gè)數(shù)據(jù)表的檢索服務(wù)。 TRRD的網(wǎng)址是:http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/。 5. TRANSFAC TRANSFAC數(shù)據(jù)庫是關(guān)于轉(zhuǎn)錄因子、它們?cè)诨蚪M上的結(jié)合位點(diǎn)和與DNA結(jié)合的profiles的數(shù)據(jù)庫。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等數(shù)據(jù)表構(gòu)成。此外,還有幾個(gè)與TRANSFAC密切相關(guān)的擴(kuò)展庫:PATHODB庫收集了可能導(dǎo)致病態(tài)的突變的轉(zhuǎn)錄因子和結(jié)合位點(diǎn);S/MART DB收集了與染色體結(jié)構(gòu)變化相關(guān)的蛋白因子和位點(diǎn)的信息;TRANSPATH庫用于描述與轉(zhuǎn)錄因子調(diào)控相關(guān)的信號(hào)傳遞的網(wǎng)絡(luò);CYTOMER庫表現(xiàn)了人類轉(zhuǎn)錄因子在各個(gè)器官、細(xì)胞類型、生理系統(tǒng)和發(fā)育時(shí)期的表達(dá)狀況。TRANSFAC及其相關(guān)數(shù)據(jù)庫可以免費(fèi)下載,也可以通過Web進(jìn)行檢索和查詢。 TRANSFAC的網(wǎng)址是:http://transfac.gbf.de/TRANSFAC/。 2.4 其它數(shù)據(jù)庫資源 1. DBCat DBCat是生物信息數(shù)據(jù)庫的目錄數(shù)據(jù)庫,它收集了500多個(gè)生物信息學(xué)數(shù)據(jù)庫的信息,并根據(jù)它們的應(yīng)用領(lǐng)域進(jìn)行了分類。包括DNA、RNA、蛋白質(zhì)、基因組、圖譜、蛋白質(zhì)結(jié)構(gòu)、文獻(xiàn)著作等基本類型。數(shù)據(jù)庫可以免費(fèi)下載或在網(wǎng)絡(luò)上檢索查詢。 DBCat的網(wǎng)址是:http://www.infobiogen.fr/services/dbcat/。 下載DBCat在:ftp://ftp.infobiogen.fr/pub/db/dbcat。 2. PubMed PubMed是NCBI維護(hù)的文獻(xiàn)引用數(shù)據(jù)庫,提供對(duì)MEDLINE、Pre-MEDLINE等文獻(xiàn)數(shù)據(jù)庫的引用查詢和對(duì)大量網(wǎng)絡(luò)科學(xué)類電子期刊的鏈接。利用Entrez系統(tǒng)可以對(duì)PubMed進(jìn)行方便的查詢檢索。 PubMed的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/。 除了以上提及的數(shù)據(jù)之外,還有許許多多的專門生物信息數(shù)據(jù)庫,涉及了目前生物學(xué)研究的各個(gè)層面和領(lǐng)域,由于篇幅所限無法一一詳述。國(guó)內(nèi)也有一些大數(shù)據(jù)庫的鏡像站點(diǎn)和自己開發(fā)的有特色的數(shù)據(jù)庫,如歐洲分子生物學(xué)網(wǎng)絡(luò)組織EMBNet中國(guó)節(jié)點(diǎn)北京大學(xué)分子生物信息鏡像系統(tǒng),上海博容基因公司與上海嘉瑞軟件公司合作開發(fā)的國(guó)產(chǎn)漢化基因數(shù)據(jù)庫及分析管理系統(tǒng),同時(shí)國(guó)家級(jí)的生物信息學(xué)中心也在籌建之中。我們期待國(guó)內(nèi)能有更多高質(zhì)量和使用便利的數(shù)據(jù)庫資源,推動(dòng)我國(guó)生物信息學(xué)和整個(gè)生命科學(xué)的發(fā)展。 清華大學(xué)生物信息學(xué)研究所網(wǎng)址:http://bioinfo.tsinghua.edu.cn 北京大學(xué)生物信息鏡像系統(tǒng)網(wǎng)址:http://cbi.pku.edu.cn |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 求材料調(diào)劑 +10 | 隔壁陳先生 2026-03-12 | 10/500 |
|
|---|---|---|---|---|
|
[考研] 能源材料化學(xué)課題組招收碩士研究生8-10名 +4 | 脫穎而出 2026-03-16 | 11/550 |
|
|
[考研] 085600材料與化工調(diào)劑 324分 +9 | llllkkkhh 2026-03-18 | 9/450 |
|
|
[考研] 311求調(diào)劑 +11 | 冬十三 2026-03-15 | 12/600 |
|
|
[考研] 085601材料工程專碩求調(diào)劑 +6 | 慕寒mio 2026-03-16 | 6/300 |
|
|
[考研] 070300化學(xué)319求調(diào)劑 +6 | 錦鯉0909 2026-03-17 | 6/300 |
|
|
[考研] 材料,紡織,生物(0856、0710),化學(xué)招生啦 +3 | Eember. 2026-03-17 | 9/450 |
|
|
[考研] 265求調(diào)劑 +3 | 梁梁校校 2026-03-17 | 3/150 |
|
|
[碩博家園] 湖北工業(yè)大學(xué) 生命科學(xué)與健康學(xué)院-課題組招收2026級(jí)食品/生物方向碩士 +3 | 1喜春8 2026-03-17 | 5/250 |
|
|
[考研] 材料專碩326求調(diào)劑 +6 | 墨煜姒莘 2026-03-15 | 7/350 |
|
|
[考研] 302求調(diào)劑 +4 | 小賈同學(xué)123 2026-03-15 | 8/400 |
|
|
[論文投稿] 有沒有大佬發(fā)小論文能帶我個(gè)二作 +3 | 增銳漏人 2026-03-17 | 4/200 |
|
|
[考研] 一志愿,福州大學(xué)材料專碩339分求調(diào)劑 +3 | 木子momo青爭(zhēng) 2026-03-15 | 3/150 |
|
|
[考研]
|
zhouzhen654 2026-03-16 | 3/150 |
|
|
[考研] 東南大學(xué)364求調(diào)劑 +5 | JasonYuiui 2026-03-15 | 5/250 |
|
|
[考研] 304求調(diào)劑 +4 | ahbd 2026-03-14 | 4/200 |
|
|
[考研] 070300化學(xué)學(xué)碩求調(diào)劑 +6 | 太想進(jìn)步了0608 2026-03-16 | 6/300 |
|
|
[考研] 283求調(diào)劑 +10 | 小樓。 2026-03-12 | 14/700 |
|
|
[考研] 297一志愿上交085600求調(diào)劑 +5 | 指尖八千里 2026-03-14 | 5/250 |
|
|
[考研] 0817化學(xué)工程與技術(shù)考研312分調(diào)劑 +3 | T123 tt 2026-03-12 | 3/150 |
|