| 5 | 1/1 | 返回列表 |
| 查看: 13325 | 回復: 87 | ||||||||
| 當前只顯示滿足指定條件的回帖,點擊這里查看本話題的所有回帖 | ||||||||
BlueGuy無蟲
懶懶的小蟲蟲
|
[交流]
生物信息學專題-生物版,醫(yī)學版和信息科學版共同創(chuàng)建 已有2人參與
|
|||||||
|
為進一步建好小木蟲的專業(yè)學科版,現(xiàn)由生物版、醫(yī)學版和信息科學版共同創(chuàng)建生物信息學專題,歡迎大家積極參與! [ Last edited by fishery on 2005-6-16 at 21:05 ] |
生物信息學 | 高通量測序 | 生物信息-分析與挖掘 | ENVIRON TECHNOL |
劉安安 |
無蟲
懶懶的小蟲蟲
|
4 核酸與蛋白質(zhì)結(jié)構(gòu)和功能的預測分析 人們獲得各種核酸和蛋白質(zhì)序列的目的是了解這個序列在生物體中充當了怎樣的角色。例如,DNA序列中重復片段、編碼區(qū)、啟動子、內(nèi)含子/外顯子、轉(zhuǎn)錄調(diào)控因子結(jié)合位點等信息;蛋白質(zhì)的分子量、等電點、二級結(jié)構(gòu)、三級結(jié)構(gòu)、四級結(jié)構(gòu)、膜蛋白的跨膜區(qū)段、酶的活性位點、以及蛋白質(zhì)之間相互作用等結(jié)構(gòu)和功能信息。雖然用實驗的方法是多年以來解決這類問題的主要途徑,但新的思路是利用已有的對生物大分子結(jié)構(gòu)和功能特性的認識,用生物信息學的方法通過計算機模擬和計算來“預測”出這些信息或提供與之相關的輔助信息。由于生物信息學的特點,可以用較低的成本和較快的時間就能獲得可靠的結(jié)果。近10年來生物學序列信息的爆炸性增長大大促進了各種序列分析和預測技術的發(fā)展,目前已經(jīng)可以用理論預測的方法獲得大量的結(jié)構(gòu)和功能信息。要注意的是,盡管各種預測方法都基于現(xiàn)有的生物學數(shù)據(jù)和已有的生物學知識,但在不同模型或算法基礎上建立的不同分析程序有其一定的適用范圍和相應的限制條件,因此最好對同一個生物學問題盡量多用幾種分析程序,綜合分析各種方法得到的結(jié)果和結(jié)果的可靠性。此外,生物信息學的分析只是為生物學研究提供參考,這些信息能提高研究的效率或提供研究的思路,但很多問題還需要通過實驗的方法得到驗證。 4.1 針對核酸序列的預測方法 針對核酸序列的預測就是在核酸序列中尋找基因,找出基因的位置和功能位點的位置,以及標記已知的序列模式等過程。在此過程中,確認一段DNA序列是一個基因需要有多個證據(jù)的支持。一般而言,在重復片段頻繁出現(xiàn)的區(qū)域里,基因編碼區(qū)和調(diào)控區(qū)不太可能出現(xiàn);如果某段DNA片段的假想產(chǎn)物與某個已知的蛋白質(zhì)或其它基因的產(chǎn)物具有較高序列相似性的話,那么這個DNA片段就非常可能屬于外顯子片段;在一段DNA序列上出現(xiàn)統(tǒng)計上的規(guī)律性,即所謂的“密碼子偏好性”,也是說明這段DNA是蛋白質(zhì)編碼區(qū)的有力證據(jù);其它的證據(jù)包括與“模板”序列的模式相匹配、簡單序列模式如TATA Box等相匹配等。一般而言,確定基因的位置和結(jié)構(gòu)需要多個方法綜合運用,而且需要遵循一定的規(guī)則:對于真核生物序列,在進行預測之前先要進行重復序列分析,把重復序列標記出來并除去;選用預測程序時要注意程序的物種特異性;要弄清程序適用的是基因組序列還是cDNA序列;很多程序?qū)π蛄虚L度也有要求,有的程序只適用于長序列,而對EST這類殘缺的序列則不適用。 1. 重復序列分析 對于真核生物的核酸序列而言,在進行基因辨識之前都應該把簡單的大量的重復序列標記出來并除去,因為很多情況下重復序列會對預測程序產(chǎn)生很大的擾亂,尤其是涉及數(shù)據(jù)庫搜索的程序。常見的重復序列分析程序有CENSOR和RepeatMasker等,可以在Web界面上使用這些程序,或者用Email來進行。如果有大量序列需要處理,可以使用XBLAST程序,它可以從Internet上下載得到。XBLAST中以及包含了由程序作者收集整理的一些重復序列,此外還可以從Repbase中找到更多的重復序列。還可以把克隆載體也加入重復序列中,這樣就可以在處理重復序列時順便把克隆載體也一同除去。經(jīng)處理的序列中重復序列所在位置會一律由“X”代替。 CENSOR和Repbase的網(wǎng)址是:http://www.girinst.org/。 CENSOR的Email服務地址是:censor@sharon.lpi.org。 RepeatMasker的網(wǎng)址是:http://ftp.genome.washington.edu/cgi-bin/RepeatMasker。 下載XBLAST的網(wǎng)址是:ftp://ncbi.nlm.nih.gov/pub/jmc。 下載Repbase的網(wǎng)址是:ftp://ncbi/nlm.nih.gov/repository/repbase/REF。 2. 數(shù)據(jù)庫搜索 把未知核酸序列作為查詢序列,在數(shù)據(jù)庫里搜索與之相似的已有序列是序列分析預測的有效手段,在上一節(jié)中已經(jīng)專門介紹了序列比對和搜索的原理和技術。但值得注意的是,由相似性分析作出的結(jié)論可能導致錯誤的流傳;有一定比例的序列很難在數(shù)據(jù)庫里找到合適的同源伙伴。對于EST序列而言,序列搜索將是非常有效的預測手段。 3. 編碼區(qū)統(tǒng)計特性分析 統(tǒng)計獲得的經(jīng)驗說明,DNA中密碼子的使用頻率不是平均分布的,某些密碼子會以較高的頻率使用而另一些則較少出現(xiàn)。這樣就使得編碼區(qū)的序列呈現(xiàn)出可察覺的統(tǒng)計特異性,即所謂的“密碼子偏好性”。利用這一特性對未知序列進行統(tǒng)計學分析可以發(fā)現(xiàn)編碼區(qū)的粗略位置。這一類技術包括:雙密碼子計數(shù)(統(tǒng)計連續(xù)兩個密碼子的出現(xiàn)頻率);核苷酸周期性分析(分析同一個核苷酸在3,6,9,...位置上周期性出現(xiàn)的規(guī)律);均一/復雜性分析(長同聚物的統(tǒng)計計數(shù));開放可讀框架分析等。 常見的編碼區(qū)統(tǒng)計特性分析工具將多種統(tǒng)計分析技術組合起來,給出對編碼區(qū)的綜合判別。著名的程序有GRAIL和GenMark等,GRAIL提供了基于Web的服務。 GRAIL的網(wǎng)址是:http://compbio.ornl.gov/Grail-1.3/。 4. 啟動子分析 啟動子是基因表達所必需的重要序列信號,識別出啟動子對于基因辨識十分重要。有一些程序根據(jù)實驗獲得的轉(zhuǎn)錄因子結(jié)合特性來描述啟動子的序列特征,并依次作為啟動子預測的依據(jù),但實際的效果并不十分理想,遺漏和假陽性都比較嚴重?偟膩碚f,啟動子仍是值得繼續(xù)研究探索的難題。 5. 內(nèi)含子/外顯子剪接位點 剪接位點一般具有較明顯的序列特征,但是要注意可變剪接的問題。由于可變剪接在數(shù)據(jù)庫里的注釋非常不完整,因此很難評估剪接位點識別程序預測剪接位點的敏感性和精度。如果把剪接位點和兩側(cè)的編碼特性結(jié)合起來分析則有助于提供剪接位點的識別效果。 常見的基因識別工具很多都包含了剪接位點識別功能,獨立的剪接位點識別工具有NetGene等。 NetGene服務的Email地址是:netgene@cbs.dtu.dk。 6. 翻譯起始位點 對于真核生物,如果已知轉(zhuǎn)錄起始點,并且沒有內(nèi)含子打斷5'非翻譯區(qū)的話,“Kozak規(guī)則”可以在大多數(shù)情況下定位起始密碼子。原核生物一般沒有剪接過程,但在開放閱讀框中找正確的起始密碼子仍很困難。這時由于多順反操縱子的存在,啟動子定位不象在真核生物中起關鍵作用。對于原核生物,關鍵是核糖體結(jié)合點的定位,可以由多個程序提供解決方案,可以參考下面的綜述。 Gelfand, M. S. (1995). Prediction of function in DNA sequence analyis. J. Comput. Biol. 2, 87-115. 7. 翻譯終止信號 PolyA和翻譯終止信號不象起始信號那么重要,但也可以輔助劃分基因的范圍。 8. 其它綜合基因預測工具 除了上面提到的程序之外,還有許多用于基因預測的工具,它們大多把各個方面的分析綜合起來,對基因進行整體的分析和預測。多種信息的綜合分析有助于提高預測的可靠性,但也有一些局限:物種適用范圍的局限;對多基因或部分基因,有的預測出的基因結(jié)構(gòu)不可靠;預測的精度對許多新發(fā)現(xiàn)基因比較低;對序列中的錯誤很敏感;對可變剪接、重疊基因和啟動子等復雜基因語法效果不佳。 相對不錯的工具有GENSCAN,可以通過Web頁面或Email獲得GENSCAN服務。 GENSCAN的網(wǎng)址是:http://ccr-081.mit.edu/GENSCAN.html。 9. tRNA基因識別 tRNA基因識別比編碼蛋白質(zhì)的基因識別簡單,目前基本已經(jīng)解決了用理論方法預測tRNA基因的問題。tRNAscan-SE工具中綜合了多個識別和分析程序,通過分析啟動子元件的保守序列模式、tRNA二級結(jié)構(gòu)的分析、轉(zhuǎn)錄控制元件分析和除去絕大多數(shù)假陽性的篩選過程,據(jù)稱能識別99%的真tRNA基因。可以在Web上使用這個工具,也可以下載這個程序。 tRNAscan-SE的網(wǎng)址是:http://www.genetics.wustl.edu/eddy/tRNAscan-SE/。 4.2 針對蛋白質(zhì)的預測方法 傳統(tǒng)的生物學認為,蛋白質(zhì)的序列決定了它的三維結(jié)構(gòu),也就決定了它的功能。由于用X光晶體衍射和NMR核磁共振技術測定蛋白質(zhì)的三維結(jié)構(gòu),以及用生化方法研究蛋白質(zhì)的功能效率不高,無法適應蛋白質(zhì)序列數(shù)量飛速增長的需要,因此近幾十年來許多科學家致力于研究用理論計算的方法預測蛋白質(zhì)的三維結(jié)構(gòu)和功能,經(jīng)過多年努力取得了一定的成果。 1. 從氨基酸組成辨識蛋白質(zhì) 根據(jù)組成蛋白質(zhì)的20種氨基酸的物理和化學性質(zhì)可以分析電泳等實驗中的未知蛋白質(zhì),也可以分析已知蛋白質(zhì)的物化性質(zhì)。ExPASy工具包中提供了一系列相應程序: AACompIdent:根據(jù)氨基酸組成辨識蛋白質(zhì)。這個程序需要的信息包括:氨基酸組成、蛋白質(zhì)的名稱(在結(jié)果中有用)、pI和Mw(如果已知)以及它們的估算誤差、所屬物種或物種種類或“全部(ALL)”、標準蛋白的氨基酸組成、標準蛋白的SWISS-PROT編號、用戶的Email地址等,其中一些信息可以沒有。這個程序在SWISS-PROT和(或)TrEMBL數(shù)據(jù)庫中搜索組成相似蛋白。 AACompSim:與前者類似,但比較在SWISS-PROT條目之間進行。這個程序可以用于發(fā)現(xiàn)蛋白質(zhì)之間較弱的相似關系。 除了ExPASy中的工具外,PROPSEARCH也提供基于氨基酸組成的蛋白質(zhì)辨識功能。程序作者用144種不同的物化性質(zhì)來分析蛋白質(zhì),包括分子量、巨大殘基的含量、平均疏水性、平均電荷等,把查詢序列的這些屬性構(gòu)成的“查詢向量”與SWISS-PROT和PIR中預先計算好的各個已知蛋白質(zhì)的屬性向量進行比較。這個工具能有效的發(fā)現(xiàn)同一蛋白質(zhì)家族的成員。可以通過Web使用這個工具,用戶只需輸入查詢序列本身。 ExPASy的網(wǎng)址是:http://www.expasy.ch/tools/。 PROSEARCH的網(wǎng)址是:http://www.embl-heidelberg.de/prs.html。 2. 預測蛋白質(zhì)的物理性質(zhì) 從蛋白質(zhì)序列出發(fā),可以預測出蛋白質(zhì)的許多物理性質(zhì),包括等電點、分子量、酶切特性、疏水性、電荷分布等。相關工具有: Compute pI/MW:是ExPASy工具包中的程序,計算蛋白質(zhì)的等電點和分子量。對于堿性蛋白質(zhì),計算出的等電點可能不準確。 PeptideMass:是ExPASy工具包中的程序,分析蛋白質(zhì)在各種蛋白酶和化學試劑處理后的內(nèi)切產(chǎn)物。蛋白酶和化學試劑包括胰蛋白酶、糜蛋白酶、LysC、溴化氰、ArgC、AspN和GluC等。 TGREASE:是FASTA工具包中的程序,分析蛋白質(zhì)序列的疏水性。這個程序延序列計算每個殘基位點的移動平均疏水性,并給出疏水性-序列曲線,用這個程序可以發(fā)現(xiàn)膜蛋白的跨膜區(qū)和高疏水性區(qū)的明顯相關性。 SAPS:蛋白質(zhì)序列統(tǒng)計分析,對提交的序列給出大量全面的分析數(shù)據(jù),包括氨基酸組成統(tǒng)計、電荷分布分析、電荷聚集區(qū)域、高度疏水區(qū)域、跨膜區(qū)段等等。 ExPASy的網(wǎng)址是:http://www.expasy.ch/tools/。 下載FASTA的網(wǎng)址是:ftp://ftp.virginia.edu/pub/fasta/。 SAPS的網(wǎng)址是:http://www.isrec.isb-sib.ch/software/SAPS_form.html。 3. 蛋白質(zhì)二級結(jié)構(gòu)預測 二級結(jié)構(gòu)是指α螺旋和β折疊等規(guī)則的蛋白質(zhì)局部結(jié)構(gòu)元件。不同的氨基酸殘基對于形成不同的二級結(jié)構(gòu)元件具有不同的傾向性。按蛋白質(zhì)中二級結(jié)構(gòu)的成分可以把球形蛋白分為全α蛋白、全β蛋白、α+β蛋白和α/β蛋白等四個折疊類型。預測蛋白質(zhì)二級結(jié)構(gòu)的算法大多以已知三維結(jié)構(gòu)和二級結(jié)構(gòu)的蛋白質(zhì)為依據(jù),用過人工神經(jīng)網(wǎng)絡、遺傳算法等技術構(gòu)建預測方法。還有將多種預測方法結(jié)合起來,獲得“一致序列”?偟膩碚f,二級結(jié)構(gòu)預測仍是未能完全解決的問題,一般對于α螺旋預測精度較好,對β折疊差些,而對除α螺旋和β折疊等之外的無規(guī)則二級結(jié)構(gòu)則效果很差。 nnPredict:用神經(jīng)網(wǎng)絡方法預測二級結(jié)構(gòu),蛋白質(zhì)結(jié)構(gòu)類型分為全α蛋白、全β蛋白和α/β蛋白,輸出結(jié)果包括“H”(螺旋)、“E”(折疊)和“-”(轉(zhuǎn)角)。這個方法對全α蛋白能達到79%的準確率。 PredictProtein:提供了序列搜索和結(jié)構(gòu)預測服務。它先在SWISS-PROT中搜索相似序列,用MaxHom算法構(gòu)建多序列比對的profile,再在數(shù)據(jù)庫中搜索相似的profile,然后用一套PHD程序來預測相應的結(jié)構(gòu)特征,包括二級結(jié)構(gòu)。返回的結(jié)果包含大量預測過程中產(chǎn)生的信息,還包含每個殘基位點的預測可信度。這個方法的平均預測準確率達到72%。 SOPMA:帶比對的自優(yōu)化預測方法,將幾種獨立二級結(jié)構(gòu)預測方法匯集成“一致預測結(jié)果”,采用的二級結(jié)構(gòu)預測方法包括GOR方法、Levin同源預測方法、雙重預測方法、PHD方法和SOPMA方法。多種方法的綜合應用平均效果比單個方法更好。 nnPredict的網(wǎng)址是:http://www.cmpharm.ucsf.edu/~nomi/nnpredict.html。 PredictProtein的網(wǎng)址是:http://cubic.bioc.columbia.edu/predictprotein/。 PredictProtein的國內(nèi)鏡像在:http://www.cbi.pku.edu.cn/predictprotein/。 SOPMA的網(wǎng)址是:http://pbil.ibcp.fr/。 4. 其它特殊局部結(jié)構(gòu) 其它特殊局部結(jié)構(gòu)包括膜蛋白的跨膜螺旋、信號肽、卷曲螺旋(Coiled Coils)等,具有明顯的序列特征和結(jié)構(gòu)特征,也可以用計算方法加以預測。 COILS:卷曲螺旋預測方法,將序列與已知的平行雙鏈卷曲螺旋數(shù)據(jù)庫進行比較,得到相似性得分,并據(jù)此算出序列形成卷曲螺旋的概率。 TMpred:預測蛋白質(zhì)的跨膜區(qū)段和在膜上的取向,它根據(jù)來自SWISS-PROT的跨膜蛋白數(shù)據(jù)庫Tmbase,利用跨膜結(jié)構(gòu)區(qū)段的數(shù)量、位置以及側(cè)翼信息,通過加權(quán)打分進行預測。 SignalP:預測蛋白質(zhì)序列中信號肽的剪切位點。 COILS的網(wǎng)址是:http://www.ch.embnet.org/software/COILS_form.html。 TMpred的網(wǎng)址是:http://www.ch.embnet.org/software/TMPRED_form.html。 SignalP的網(wǎng)址是:http://www.cbs.dtu.dk/services/SignalP/。 5. 蛋白質(zhì)的三維結(jié)構(gòu) 蛋白質(zhì)三維結(jié)構(gòu)預測時最復雜和最困難的預測技術。研究發(fā)現(xiàn),序列差異較大的蛋白質(zhì)序列也可能折疊成類似的三維構(gòu)象,自然界里的蛋白質(zhì)結(jié)構(gòu)骨架的多樣性遠少于蛋白質(zhì)序列的多樣性。由于蛋白質(zhì)的折疊過程仍然不十分明了,從理論上解決蛋白質(zhì)折疊的問題還有待進一步的科學發(fā)展,但也有了一些有一定作用的三維結(jié)構(gòu)預測方法。最常見的是“同源模建”和“Threading”方法。前者先在蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫中尋找未知結(jié)構(gòu)蛋白的同源伙伴,再利用一定計算方法把同源蛋白的結(jié)構(gòu)優(yōu)化構(gòu)建出預測的結(jié)果。后者將序列“穿”入已知的各種蛋白質(zhì)的折疊子骨架內(nèi),計算出未知結(jié)構(gòu)序列折疊成各種已知折疊子的可能性,由此為預測序列分配最合適的折疊子結(jié)構(gòu)。除了“Threading”方法之外,用PSI-BLAST方法也可以把查詢序列分配到合適的蛋白質(zhì)折疊家族,實際應用中發(fā)現(xiàn)這個方法的效果也不錯。 SWISS-MODEL:自動蛋白質(zhì)同源模建服務器,有兩個工作模式:第一步模式(First Approach mode)和優(yōu)化模式(Optimise mode)。程序先把提交的序列在ExPdb晶體圖像數(shù)據(jù)庫中搜索相似性足夠高的同源序列,建立最初的原子模型,再對這個模型進行優(yōu)化產(chǎn)生預測的結(jié)構(gòu)模型。 CPHmodels:也是利用神經(jīng)網(wǎng)絡進行同源模建預測蛋白質(zhì)結(jié)構(gòu)的方法。 SWISS-MODEL的網(wǎng)址是:http://www.expasy.ch/swissmod/SWISS-MODEL.html。 CPHmodels的網(wǎng)址是:http://www.cbs.dtu.dk/services/CPHmodels/。 |
禁蟲
懶懶的小蟲蟲
禁蟲
懶懶的小蟲蟲
|
概述 當前人類基因組研究已進入一個重要時期,2004年已獲得人類基因組的全部序列,這是基因組研究的轉(zhuǎn)折點和關鍵時刻,意味著人類基因組的研究將全面進入信息提取和數(shù)據(jù)分析階段,即生物信息學發(fā)揮重要作用的階段。到1999年12月15日發(fā)布的第115版為止,GenBank中的DNA堿基數(shù)目已達46億5千萬,DNA序列數(shù)目達到535萬;其中EST序列超過339萬條; UniGene的數(shù)目已達到7萬個;已有25個模式生物的完整基因組被測序完成,另外的70個模式生物基因組正在測序當中;到2005年初為止,人類基因組的序列完成測定;同時功能基因組和蛋白質(zhì)組的大量數(shù)據(jù)已開始涌現(xiàn)。如何分析這些數(shù)據(jù),從中獲得生物結(jié)構(gòu)、功能的相關信息是基因組研究取得成果的決定性步驟。 生物信息學是在此背景下發(fā)展起來的綜合運用生物學、數(shù)學、物理學、信息科學以及計算機科學等諸多學科的理論方法的嶄新交叉學科。生物信息學是內(nèi)涵非常豐富的學科,其核心是基因組信息學,包括基因組信息的獲取、處理、存儲、分配和解釋。基因組信息學的關鍵是“讀懂”基因組的核苷酸順序,即全部基因在染色體上的確切位置以及各DNA片段的功能;同時在發(fā)現(xiàn)了新基因信息之后進行蛋白質(zhì)空間結(jié)構(gòu)模擬和預測,然后依據(jù)特定蛋白質(zhì)的功能進行藥物設計。了解基因表達的調(diào)控機理也是生物信息學的重要內(nèi)容,根據(jù)生物分子在基因調(diào)控中的作用,描述人類疾病的診斷、治療內(nèi)在規(guī)律。它的研究目標是揭示"基因組信息結(jié)構(gòu)的復雜性及遺傳語言的根本規(guī)律",解釋生命的遺傳語言。生物信息學已成為整個生命科學發(fā)展的重要組成部分,成為生命科學研究的前沿。 近來的研究表明,基因組不僅是基因的簡單排列,它有其特有的組織結(jié)構(gòu)和信息結(jié)構(gòu),這種結(jié)構(gòu)是在長期的演化過程中產(chǎn)生的,也是基因發(fā)揮其功能所必須的。弄清楚生物體基因組特有的組織結(jié)構(gòu)和信息結(jié)構(gòu),解譯生命的遺傳語言的關鍵。 目前在數(shù)據(jù)庫中已經(jīng)有越來越多的模式生物全基因組序列,第一個人類染色體全序列--第22號染色體的測序工作已經(jīng)在1999年12月完成,整個人類基因組計劃工作草圖將在最近完成。這無疑給基因組組織結(jié)構(gòu)和信息結(jié)構(gòu)的研究工作提供了大量的第一手材料,同時也為基因組研究取得突破性進展提供了可能。人類對基因的認識,將從以往的對單個基因的了解,上升到在整個基因組水平上考察基因的組織結(jié)構(gòu)和信息結(jié)構(gòu),考察基因之間在位置、結(jié)構(gòu)和功能上的相互關系。 從目前生物信息學的研究情況來看,國際上公認的生物信息學的研究內(nèi)容,大致包括以下幾個方面: 生物信息的收集、存儲、管理與提供。包括建立國際基本生物信息庫和生物信息傳輸?shù)膰H聯(lián)網(wǎng)系統(tǒng);建立生物信息數(shù)據(jù)質(zhì)量的評估與檢測系統(tǒng);生物信息的在線服務;生物信息可視化和專家系統(tǒng)。 基因組序列信息的提取和分析。包括基因的發(fā)現(xiàn)與鑒定,如利用國際EST 數(shù)據(jù)庫 (dbEST) 和各自實驗室測定的相應數(shù)據(jù),經(jīng)過大規(guī)模 并行計算發(fā)現(xiàn)新基因和新SNPs以及各種功能位點;基因組中非編碼區(qū)的信息結(jié)構(gòu)分析,提出理論模型,闡明該區(qū)域的重要生物學功能;進行模式生物完整基因組的信息結(jié)構(gòu)分析和比較研究;利用生物信息研究遺傳密碼起源、基因組結(jié)構(gòu)的演化、基因組空間結(jié)構(gòu)與DNA折疊的關系以及基因組信息與生物進化關系等生物學的重大問題。 功能基因組相關信息分析。包括與大規(guī);虮磉_譜分析相關的算法、軟件研究,基因表達調(diào)控網(wǎng)絡的研究;與基因組信息相關的核酸、蛋白質(zhì)空間結(jié)構(gòu)的預測和模擬,以及蛋白質(zhì)功能預測的研究。 生物大分子結(jié)構(gòu)模擬和藥物設計。包括RNA(核糖核酸)的結(jié)構(gòu)模擬和反義RNA的分子設計;蛋白質(zhì)空間結(jié)構(gòu)模擬和分子設計;具有不同功能域的復合蛋白質(zhì)以及連接肽的設計;生物活性分子的電子結(jié)構(gòu)計算和設計;納米生物材料的模擬與設計;基于酶和功能蛋白質(zhì)結(jié)構(gòu)、細胞表面受體結(jié)構(gòu)的藥物設計;基于DNA結(jié)構(gòu)的藥物設計等。 生物信息分析的技術與方法研究。包括發(fā)展有效的能支持大尺度作圖與測序需要的軟件、數(shù)據(jù)庫以及若干數(shù)據(jù)庫工具,諸如電子網(wǎng)絡等遠程通訊工具;改進現(xiàn)有的理論分析方法,如統(tǒng)計方法、模式識別方法、隱馬爾科夫過程方法、分維方法、神經(jīng)網(wǎng)絡方法、復雜性分析方法、密碼學方法、多序列比較方法等;創(chuàng)建一切適用于基因組信息分析的新方法、新技術。包括引入復雜系統(tǒng)分析技術、信息系統(tǒng)分析技術等;建立嚴格的多序列比較方法;發(fā)展與應用密碼學方法以及其他算法和分析技術,用于解釋基因組的信息,探索DNA序列及其空間結(jié)構(gòu)信息的新表征;發(fā)展研究基因組完整信息結(jié)構(gòu)和信息網(wǎng)絡的研究方法等;發(fā)展生物大分子空間結(jié)構(gòu)模擬、電子結(jié)構(gòu)模擬和藥物設計的新方法與新技術。 應用與發(fā)展研究。匯集與疾病相關的人類基因信息,發(fā)展患者樣品序列信息檢測技術和基于序列信息選擇表達載體、引物的技術,建立與動植物良種繁育相關的數(shù)據(jù)庫以及與大分子設計和藥物設計相關的數(shù)據(jù)庫。 利用生物信息學方法進行結(jié)構(gòu)功能預測要注意的是同一問題采用不同算法,可能產(chǎn)生相同或不同的結(jié)果。因此,必要弄清楚某種方法的基本原理,而不是僅把算法當作一個“黑箱”。因為一種方法可能對特定實例很合適,而對另一個則完全不對。因此,本章采用原理和實用方法并重的原則進行介紹。因生物信息學覆蓋面廣,限于篇幅,本章并未將生物信息學的全部內(nèi)容詳細加以講述,僅針對與目前分子生物學實驗數(shù)據(jù)分析密切相關的生物信息學策略及實用工具進行扼要介紹,文中涉及問題的更詳細信息可參考相關網(wǎng)站。 [ Last edited by BlueGuy on 2005-6-7 at 16:47 ] |
新蟲
懶懶的小蟲蟲
|
2 生物信息數(shù)據(jù)庫與查詢 近年來大量生物學實驗的數(shù)據(jù)積累,形成了當前數(shù)以百計的生物信息數(shù)據(jù)庫。它們各自按一定的目標收集和整理生物學實驗數(shù)據(jù),并提供相關的數(shù)據(jù)查詢、數(shù)據(jù)處理的服務。隨著因特網(wǎng)的普及,這些數(shù)據(jù)庫大多可以通過網(wǎng)絡來訪問,或者通過網(wǎng)絡下載。 一般而言,這些生物信息數(shù)據(jù)庫可以分為一級數(shù)據(jù)庫和二級數(shù)據(jù)庫。一級數(shù)據(jù)庫的數(shù)據(jù)都直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋;二級數(shù)據(jù)庫是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎上針對特定目標衍生而來,是對生物學知識和信息的進一步整理。國際上著名的一級核酸數(shù)據(jù)庫有Genbank數(shù)據(jù)庫、EMBL核酸庫和DDBJ庫等;蛋白質(zhì)序列數(shù)據(jù)庫有SWISS-PROT、PIR等;蛋白質(zhì)結(jié)構(gòu)庫有PDB等。國際上二級生物學數(shù)據(jù)庫非常多,它們因針對不同的研究內(nèi)容和需要而各具特色,如人類基因組圖譜庫GDB、轉(zhuǎn)錄因子和結(jié)合位點庫TRANSFAC、蛋白質(zhì)結(jié)構(gòu)家族分類庫SCOP等等。 下面將順序簡要介紹一些著名和有特色的生物信息數(shù)據(jù)庫。 2.1 基因和基因組數(shù)據(jù)庫 1. Genbank Genbank庫包含了所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關的文獻著作和生物學注釋。它是由美國國立生物技術信息中心(NCBI)建立和維護的。它的數(shù)據(jù)直接來源于測序工作者提交的序列;由測序中心提交的大量EST序列和其它測序數(shù)據(jù);以及與其它數(shù)據(jù)機構(gòu)協(xié)作交換數(shù)據(jù)而來。Genbank每天都會與歐洲分子生物學實驗室(EMBL)的數(shù)據(jù)庫,和日本的DNA數(shù)據(jù)庫(DDBJ)交換數(shù)據(jù),使這三個數(shù)據(jù)庫的數(shù)據(jù)同步。到1999年8月,Genbank中收集的序列數(shù)量達到460萬條,34億個堿基,而且數(shù)據(jù)增長的速度還在不斷加快。Genbank的數(shù)據(jù)可以從NCBI的FTP服務器上免費下載完整的庫,或下載積累的新數(shù)據(jù)。NCBI還提供廣泛的數(shù)據(jù)查詢、序列相似性搜索以及其它分析服務,用戶可以從NCBI的主頁上找到這些服務。 Genbank庫里的數(shù)據(jù)按來源于約55,000個物種,其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列)。每條Genbank數(shù)據(jù)記錄包含了對序列的簡要描述,它的科學命名,物種分類名稱,參考文獻,序列特征表,以及序列本身。序列特征表里包含對序列生物學特征注釋如:編碼區(qū)、轉(zhuǎn)錄單元、重復區(qū)域、突變位點或修飾位點等。所有數(shù)據(jù)記錄被劃分在若干個文件里,如細菌類、病毒類、靈長類、嚙齒類,以及EST數(shù)據(jù)、基因組測序數(shù)據(jù)、大規(guī);蚪M序列數(shù)據(jù)等16類,其中EST數(shù)據(jù)等又被各自分成若干個文件。 (1)Genbank數(shù)據(jù)檢索 NCBI的數(shù)據(jù)庫檢索查詢系統(tǒng)是Entrez。Entrez是基于Web界面的綜合生物信息數(shù)據(jù)庫檢索系統(tǒng)。利用Entrez系統(tǒng),用戶不僅可以方便地檢索Genbank的核酸數(shù)據(jù),還可以檢索來自Genbank和其它數(shù)據(jù)庫的蛋白質(zhì)序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、來自分子模型數(shù)據(jù)庫(MMDB)的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群序列數(shù)據(jù)集、以及由PubMed獲得Medline的文獻數(shù)據(jù)。 Entrez提供了方便實用的檢索服務,所有操作都可以在網(wǎng)絡瀏覽器上完成。用戶可以利用Entrez界面上提供的限制條件(Limits)、索引(Index)、檢索歷史(History)和剪貼板(Clipboard)等功能來實現(xiàn)復雜的檢索查詢工作。對于檢索獲得的記錄,用戶可以選擇需要顯示的數(shù)據(jù),保存查詢結(jié)果,甚至以圖形方式觀看檢索獲得的序列。更詳細的Entrez使用說明可以在該主頁上獲得。 (2)向Genbank提交序列數(shù)據(jù) 測序工作者可以把自己工作中獲得的新序列提交給NCBI,添加到Genbank數(shù)據(jù)庫。這個任務可以由基于Web界面的BankIt或獨立程序Sequin來完成。 BankIt是一系列表單,包括聯(lián)絡信息、發(fā)布要求、引用參考信息、序列來源信息、以及序列本身的信息等。用戶提交序列后,會從電子郵件收到自動生成的數(shù)據(jù)條目,Genbank的新序列編號,以及完成注釋后的完整的數(shù)據(jù)記錄。用戶還可以在BankIt頁面下修改已經(jīng)發(fā)布序列的信息。BankIt適合于獨立測序工作者提交少量序列,而不適合大量序列的提交,也不適合提交很長的序列,EST序列和GSS序列也不應用BankIt提交。BankIt使用說明和對序列的要求可詳見其主頁面。 大量的序列提交可以由Sequin程序完成。Sequin程序能方便的編輯和處理復雜注釋,并包含一系列內(nèi)建的檢查函數(shù)來提高序列的質(zhì)量保證。它還被設計用于提交來自系統(tǒng)進化、種群和突變研究的序列,可以加入比對的數(shù)據(jù)。Sequin除了用于編輯和修改序列數(shù)據(jù)記錄,還可以用于序列的分析,任何以FASTA或ASN.1格式序列為輸入數(shù)據(jù)的序列分析程序都可以整合到Sequin程序下。在不同操作系統(tǒng)下運行的Sequin程序都可以在ftp://ncbi.nlm.nih.gov/sequin/下找到,Sequin的使用說明可詳見其網(wǎng)頁。 NCBI的網(wǎng)址是:http://www.ncbi.nlm.nih.gov。 Entrez的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/entrez/。 BankIt的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/BankIt。 Sequin的相關網(wǎng)址是:http://www.ncbi.nlm.nih.gov/Sequin/。 2. EMBL核酸序列數(shù)據(jù)庫 EMBL核酸序列數(shù)據(jù)庫由歐洲生物信息學研究所(EBI)維護的核酸序列數(shù)據(jù)構(gòu)成,由于與Genbank和DDBJ的數(shù)據(jù)合作交換,它也是一個全面的核酸序列數(shù)據(jù)庫。該數(shù)據(jù)庫由Oracal數(shù)據(jù)庫系統(tǒng)管理維護,查詢檢索可以通過通過因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務完成。向EMBL核酸序列數(shù)據(jù)庫提交序列可以通過基于Web的WEBIN工具,也可以用Sequin軟件來完成。 數(shù)據(jù)庫網(wǎng)址是:http://www.ebi.ac.uk/embl/。 SRS的網(wǎng)址是:http://srs.ebi.ac.uk/。 WEBIN的網(wǎng)址是:http://www.ebi.ac.uk/embl/Submission/webin.html。 3. DDBJ數(shù)據(jù)庫 日本DNA數(shù)據(jù)倉庫(DDBJ)也是一個全面的核酸序列數(shù)據(jù)庫,與Genbank和EMBL核酸庫合作交換數(shù)據(jù)?梢允褂闷渲黜撋咸峁┑腟RS工具進行數(shù)據(jù)檢索和序列分析。可以用Sequin軟件向該數(shù)據(jù)庫提交序列。 DDBJ的網(wǎng)址是:http://www.ddbj.nig.ac.jp/。 4. GDB 基因組數(shù)據(jù)庫(GDB)為人類基因組計劃(HGP)保存和處理基因組圖譜數(shù)據(jù)。GDB的目標是構(gòu)建關于人類基因組的百科全書,除了構(gòu)建基因組圖譜之外,還開發(fā)了描述序列水平的基因組內(nèi)容的方法,包括序列變異和其它對功能和表型的描述。目前GDB中有:人類基因組區(qū)域(包括基因、克隆、amplimers PCR 標記、斷點breakpoints、細胞遺傳標記cytogenetic markers、易碎位點fragile sites、EST序列、綜合區(qū)域syndromic regions、contigs和重復序列);人類基因組圖譜(包括細胞遺傳圖譜、連接圖譜、放射性雜交圖譜、content contig圖譜和綜合圖譜等);人類基因組內(nèi)的變異(包括突變和多態(tài)性,加上等位基因頻率數(shù)據(jù))。GDB數(shù)據(jù)庫以對象模型來保存數(shù)據(jù),提供基于Web的數(shù)據(jù)對象檢索服務,用戶可以搜索各種類型的對象,并以圖形方式觀看基因組圖譜。 GDB的網(wǎng)址是:http://www.gdb.org。 GDB的國內(nèi)鏡像是:http://gdb.pku.edu.cn/gdb/。 2.2 蛋白質(zhì)數(shù)據(jù)庫 1. PIR和PSD PIR國際蛋白質(zhì)序列數(shù)據(jù)庫(PSD)是由蛋白質(zhì)信息資源(PIR)、慕尼黑蛋白質(zhì)序列信息中心(MIPS)和日本國際蛋白質(zhì)序列數(shù)據(jù)庫(JIPID)共同維護的國際上最大的公共蛋白質(zhì)序列數(shù)據(jù)庫。這是一個全面的、經(jīng)過注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫,包含超過142,000條蛋白質(zhì)序列(至99年9月),其中包括來自幾十個完整基因組的蛋白質(zhì)序列。所有序列數(shù)據(jù)都經(jīng)過整理,超過99%的序列已按蛋白質(zhì)家族分類,一半以上還按蛋白質(zhì)超家族進行了分類。PSD的注釋中還包括對許多序列、結(jié)構(gòu)、基因組和文獻數(shù)據(jù)庫的交叉索引,以及數(shù)據(jù)庫內(nèi)部條目之間的索引,這些內(nèi)部索引幫助用戶在包括復合物、酶-底物相互作用、活化和調(diào)控級聯(lián)和具有共同特征的條目之間方便的檢索。每季度都發(fā)行一次完整的數(shù)據(jù)庫,每周可以得到更新部分。 PSD數(shù)據(jù)庫有幾個輔助數(shù)據(jù)庫,如基于超家族的非冗余庫等。PIR提供三類序列搜索服務:基于文本的交互式檢索;標準的序列相似性搜索,包括BLAST、FASTA等;結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級搜索,包括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索GeneFIND等。 PIR和PSD的網(wǎng)址是:http://pir.georgetown.edu/。 數(shù)據(jù)庫下載地址是:ftp://nbrfa.georgetown.edu/pir/。 2. SWISS-PROT SWISS-PROT是經(jīng)過注釋的蛋白質(zhì)序列數(shù)據(jù)庫,由歐洲生物信息學研究所(EBI)維護。數(shù)據(jù)庫由蛋白質(zhì)序列條目構(gòu)成,每個條目包含蛋白質(zhì)序列、引用文獻信息、分類學信息、注釋等,注釋中包括蛋白質(zhì)的功能、轉(zhuǎn)錄后修飾、特殊位點和區(qū)域、二級結(jié)構(gòu)、四級結(jié)構(gòu)、與其它序列的相似性、序列殘缺與疾病的關系、序列變異體和沖突等信息。SWISS-PROT中盡可能減少了冗余序列,并與其它30多個數(shù)據(jù)建立了交叉引用,其中包括核酸序列庫、蛋白質(zhì)序列庫和蛋白質(zhì)結(jié)構(gòu)庫等。 利用序列提取系統(tǒng)(SRS)可以方便地檢索SWISS-PROT和其它EBI的數(shù)據(jù)庫。 SWISS-PROT只接受直接測序獲得的蛋白質(zhì)序列,序列提交可以在其Web頁面上完成。 SWISS-PROT的網(wǎng)址是:http://www.ebi.ac.uk/swissprot/。 3. PROSITE PROSITE數(shù)據(jù)庫收集了生物學有顯著意義的蛋白質(zhì)位點和序列模式,并能根據(jù)這些位點和模式快速和可靠地鑒別一個未知功能的蛋白質(zhì)序列應該屬于哪一個蛋白質(zhì)家族。有的情況下,某個蛋白質(zhì)與已知功能蛋白質(zhì)的整體序列相似性很低,但由于功能的需要保留了與功能密切相關的序列模式,這樣就可能通過PROSITE的搜索找到隱含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點、配體結(jié)合位點、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等;除了序列模式之外,PROSITE還包括由多序列比對構(gòu)建的profile,能更敏感地發(fā)現(xiàn)序列與profile的相似性。PROSITE的主頁上提供各種相關檢索服務。 PROSITE的網(wǎng)址是:http://www.expasy.ch/prosite/。 4. PDB 蛋白質(zhì)數(shù)據(jù)倉庫(PDB)是國際上唯一的生物大分子結(jié)構(gòu)數(shù)據(jù)檔案庫,由美國Brookhaven國家實驗室建立。PDB收集的數(shù)據(jù)來源于X光晶體衍射和核磁共振(NMR)的數(shù)據(jù),經(jīng)過整理和確認后存檔而成。目前PDB數(shù)據(jù)庫的維護由結(jié)構(gòu)生物信息學研究合作組織(RCSB)負責。RCSB的主服務器和世界各地的鏡像服務器提供數(shù)據(jù)庫的檢索和下載服務,以及關于PDB數(shù)據(jù)文件格式和其它文檔的說明,PDB數(shù)據(jù)還可以從發(fā)行的光盤獲得。使用Rasmol等軟件可以在計算機上按PDB文件顯示生物大分子的三維結(jié)構(gòu)。 RCSB的PDB數(shù)據(jù)庫網(wǎng)址是:http://www.rcsb.org/pdb/。 5. SCOP 蛋白質(zhì)結(jié)構(gòu)分類(SCOP)數(shù)據(jù)庫詳細描述了已知的蛋白質(zhì)結(jié)構(gòu)之間的關系。分類基于若干層次:家族,描述相近的進化關系;超家族,描述遠源的進化關系;折疊子(fold),描述空間幾何結(jié)構(gòu)的關系;折疊類,所有折疊子被歸于全α、全β、α/β、α+β和多結(jié)構(gòu)域等幾個大類。SCOP還提供一個非冗余的ASTRAIL序列庫,這個庫通常被用來評估各種序列比對算法。此外,SCOP還提供一個PDB-ISL中介序列庫,通過與這個庫中序列的兩兩比對,可以找到與未知結(jié)構(gòu)序列遠緣的已知結(jié)構(gòu)序列。 SCOP的網(wǎng)址是:http://scop.mrc-lmb.cam.ac.uk/scop/。 6. COG 蛋白質(zhì)直系同源簇(COGs)數(shù)據(jù)庫是對細菌、藻類和真核生物的21個完整基因組的編碼蛋白,根據(jù)系統(tǒng)進化關系分類構(gòu)建而成。COG庫對于預測單個蛋白質(zhì)的功能和整個新基因組中蛋白質(zhì)的功能都很有用。利用COGNITOR程序,可以把某個蛋白質(zhì)與所有COGs中的蛋白質(zhì)進行比對,并把它歸入適當?shù)腃OG簇。COG庫提供了對COG分類數(shù)據(jù)的檢索和查詢,基于Web的COGNITOR服務,系統(tǒng)進化模式的查詢服務等。 COG庫的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/COG。 下載COG庫和COGNITOR程序在:ftp://ncbi.nlm.nih.gov/pub/COG。 2.3 功能數(shù)據(jù)庫 1. KEGG 京都基因和基因組百科全書(KEGG)是系統(tǒng)分析基因功能,聯(lián)系基因組信息和功能信息的知識庫。基因組信息存儲在GENES數(shù)據(jù)庫里,包括完整和部分測序的基因組序列;更高級的功能信息存儲在PATHWAY數(shù)據(jù)庫里,包括圖解的細胞生化過程如代謝、膜轉(zhuǎn)運、信號傳遞、細胞周期,還包括同系保守的子通路等信息;KEGG的另一個數(shù)據(jù)庫是LIGAND,包含關于化學物質(zhì)、酶分子、酶反應等信息。KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達圖譜,以及其它序列比較、圖形比較和通路計算的工具,可以免費獲取。 KEGG的網(wǎng)址是:。 2. DIP 相互作用的蛋白質(zhì)數(shù)據(jù)庫(DIP)收集了由實驗驗證的蛋白質(zhì)-蛋白質(zhì)相互作用。數(shù)據(jù)庫包括蛋白質(zhì)的信息、相互作用的信息和檢測相互作用的實驗技術三個部分。用戶可以根據(jù)蛋白質(zhì)、生物物種、蛋白質(zhì)超家族、關鍵詞、實驗技術或引用文獻來查詢DIP數(shù)據(jù)庫。 DIP的網(wǎng)址是:http://dip.doe-mbi.ucla.edu/。 3. ASDB 可變剪接數(shù)據(jù)庫(ASDB)包括蛋白質(zhì)庫和核酸庫兩部分。ASDB(蛋白質(zhì))部分來源于SWISS-PROT蛋白質(zhì)序列庫,通過選取有可變剪接注釋的序列,搜索相關可變剪接的序列,經(jīng)過序列比對、篩選和分類構(gòu)建而成。ASDB(核酸)部分來自Genbank中提及和注釋的可變剪接的完整基因構(gòu)成。數(shù)據(jù)庫提供了方便的搜索服務。 ASDB的網(wǎng)址是:http://cbcg.nersc.gov/asdb。 4. TRRD 轉(zhuǎn)錄調(diào)控區(qū)數(shù)據(jù)庫(TRRD)是在不斷積累的真核生物基因調(diào)控區(qū)結(jié)構(gòu)-功能特性信息基礎上構(gòu)建的。每一個TRRD的條目里包含特定基因各種結(jié)構(gòu)-功能特性:轉(zhuǎn)錄因子結(jié)合位點、啟動子、增強子、靜默子、以及基因表達調(diào)控模式等。TRRD包括五個相關的數(shù)據(jù)表:TRRDGENES(包含所有TRRD庫基因的基本信息和調(diào)控單元信息);TRRDSITES(包括調(diào)控因子結(jié)合位點的具體信息);TRRDFACTORS(包括TRRD中與各個位點結(jié)合的調(diào)控因子的具體信息);TRRDEXP(包括對基因表達模式的具體描述);TRRDBIB(包括所有注釋涉及的參考文獻)。TRRD主頁提供了對這幾個數(shù)據(jù)表的檢索服務。 TRRD的網(wǎng)址是:http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/。 5. TRANSFAC TRANSFAC數(shù)據(jù)庫是關于轉(zhuǎn)錄因子、它們在基因組上的結(jié)合位點和與DNA結(jié)合的profiles的數(shù)據(jù)庫。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等數(shù)據(jù)表構(gòu)成。此外,還有幾個與TRANSFAC密切相關的擴展庫:PATHODB庫收集了可能導致病態(tài)的突變的轉(zhuǎn)錄因子和結(jié)合位點;S/MART DB收集了與染色體結(jié)構(gòu)變化相關的蛋白因子和位點的信息;TRANSPATH庫用于描述與轉(zhuǎn)錄因子調(diào)控相關的信號傳遞的網(wǎng)絡;CYTOMER庫表現(xiàn)了人類轉(zhuǎn)錄因子在各個器官、細胞類型、生理系統(tǒng)和發(fā)育時期的表達狀況。TRANSFAC及其相關數(shù)據(jù)庫可以免費下載,也可以通過Web進行檢索和查詢。 TRANSFAC的網(wǎng)址是:http://transfac.gbf.de/TRANSFAC/。 2.4 其它數(shù)據(jù)庫資源 1. DBCat DBCat是生物信息數(shù)據(jù)庫的目錄數(shù)據(jù)庫,它收集了500多個生物信息學數(shù)據(jù)庫的信息,并根據(jù)它們的應用領域進行了分類。包括DNA、RNA、蛋白質(zhì)、基因組、圖譜、蛋白質(zhì)結(jié)構(gòu)、文獻著作等基本類型。數(shù)據(jù)庫可以免費下載或在網(wǎng)絡上檢索查詢。 DBCat的網(wǎng)址是:http://www.infobiogen.fr/services/dbcat/。 下載DBCat在:ftp://ftp.infobiogen.fr/pub/db/dbcat。 2. PubMed PubMed是NCBI維護的文獻引用數(shù)據(jù)庫,提供對MEDLINE、Pre-MEDLINE等文獻數(shù)據(jù)庫的引用查詢和對大量網(wǎng)絡科學類電子期刊的鏈接。利用Entrez系統(tǒng)可以對PubMed進行方便的查詢檢索。 PubMed的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/。 除了以上提及的數(shù)據(jù)之外,還有許許多多的專門生物信息數(shù)據(jù)庫,涉及了目前生物學研究的各個層面和領域,由于篇幅所限無法一一詳述。國內(nèi)也有一些大數(shù)據(jù)庫的鏡像站點和自己開發(fā)的有特色的數(shù)據(jù)庫,如歐洲分子生物學網(wǎng)絡組織EMBNet中國節(jié)點北京大學分子生物信息鏡像系統(tǒng),上海博容基因公司與上海嘉瑞軟件公司合作開發(fā)的國產(chǎn)漢化基因數(shù)據(jù)庫及分析管理系統(tǒng),同時國家級的生物信息學中心也在籌建之中。我們期待國內(nèi)能有更多高質(zhì)量和使用便利的數(shù)據(jù)庫資源,推動我國生物信息學和整個生命科學的發(fā)展。 清華大學生物信息學研究所網(wǎng)址:http://bioinfo.tsinghua.edu.cn 北京大學生物信息鏡像系統(tǒng)網(wǎng)址:http://cbi.pku.edu.cn |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 0710生物學考研調(diào)劑 +3 | 李多米lee. 2026-03-27 | 4/200 |
|
|---|---|---|---|---|
|
[考研] 08工科275求調(diào)劑,可跨考。 +5 | AaAa7420 2026-03-31 | 5/250 |
|
|
[考研] 290求調(diào)劑 +4 | dfffsar 2026-03-29 | 4/200 |
|
|
[考研] 296求調(diào)劑 +3 | 汪!?! 2026-03-31 | 6/300 |
|
|
[考研] 310分求調(diào)劑 +3 | 成功上岸wang 2026-04-01 | 3/150 |
|
|
[考研] 352分-085602-一志愿985 +6 | 海納百川Ly 2026-03-29 | 6/300 |
|
|
[考研] 346求調(diào)劑 一志愿070303有機化學 +11 | 蘿卜燉青菜 2026-03-28 | 12/600 |
|
|
[考研] 一志愿大連理工大學,機械工程學碩,341 +3 | 西瓜田的守望者 2026-03-30 | 3/150 |
|
|
[考研] 276求調(diào)劑 +3 | 趙久華 2026-03-29 | 3/150 |
|
|
[考研] 279求調(diào)劑 +12 | j的立方 2026-03-29 | 12/600 |
|
|
[有機交流] 考研調(diào)劑 +8 | watb 2026-03-26 | 8/400 |
|
|
[考研] 0703 化學 求調(diào)劑,一志愿山東大學 342 分 +7 | Shern—- 2026-03-28 | 7/350 |
|
|
[考研] 085404求調(diào)劑,總分309,本科經(jīng)歷較為豐富 +6 | 來財aa 2026-03-25 | 6/300 |
|
|
[考研] 298求調(diào)劑 +3 | 種圣賜 2026-03-29 | 3/150 |
|
|
[碩博家園] 招收生物學/細胞生物學調(diào)劑 +4 | IceGuo 2026-03-26 | 5/250 |
|
|
[考研] 283求調(diào)劑 +3 | A child 2026-03-28 | 3/150 |
|
|
[考研] 312,生物學求調(diào)劑 +3 | 小譯同學abc 2026-03-28 | 3/150 |
|
|
[考研] 復試調(diào)劑 +3 | raojunqi0129 2026-03-28 | 3/150 |
|
|
[考研] 材料求調(diào)劑一志愿哈工大324 +7 | 閆旭東 2026-03-28 | 9/450 |
|
|
[考研] 315分求調(diào)劑 +7 | 26考研上岸版26 2026-03-26 | 7/350 |
|