| 5 | 1/1 | 返回列表 |
| 查看: 13230 | 回復(fù): 87 | ||||||||
| 當(dāng)前只顯示滿足指定條件的回帖,點(diǎn)擊這里查看本話題的所有回帖 | ||||||||
BlueGuy榮譽(yù)版主 (正式寫手)
懶懶的小蟲蟲
|
[交流]
生物信息學(xué)專題-生物版,醫(yī)學(xué)版和信息科學(xué)版共同創(chuàng)建 已有2人參與
|
|||||||
|
為進(jìn)一步建好小木蟲的專業(yè)學(xué)科版,現(xiàn)由生物版、醫(yī)學(xué)版和信息科學(xué)版共同創(chuàng)建生物信息學(xué)專題,歡迎大家積極參與! [ Last edited by fishery on 2005-6-16 at 21:05 ] |
生物信息學(xué) | 高通量測(cè)序 | 生物信息-分析與挖掘 | ENVIRON TECHNOL |
劉安安 |
榮譽(yù)版主 (正式寫手)
懶懶的小蟲蟲
|
7 功能基因組相關(guān)信息分析 功能基因組學(xué)是后基因組研究的核心內(nèi)容,它強(qiáng)調(diào)發(fā)展和應(yīng)用整體的(基因組水平或系統(tǒng)水平)實(shí)驗(yàn)方法分析基因組序列信息闡明基因功能,特點(diǎn)是采用高通量的實(shí)驗(yàn)方法結(jié)合的大規(guī)模數(shù)據(jù)統(tǒng)計(jì)計(jì)算方法進(jìn)行研究,基本策略是從研究單一基因或蛋白上升到從系統(tǒng)角度一次研究所有基因或蛋白。隨著功能基因組實(shí)驗(yàn)研究的深入,大量的數(shù)據(jù)不斷涌現(xiàn),生物信息學(xué)將在功能基因組學(xué)研究中的扮演關(guān)鍵角色。 7.1 大規(guī);虮磉_(dá)譜分析 隨著人類基因組測(cè)序逐漸接近完成,科學(xué)家發(fā)現(xiàn)即使獲得了完整基因圖譜,對(duì)了解生命活動(dòng)還有很大距離。我們從基因圖譜不知道基因表達(dá)的產(chǎn)物是否出現(xiàn)與何時(shí)出現(xiàn);基因表達(dá)產(chǎn)物的濃度是多少;是否存在翻譯后的修飾過程,若存在是如何修飾的,等一系列問題。這些問題的實(shí)質(zhì)是不了解按照特定的時(shí)間、空間進(jìn)行的基因表達(dá)譜。獲得基因表達(dá)的信息是比DNA序列測(cè)定艱巨得多的任務(wù),因?yàn)榛虮磉_(dá)是依賴于許多因素的動(dòng)態(tài)過程。 國(guó)際上在核酸和蛋白質(zhì)兩個(gè)層次上發(fā)展了分析基因表達(dá)譜的新技術(shù),即核酸層次上的 cDNA 芯片(cDNA微陣列)技術(shù)和蛋白質(zhì)層次上的二維凝膠電泳和測(cè)序質(zhì)譜技術(shù),即蛋白質(zhì)組(proteome)技術(shù)。DNA芯片技術(shù)能夠在基因組水平分析基因表達(dá),檢測(cè)許多基因的轉(zhuǎn)錄水平。 對(duì)大規(guī)模基因表達(dá)譜的分析存在新的方法學(xué)問題,它們從數(shù)學(xué)角度看不是簡(jiǎn)單的NP問題、動(dòng)力系統(tǒng)問題或不確定性問題,而是基因表達(dá)網(wǎng)絡(luò),因此需要發(fā)展新的方法和工具。同時(shí),在芯片等的設(shè)計(jì)上,也需要從理論到軟件的支持 下面主要圍繞cDNA芯片相關(guān)的數(shù)據(jù)管理和分析問題進(jìn)行討論。 1.實(shí)驗(yàn)室信息管理系統(tǒng) cDNA芯片實(shí)驗(yàn)的目的是要在一次實(shí)驗(yàn)中同時(shí)得到成千上萬個(gè)基因的表達(dá)行為,這樣的實(shí)驗(yàn)需要有管理實(shí)驗(yàn)前后大量數(shù)據(jù)的能力。設(shè)計(jì)構(gòu)建檢測(cè)基因表達(dá)的微陣列需要獲得生物體基因的所有序列、注釋和克隆。在雜交反應(yīng)和掃描后,收集到的數(shù)據(jù)必須以某種方式保存,以便很容易進(jìn)行圖象處理和統(tǒng)計(jì)及生物學(xué)分析。因此需要建立與大規(guī)模高通量實(shí)驗(yàn)方法相匹配的實(shí)驗(yàn)材料和信息管理系統(tǒng)。 該系統(tǒng)除用來定位和跟蹤材料來源(例如,克隆,微陣列,探針)外,還必須管理實(shí)驗(yàn)前后大量的數(shù)據(jù)。此外,還包括實(shí)驗(yàn)室設(shè)備軟件系統(tǒng),如斯坦福大學(xué)Brown實(shí)驗(yàn)室免費(fèi)的控制自制機(jī)器點(diǎn)樣設(shè)備軟件(http://cmgm.standford.edu/pbrown) 芯片圖象處理已有各種軟件工具,基本的功能是將不同信號(hào)強(qiáng)度點(diǎn)的圖像轉(zhuǎn)換為每個(gè)點(diǎn)的強(qiáng)度數(shù)值。這方面沒有一致的方法,許多研究小組仍在開發(fā)這類軟件。圖象分析軟件的質(zhì)量對(duì)精確解釋玻片和膜上的信號(hào)非常關(guān)鍵。NHGRI的Yidong Chen開發(fā)了一種復(fù)雜的圖象分析程序,deArray,可免費(fèi)獲取。 美國(guó)國(guó)立衛(wèi)生研究院人類基因組研究所(NHGRI)開發(fā)的免費(fèi)的cDNA芯片數(shù)據(jù)管理分析系統(tǒng)ArrayDB,涉及微陣列的設(shè)計(jì)、實(shí)驗(yàn)室信息管理、實(shí)驗(yàn)結(jié)果的處理和解釋。下面加以簡(jiǎn)單介紹。 ArrayDB ArrayDB是用來儲(chǔ)存、查詢和分析cDNA芯片實(shí)驗(yàn)信息的實(shí)驗(yàn)室管理系統(tǒng)。ArrayDB整合了cDNA芯片實(shí)驗(yàn)中的多個(gè)方面,包括數(shù)據(jù)管理、用戶介面、機(jī)器自動(dòng)點(diǎn)樣、掃描和圖象處理。ArrayDB中保存的數(shù)據(jù)包括實(shí)驗(yàn)來源、實(shí)驗(yàn)參數(shù)和條件以及原始的和經(jīng)處理的雜交結(jié)果。ArrayDB依托的關(guān)系數(shù)據(jù)庫儲(chǔ)存了芯片上每個(gè)克隆的相關(guān)信息,包括基因的簡(jiǎn)單描述、GenBank號(hào)、IMAGE克隆識(shí)別號(hào)、代謝途徑號(hào)和實(shí)驗(yàn)室內(nèi)部克隆號(hào)。ArrayDB還儲(chǔ)存了與cDNA芯片制造和實(shí)驗(yàn)條件的信息。包括點(diǎn)樣相關(guān)數(shù)據(jù)(點(diǎn)樣機(jī)器的參數(shù))、環(huán)境條件(溫度、濕度、點(diǎn)樣針沖洗條件)等數(shù)據(jù)。此外,還保存了雜交探針和實(shí)驗(yàn)條件,包括研究者的姓名,研究目的和實(shí)驗(yàn)條件、組織細(xì)胞類型的文本描述。有關(guān)雜交的結(jié)果的信息包括掃描圖象(“原始”結(jié)果)、信號(hào)強(qiáng)度數(shù)據(jù)、信號(hào)強(qiáng)度比值和本底值。 ArrayDB的設(shè)計(jì)允許靈活地提取數(shù)據(jù)信息。設(shè)計(jì)策略允許不同來源的數(shù)據(jù)輸入,大多數(shù)克隆信息來自Unigene數(shù)據(jù)庫(包括序列的命名和獲取號(hào))。也允許新分離的還沒有獲取號(hào)及名稱的克隆的輸入。許多數(shù)據(jù)輸入和處理過程是自動(dòng)的。軟件會(huì)自動(dòng)掃描目錄查找新輸入數(shù)據(jù)庫中的信號(hào)強(qiáng)度數(shù)據(jù)無須人工輔助,其它自動(dòng)處理包括很方便地整合信號(hào)強(qiáng)度數(shù)據(jù)和克隆數(shù)據(jù)。 ArrayDB的Web界面能很方便地進(jìn)行不同類型信息的查詢,從克隆信息到信號(hào)強(qiáng)度值到分析結(jié)果。ArrayDB支持各種字段的數(shù)據(jù)查詢,例如克隆ID、標(biāo)題、實(shí)驗(yàn)編號(hào)、序列獲取號(hào)、微量滴定板編號(hào)以及相關(guān)克隆的結(jié)果。每個(gè)克隆的更多信息通過超文本鏈接至其他數(shù)據(jù)庫如dbEST、GenBank或Unigene,代謝途徑信息也可通過鏈接至KEGG得到。 通過序列相似性搜索可以有效地尋找目的基因。ArrayDB支持對(duì)10K/15K數(shù)據(jù)(軟件自帶數(shù)據(jù))進(jìn)行BLASTN搜索以便確定目的基因是否已包含在芯片中。 ArrayDB能分析單個(gè)和多個(gè)實(shí)驗(yàn)產(chǎn)生的信號(hào)強(qiáng)度比值的類型和關(guān)系。ArrayViewer工具支持查詢和分析單個(gè)實(shí)驗(yàn);MultiExperiment viewer工具支持多個(gè)實(shí)驗(yàn)數(shù)據(jù)。在下述網(wǎng)站可得到更詳細(xì)信息和相關(guān)軟件。 DeArray和ArrayDB網(wǎng)址: http://www.nhgri.nih.gov/DIR/LCG/15K/HTML 2.基因表達(dá)公共數(shù)據(jù)庫 數(shù)據(jù)庫用途 (1)基礎(chǔ)研究 將來自各種生物的表達(dá)數(shù)據(jù)與其它各種分子生物學(xué)數(shù)據(jù)資源,如經(jīng)注釋的基因組序列、啟動(dòng)子、代謝途徑數(shù)據(jù)庫等結(jié)合,有助于理解基因調(diào)控網(wǎng)絡(luò)、代謝途徑、細(xì)胞分化和組織發(fā)育。例如,比較未知基因與已知基因表達(dá)譜的相似性能幫助推測(cè)未知基因的功能。 (2)醫(yī)學(xué)及藥學(xué)研究 例如,如果特定的一些基因的高表達(dá)與某種腫瘤密切相關(guān),可以研究這些或其它有相似表達(dá)譜的基因的表達(dá)的影響條件,或研究能降低表達(dá)水平的化合物(潛在藥物)。 (3)診斷研究 通過對(duì)數(shù)據(jù)庫數(shù)據(jù)進(jìn)行基因表達(dá)譜的相似性比較對(duì)疾病早期診斷具有臨床價(jià)值。 (4)毒理學(xué)研究 例如,了解大鼠某種基因?qū)μ囟ǘ緞┑姆磻?yīng)可幫助預(yù)測(cè)人的同源性基因的反應(yīng)情況。 (5)實(shí)驗(yàn)質(zhì)量控制和研究參考 實(shí)驗(yàn)室樣本與數(shù)據(jù)庫中標(biāo)準(zhǔn)對(duì)照樣本比較能找出方法和設(shè)備問題。此外,還能提供其他研究者的研究現(xiàn)狀,避免重復(fù)實(shí)驗(yàn),節(jié)約經(jīng)費(fèi)。 數(shù)據(jù)庫的特點(diǎn)和難點(diǎn) 目前急需建立標(biāo)準(zhǔn)注釋的公共數(shù)據(jù)庫,但這是生物信息學(xué)迄今面臨的最復(fù)雜且富有挑戰(zhàn)性的工作之一。主要困難來自對(duì)實(shí)驗(yàn)條件細(xì)節(jié)的描述,不精確的表達(dá)水平相對(duì)定量方法以及不斷增長(zhǎng)的龐大數(shù)據(jù)量。 目前所有的基因表達(dá)水平定量都是相對(duì)的:哪些基因差異表達(dá)僅僅是與另外一個(gè)實(shí)驗(yàn)比較而言,或者與相同實(shí)驗(yàn)的另一個(gè)基因的相比而言。這種方法不能確定mRNA的拷貝數(shù),轉(zhuǎn)錄水平是總的細(xì)胞群的平均水平。結(jié)果導(dǎo)致采用不同技術(shù)進(jìn)行基因表達(dá)的檢測(cè),甚至不同實(shí)驗(yàn)室采用相同技術(shù),都有可能不能進(jìn)行比較。對(duì)不同來源數(shù)據(jù)的進(jìn)行比較有必要采取兩個(gè)步驟:首先,原始數(shù)據(jù)應(yīng)避免任何改動(dòng),比如采取數(shù)據(jù)標(biāo)準(zhǔn)化(data-normalization)的方法。其次,在實(shí)驗(yàn)中設(shè)計(jì)使用標(biāo)準(zhǔn)化的對(duì)照探針和樣本以便給出參考點(diǎn)至少使來自同一實(shí)驗(yàn)平臺(tái)的數(shù)據(jù)標(biāo)準(zhǔn)化。 另一難點(diǎn)是對(duì)實(shí)驗(yàn)條件的描述,解決方法是對(duì)實(shí)驗(yàn)方法用采用規(guī)范化詞匯的文件描述:如基因名稱,物種,發(fā)育階段,組織或細(xì)胞系。還要考慮偶然的不受控制實(shí)驗(yàn)因素也可能影響表達(dá):例如空氣濕度,甚至實(shí)驗(yàn)室的噪音水平。目前建立一種結(jié)構(gòu)能對(duì)將來實(shí)驗(yàn)設(shè)計(jì)的所有細(xì)節(jié)進(jìn)行描述顯然是不可能的。比較現(xiàn)實(shí)的解決辦法是大部分采用自由文本描述實(shí)驗(yàn),同時(shí)盡可能加上有實(shí)用價(jià)值的結(jié)構(gòu)。DNA芯片實(shí)驗(yàn)的標(biāo)準(zhǔn)注釋必須采用一致的術(shù)語,這有待時(shí)間去發(fā)展。但目前,就應(yīng)采用盡可能合理的標(biāo)準(zhǔn)用于DNA芯片數(shù)據(jù)及其注釋。 標(biāo)準(zhǔn)化的基因表達(dá)公共數(shù)據(jù)庫要有五類必要的信息: (1)聯(lián)系信息:提交數(shù)據(jù)的實(shí)驗(yàn)室或研究人員的信息。 (2)雜交靶探針信息:對(duì)陣列上的每個(gè)“點(diǎn)”,應(yīng)有相應(yīng)的DNA序列在公共數(shù)據(jù)庫中的編號(hào)。對(duì)cDNA陣列,克隆識(shí)別號(hào)(如IMAGE clone_id)應(yīng)給出。 (3)雜交樣本:細(xì)胞類型和組織來源用標(biāo)準(zhǔn)語言描述。常規(guī)診斷病理中使用的組織和組織病理詞匯可被采用,還可采用胚胎發(fā)育和器官發(fā)生中的標(biāo)準(zhǔn)詞匯。樣本來源種屬的分類學(xué)名稱(如Saccharomyces cerevisiae,Homo sapiens),應(yīng)當(dāng)提供。對(duì)有些生物體如嚙齒類動(dòng)物和微生物,品系資料需要提供。關(guān)于實(shí)驗(yàn)中生物體狀況的資料,如用藥或未用藥非常關(guān)鍵,也需提供!澳[瘤與正!被虿煌l(fā)育階段也該注明。細(xì)胞或生物體的遺傳背景或基因型在特定例子中也應(yīng)是重要的,如酵母基因缺失和轉(zhuǎn)基因鼠。最后,由于組織處理的會(huì)引起差別,故應(yīng)包括相關(guān)的詳細(xì)處理方法。 (4)mRNA轉(zhuǎn)錄定量:這方面非常關(guān)鍵,很難通過一組“持家基因”做內(nèi)參照進(jìn)行標(biāo)準(zhǔn)化,有關(guān)的具體定量方法應(yīng)提供。 (5)統(tǒng)計(jì)學(xué)意義:理想地,應(yīng)經(jīng)濟(jì)合理地有足夠的次數(shù)重復(fù)一個(gè)實(shí)驗(yàn)以便給出基因表達(dá)測(cè)定的變異情況,最好能提供合理的可信度值。 上述表達(dá)數(shù)據(jù)記錄的前兩個(gè)要求是簡(jiǎn)單的,第三個(gè)要求較困難需有標(biāo)準(zhǔn)術(shù)語協(xié)議,但這并不只是表達(dá)數(shù)據(jù)的要求,類似的要求已在公共序列數(shù)據(jù)庫或?qū)I(yè)化的數(shù)據(jù)庫中得到成功解決。目前基因表達(dá)數(shù)據(jù)最富有挑戰(zhàn)性的方面是最后兩個(gè)方面。 現(xiàn)狀和計(jì)劃 幾個(gè)大的芯片實(shí)驗(yàn)室如斯坦福大學(xué)和麻省理工學(xué)院Whitehead研究所等,在發(fā)展實(shí)驗(yàn)室內(nèi)部數(shù)據(jù)庫;大的商業(yè)化芯片公司如Affymetrix, Incyte,GeneLogic,正在開發(fā)基于Affymetrix芯片技術(shù)平臺(tái)的商業(yè)化基因表達(dá)數(shù)據(jù)庫。哈佛大學(xué)已經(jīng)建立了一個(gè)的數(shù)據(jù)庫,數(shù)據(jù)來自幾個(gè)公共來源并統(tǒng)一格式。賓夕法尼亞大學(xué)計(jì)算生物學(xué)和信息學(xué)實(shí)驗(yàn)室正在整合描述樣本的術(shù)語。 目前至少有3個(gè)大的公共基因表達(dá)數(shù)據(jù)庫項(xiàng)目:美國(guó)基因組資源國(guó)家中心的GeneX;美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)的Gene Expression Omnibus;歐洲生物信息學(xué)研究所(EBI)的ArrayExpress. 歐美專家合作提出有關(guān)數(shù)據(jù)庫的初步標(biāo)準(zhǔn):實(shí)驗(yàn)描述和數(shù)據(jù)表示的標(biāo)準(zhǔn);芯片數(shù)據(jù)XML 交換格式;樣本描述的術(shù)語;標(biāo)準(zhǔn)化、質(zhì)量控制和跨平臺(tái)比較;數(shù)據(jù)查詢語言和數(shù)據(jù)挖掘途徑。(http://www.ebi.ac.uk/microarray/)。EBI與德國(guó)癌癥研究中心正在開發(fā)ArrayExpress , 一種與目前推薦標(biāo)準(zhǔn)兼容的基因表達(dá)數(shù)據(jù)庫。該數(shù)據(jù)庫將利用來自合作方的的數(shù)據(jù),可操作的數(shù)據(jù)庫將于近期建立(http://www.ebi.ac.uk/arrayexpress)。 3.大規(guī)模基因表達(dá)譜數(shù)據(jù)分析方法 芯片分析能夠檢測(cè)不同條件下的基因轉(zhuǎn)錄變化,能夠顯示反映特征組織類型、發(fā)育階段、環(huán)境條件應(yīng)答、遺傳改變的基因譜。當(dāng)芯片數(shù)據(jù)大量出現(xiàn),產(chǎn)生了新的問題:如果將所有獲得的數(shù)據(jù)集中起來,我們能否將未知功能的新基因歸類到已知功能分類中?能否將基因表達(dá)與基因功能聯(lián)系起來?能否發(fā)現(xiàn)新類型的共調(diào)控基因?能否從芯片表達(dá)數(shù)據(jù)中得出完整的基因調(diào)控網(wǎng)絡(luò)?這些唯有通過計(jì)算的方法;蛑茍D及測(cè)序所面臨的問題與大規(guī)模基因表達(dá)分析的數(shù)學(xué)問題相比要小的多。這種新類型的表達(dá)數(shù)據(jù)使我們直接面對(duì)生物系統(tǒng)和基因組水平功能的復(fù)雜性,從生物系統(tǒng)單個(gè)成分的定性發(fā)展到完整生物系統(tǒng)行為的描述上來,這方面困難很多,目前只有很少的分析工具。 聚類分析(clustering analysis)是大規(guī);虮磉_(dá)譜目前最廣泛使用的統(tǒng)計(jì)技術(shù),最近又發(fā)展了一種機(jī)器學(xué)習(xí)方法-支持向量機(jī)(support vector machines,SVMs)。這些分析方法均處在研究的初級(jí)階段,隨著大量數(shù)據(jù)及標(biāo)準(zhǔn)化數(shù)據(jù)庫的出現(xiàn),其它數(shù)據(jù)挖掘技術(shù)包括神經(jīng)網(wǎng)絡(luò)和遺傳算法將在基因表達(dá)數(shù)據(jù)分析中得到應(yīng)用。 聚類分析 聚類通過把目標(biāo)數(shù)據(jù)放入少數(shù)相對(duì)同源的組或“類”(cluster)里。分析表達(dá)數(shù)據(jù),(1)通過一系列的檢測(cè)將待測(cè)的一組基因的變異標(biāo)準(zhǔn)化,然后成對(duì)比較線性協(xié)方差。(2)通過把用最緊密關(guān)聯(lián)的譜來放基因進(jìn)行樣本聚類,例如用簡(jiǎn)單的層級(jí)聚類(hierarchical clustering)方法。這種聚類亦可擴(kuò)展到每個(gè)實(shí)驗(yàn)樣本,利用一組基因總的線性相關(guān)進(jìn)行聚類。(3)多維等級(jí)分析(multidimensional scaling analysis,MDS)是一種在二維Euclidean “距離”中顯示實(shí)驗(yàn)樣本相關(guān)的大約程度。(4)K-means方法聚類,通過重復(fù)再分配類成員來使“類”內(nèi)分散度最小化的方法。 聚類方法有兩個(gè)顯著的局限:首先,要聚類結(jié)果要明確就需分離度很好(well-separated)的數(shù)據(jù)。幾乎所有現(xiàn)存的算法都是從互相區(qū)別的不重疊的類數(shù)據(jù)中產(chǎn)生同樣的聚類。但是,如果類是擴(kuò)散且互相滲透,那么每種算法的的結(jié)果將有點(diǎn)不同。結(jié)果,每種算法界定的邊界不清,每種聚類算法得到各自的最適結(jié)果,每個(gè)數(shù)據(jù)部分將產(chǎn)生單一的信息。為解釋因不同算法使同樣數(shù)據(jù)產(chǎn)生不同結(jié)果,必須注意判斷不同的方式。對(duì)遺傳學(xué)家來說,正確解釋來自任一算法的聚類內(nèi)容的實(shí)際結(jié)果是困難的(特別是邊界)。最終,將需要經(jīng)驗(yàn)可信度通過序列比較來指導(dǎo)聚類解釋。 第二個(gè)局限由線性相關(guān)產(chǎn)生。上述的所有聚類方法分析的僅是簡(jiǎn)單的一對(duì)一的關(guān)系。因?yàn)橹皇浅蓪?duì)的線性比較,大大減少發(fā)現(xiàn)表達(dá)類型關(guān)系的計(jì)算量,但忽視了生物系統(tǒng)多因素和非線性的特點(diǎn)。 斯坦福大學(xué)的Michael Eisen開發(fā)的Windows平臺(tái)免費(fèi)芯片數(shù)據(jù)分析軟件CLUSTER和TREEVIEW,采用配對(duì)平均連鎖(pairwise average-linkage)聚類分析。這種方法中,每個(gè)不同的基因與其它的基因比較,鑒定最相關(guān)的基因?qū)。這種基因?qū)Φ臄?shù)據(jù)用平均數(shù)替代,再重新計(jì)算關(guān)系矩陣,不斷重復(fù)這個(gè)過程。TREEVIEW對(duì)CLUSTER計(jì)算結(jié)果進(jìn)行圖形輸出,將芯片中的每個(gè)基因的表達(dá)比值用彩色方塊表示。 盡管CLUSTER軟件易于使用且直觀,但其算法仍有缺陷之處:實(shí)際數(shù)據(jù)由每次重復(fù)的平均數(shù)據(jù)替代;相似性測(cè)定的選擇(相關(guān)性/Eluclidean距離);將等級(jí)模型用于非等級(jí)過程;成對(duì)比較矩陣的計(jì)算負(fù)擔(dān)。因此,出現(xiàn)了其它方法,包括自組織圖(self organizing maps,SOMs),二進(jìn)制決定-退火算法(binary deterministic-annealing algorithm),k-means聚類等。Tamayo等提供Windows平臺(tái)的SOMs軟件包。 CLUSTER和TREEVIE下載網(wǎng)址:http://www.genome.standford.edu 基于知識(shí)挖掘的機(jī)器學(xué)習(xí)方法 最近發(fā)展了一種的有監(jiān)督的機(jī)器學(xué)習(xí)方法-支持向量機(jī)(support vector machines,SVMs)來分析表達(dá)數(shù)據(jù),它通過訓(xùn)練一種“分類器”來辨識(shí)與已知的共調(diào)控基因表達(dá)類型相似的的新基因。與經(jīng)典的無監(jiān)督聚類方法(unsupervised clustering)和自組織圖(self-organizing maps)不同,該方法建立在已有的知識(shí)上并有改進(jìn)現(xiàn)有知識(shí)的潛力。 無監(jiān)督的聚類方法,例如層級(jí)(hierarchical)和K-means聚類,假設(shè)每個(gè)基因僅屬于一“類”(cluster)。這在生物學(xué)意義上當(dāng)然不是真實(shí)的。而且,事實(shí)上同一類基因不是必然意味著有相似的表達(dá)類型。比如,k-means聚類方法事先指定產(chǎn)生的“類”的數(shù)量及并將每個(gè)基因放在其最優(yōu)“類”,并不總是有意義。需要對(duì)類(cluster)進(jìn)行質(zhì)量評(píng)價(jià),“類”的“嚴(yán)謹(jǐn)性”和外圍基因的存在(如果存在,它們與下一類的接近度)以及一組核心特征基因應(yīng)在質(zhì)量上保證。最重要的是應(yīng)考慮“類”是否有生物學(xué)意義。 與無監(jiān)督的方法產(chǎn)生基因的“類”相比,有監(jiān)督的學(xué)習(xí)方法是向已知的“類”學(xué)習(xí)。訓(xùn)練者必須提供SVMs以每個(gè)“類”正反兩方面的例子。SVMs提供一種層級(jí)的方法來分析芯片數(shù)據(jù)。首先,對(duì)每個(gè)基因,應(yīng)詢問最近的鄰居是否它與它們的關(guān)系是有生物學(xué)意義的。其次,對(duì)已知共調(diào)控基因,應(yīng)該詢問它們的表達(dá)類型是否相似,如果是這樣,還有哪些其它的基因有相同類型。這些在監(jiān)督階段可通過SVMs或優(yōu)化的SOMs來判斷。第三,應(yīng)該通過無監(jiān)督的學(xué)習(xí)方法進(jìn)行基因分類并詢問是否聚類有生物學(xué)意義并且包括外圍基因。最后,“類”可通過每個(gè)無監(jiān)督的“類”的核心基因訓(xùn)練SVMs的方法來檢測(cè)和優(yōu)化。 可視化 大規(guī)模基因表達(dá)數(shù)據(jù)挖掘另一重要方面是發(fā)展有力的數(shù)據(jù)可視化方法和工具。已經(jīng)發(fā)展了用簡(jiǎn)單圖形顯示提供聚類結(jié)果的途徑,如上述的TREEVIEW軟件。對(duì)大規(guī);虮磉_(dá)原始數(shù)據(jù)的進(jìn)行不失真的可視化并鏈接的標(biāo)注過的序列數(shù)據(jù)庫,可為基因表達(dá)分析提供非常有價(jià)值的工具,有助于從新的視角看待基因組水平的轉(zhuǎn)錄調(diào)控并建立模型。 7.2 基因組水平蛋白質(zhì)功能綜合預(yù)測(cè) 蛋白質(zhì)之間的功能聯(lián)系 基因組測(cè)序計(jì)劃在產(chǎn)生完全的組成多個(gè)亞單位裝配和信號(hào)通路的蛋白質(zhì)列表方面取得里程碑式的業(yè)績(jī)。這些裝配和通路現(xiàn)在必然被制圖,Marcotte等和Enright等在此方面走了顯著一步。這兩個(gè)研究小組發(fā)展了不是通過氨基酸序列相似性比較的其他特性聯(lián)系起蛋白質(zhì)的計(jì)算方法。通過比較系統(tǒng)發(fā)育(進(jìn)化)譜和表達(dá)類型,以及通過分析結(jié)構(gòu)域融合(domain fusions)新方法識(shí)別在代謝通路、信號(hào)通路或結(jié)構(gòu)復(fù)合體上功能相關(guān)的蛋白質(zhì)。酵母未定性蛋白大約一半 總蛋白數(shù)約四分之一可用此方法進(jìn)行功能注釋。因?yàn)椴灰蕾囉谥苯拥男蛄邢嗨菩,這種方法可預(yù)測(cè)與已知功能蛋白質(zhì)缺乏同源性的蛋白質(zhì)功能。將會(huì)發(fā)現(xiàn)它們?cè)诨蚪M學(xué)中的許多應(yīng)用,與大規(guī)模蛋白質(zhì)功能實(shí)驗(yàn)互為補(bǔ)充。 構(gòu)建通路和專配有用模型的信息來自實(shí)驗(yàn),最重要的通過蛋白質(zhì)組學(xué)和結(jié)構(gòu)基因組學(xué)。蛋白質(zhì)組學(xué)的目標(biāo)是對(duì)所有的蛋白質(zhì)和蛋白相互作用進(jìn)行鑒定和定性。它包括采用大規(guī)模實(shí)驗(yàn)方法如雙雜交系統(tǒng)(two-hybrid system)、質(zhì)譜法(mass spectrometry,MS)、二維凝膠電泳(2D PAGE)和DNA芯片雜交(DNA microarray hybridization)。任務(wù)大小和復(fù)雜性可由下面的假定理解:每個(gè)蛋白質(zhì)有5-50個(gè)功能連鎖,結(jié)果在一個(gè)酵母細(xì)胞中就有30,000-300,000個(gè)連鎖。雖然實(shí)驗(yàn)已確定了約30%的酵母的功能,但是它們有時(shí)不是迅速廉價(jià)的,且不完全。因此需要用計(jì)算的方法來預(yù)測(cè)功能。 計(jì)算方法傳統(tǒng)上預(yù)測(cè)功能是通過與性質(zhì)明確蛋白質(zhì)的序列相似性比較。這樣標(biāo)注的可行性是因?yàn)檫M(jìn)化產(chǎn)生享有共同祖先的的同源性蛋白家族,因此有相似的序列、結(jié)構(gòu),經(jīng)常還有功能。蛋白質(zhì)比較允許對(duì)酵母另30%的蛋白質(zhì)功能進(jìn)行研究。但是,通過同源性進(jìn)行功能預(yù)測(cè)受兩方面的因素制約。首先,它只能用于與已知功能蛋白質(zhì)有同源性的未知蛋白質(zhì)的功能預(yù)測(cè)。其次,不是總清楚匹配的蛋白質(zhì)何種功能特性為其共享,尤其對(duì)那些距離較遠(yuǎn)的匹配。 Marcotte等和Enright等并未受此限制,因?yàn)樗麄儾灰蕾嚺c未知蛋白質(zhì)與已知功能蛋白質(zhì)的序列相似性。而代替的是,將同樣通路和裝配的蛋白質(zhì)分組,定義為“功能連鎖”(functionally linked).Marcotte等針對(duì)出芽酵畝基因組蛋白質(zhì)采用了三種不同的方法:系統(tǒng)發(fā)育譜(phylogenetic profiles),結(jié)構(gòu)域融合(domain-fusion analysis)和相關(guān)mRNA表達(dá)類型(correlated messenger RNA expression patterns)。Enright等獨(dú)立發(fā)展了結(jié)構(gòu)域融合分析,采用新的聚類算法用于三個(gè)原核基因組分析。 系統(tǒng)發(fā)育譜依賴于蛋白質(zhì)相關(guān)進(jìn)化。兩個(gè)蛋白質(zhì)是進(jìn)化相關(guān)的當(dāng)它們共有一個(gè)系統(tǒng)發(fā)育譜,定義為蛋白質(zhì)在一組基因組中的發(fā)生率類型。僅當(dāng)幾個(gè)完整的基因組比較時(shí)系統(tǒng)發(fā)育表達(dá)譜才能精確計(jì)算。兩個(gè)蛋白質(zhì)享有相似的系統(tǒng)發(fā)育譜被認(rèn)為是功能連鎖(functionally linked)。因此,根據(jù)系統(tǒng)發(fā)育譜進(jìn)行的蛋白質(zhì)聚類,當(dāng)未知蛋白質(zhì)與一個(gè)或更多的功能已知的蛋白質(zhì)歸為一組時(shí)能夠提供未知蛋白質(zhì)的功能信息。 結(jié)構(gòu)域融合的方法鑒定含有兩個(gè)分別在其它基因組的非同源性成分蛋白(component proteins)組成的融合蛋白(fusion proteins)。這樣的成分蛋白被認(rèn)為彼此物理上有相互作用。在兩個(gè)相互作用成分蛋白之間的界面(interface)更有可能進(jìn)化當(dāng)兩個(gè)蛋白融合為一條單一鏈。著名的例子是,從細(xì)菌到真菌的色氨酸合成酶的α和β亞單位。在一些方面,結(jié)構(gòu)域融合分析與從基因鄰近效應(yīng)(gene proximity)推測(cè)功能連鎖相似。 Marcotte等也通過關(guān)聯(lián)它們的mRNA表達(dá)類型來對(duì)酵母蛋白質(zhì)進(jìn)行分類。這些類型來自97組公共DNA芯片數(shù)據(jù),顯示了大多數(shù)酵母蛋白質(zhì)在正常生長(zhǎng)、葡萄糖缺乏孢子形成和突變基因表達(dá)的條件下的表達(dá)變化。分析建立在認(rèn)為在一系列相同條件下表達(dá)水平相互關(guān)聯(lián)的蛋白質(zhì)是功能連鎖的。 新的功能注釋經(jīng)常是廣義的,限制蛋白質(zhì)的功能為,“代謝”或“轉(zhuǎn)錄”。即使隨機(jī)的一對(duì)蛋白質(zhì)也有50%的相似機(jī)率在這樣廣義的水平上。但是因?yàn)樽⑨屢话銇碜栽S多連鎖,比隨機(jī)連鎖信息量大3-8倍,在一些例子中與蛋白-蛋白相互作用的實(shí)驗(yàn)決定相比。 例如,Marcotte等建立了新的MSH6的連鎖,在某些結(jié)腸癌中的DNA錯(cuò)配修復(fù)蛋白,屬于PMS1錯(cuò)配修復(fù)家族,其中的突變也與人結(jié)腸癌、嘌呤生物合成途徑、RNA修飾酶和一個(gè)未知的蛋白質(zhì)家族相關(guān),這樣它們可以通過核酸修復(fù)或修飾來研究。 這樣的注釋精確度如何?能覆蓋多少比例的蛋白質(zhì)?這些問題只能部分提出,因?yàn)閰⒖嫉墓δ苓B鎖蛋白質(zhì)不是很容易得到。Marcotte和同事給酵母2,557個(gè)未知蛋白的一半預(yù)測(cè)了一般功能。他們估計(jì)成對(duì)預(yù)測(cè)來確定功能的近30%是錯(cuò)誤的,雖然兩到三種方法聯(lián)合應(yīng)用使錯(cuò)誤率降到15%。 Enright等通過結(jié)構(gòu)域融合在三個(gè)原核基因組中僅功能連鎖215個(gè)蛋白,但是非常少的估計(jì)假陽性。較少的功能連鎖率可能由于沒有系統(tǒng)發(fā)育譜和mRNA表達(dá)方法丟失了連鎖(作者沒有做這兩種方法),融合事件更嚴(yán)格的定義以及用較少的蛋白檢測(cè)融合。盡管假陽性和顯得粗糙的功能注釋,計(jì)算方法使得實(shí)驗(yàn)者將注意力集中在有希望的相互作用上。當(dāng)?shù)玫礁嗟幕蚪M數(shù)據(jù),結(jié)構(gòu)域融合和系統(tǒng)發(fā)育譜的方法的預(yù)測(cè)數(shù)和精度將增加。 下一步將是提高方法預(yù)測(cè)蛋白質(zhì)功能的范圍、準(zhǔn)確度和精確性。這可能在理論上,通過考慮三維結(jié)構(gòu)來做,因?yàn)榈鞍踪|(zhì)的功能更多直接由它的結(jié)構(gòu)和動(dòng)力學(xué)而不是它的序列來決定。那么為什么在基因組學(xué)上結(jié)構(gòu)沒有序列用的廣泛呢?至少有兩個(gè)原因。首先,只有一部分蛋白質(zhì)有三維結(jié)構(gòu)數(shù)據(jù)。這種限制在幾年內(nèi)隨著結(jié)構(gòu)基因組學(xué)(structural genomics)的進(jìn)展而減少。結(jié)構(gòu)基因組學(xué)的目標(biāo)是確定大約10,000經(jīng)仔細(xì)挑選的蛋白質(zhì)結(jié)構(gòu)域的結(jié)構(gòu),以便所有其它的蛋白質(zhì)序列能夠有很好的精確性建模。其次,能夠從結(jié)構(gòu)而不是從序列提取的功能細(xì)節(jié)依賴于細(xì)胞環(huán)境下的那種結(jié)構(gòu)的細(xì)節(jié),同樣也依賴于它的動(dòng)力學(xué)和能量,所有這些在現(xiàn)有的實(shí)驗(yàn)和理論技術(shù)下難以獲得。 |
榮譽(yù)版主 (正式寫手)
懶懶的小蟲蟲
榮譽(yù)版主 (正式寫手)
懶懶的小蟲蟲
|
概述 當(dāng)前人類基因組研究已進(jìn)入一個(gè)重要時(shí)期,2004年已獲得人類基因組的全部序列,這是基因組研究的轉(zhuǎn)折點(diǎn)和關(guān)鍵時(shí)刻,意味著人類基因組的研究將全面進(jìn)入信息提取和數(shù)據(jù)分析階段,即生物信息學(xué)發(fā)揮重要作用的階段。到1999年12月15日發(fā)布的第115版為止,GenBank中的DNA堿基數(shù)目已達(dá)46億5千萬,DNA序列數(shù)目達(dá)到535萬;其中EST序列超過339萬條; UniGene的數(shù)目已達(dá)到7萬個(gè);已有25個(gè)模式生物的完整基因組被測(cè)序完成,另外的70個(gè)模式生物基因組正在測(cè)序當(dāng)中;到2005年初為止,人類基因組的序列完成測(cè)定;同時(shí)功能基因組和蛋白質(zhì)組的大量數(shù)據(jù)已開始涌現(xiàn)。如何分析這些數(shù)據(jù),從中獲得生物結(jié)構(gòu)、功能的相關(guān)信息是基因組研究取得成果的決定性步驟。 生物信息學(xué)是在此背景下發(fā)展起來的綜合運(yùn)用生物學(xué)、數(shù)學(xué)、物理學(xué)、信息科學(xué)以及計(jì)算機(jī)科學(xué)等諸多學(xué)科的理論方法的嶄新交叉學(xué)科。生物信息學(xué)是內(nèi)涵非常豐富的學(xué)科,其核心是基因組信息學(xué),包括基因組信息的獲取、處理、存儲(chǔ)、分配和解釋;蚪M信息學(xué)的關(guān)鍵是“讀懂”基因組的核苷酸順序,即全部基因在染色體上的確切位置以及各DNA片段的功能;同時(shí)在發(fā)現(xiàn)了新基因信息之后進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測(cè),然后依據(jù)特定蛋白質(zhì)的功能進(jìn)行藥物設(shè)計(jì)。了解基因表達(dá)的調(diào)控機(jī)理也是生物信息學(xué)的重要內(nèi)容,根據(jù)生物分子在基因調(diào)控中的作用,描述人類疾病的診斷、治療內(nèi)在規(guī)律。它的研究目標(biāo)是揭示"基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語言的根本規(guī)律",解釋生命的遺傳語言。生物信息學(xué)已成為整個(gè)生命科學(xué)發(fā)展的重要組成部分,成為生命科學(xué)研究的前沿。 近來的研究表明,基因組不僅是基因的簡(jiǎn)單排列,它有其特有的組織結(jié)構(gòu)和信息結(jié)構(gòu),這種結(jié)構(gòu)是在長(zhǎng)期的演化過程中產(chǎn)生的,也是基因發(fā)揮其功能所必須的。弄清楚生物體基因組特有的組織結(jié)構(gòu)和信息結(jié)構(gòu),解譯生命的遺傳語言的關(guān)鍵。 目前在數(shù)據(jù)庫中已經(jīng)有越來越多的模式生物全基因組序列,第一個(gè)人類染色體全序列--第22號(hào)染色體的測(cè)序工作已經(jīng)在1999年12月完成,整個(gè)人類基因組計(jì)劃工作草圖將在最近完成。這無疑給基因組組織結(jié)構(gòu)和信息結(jié)構(gòu)的研究工作提供了大量的第一手材料,同時(shí)也為基因組研究取得突破性進(jìn)展提供了可能。人類對(duì)基因的認(rèn)識(shí),將從以往的對(duì)單個(gè)基因的了解,上升到在整個(gè)基因組水平上考察基因的組織結(jié)構(gòu)和信息結(jié)構(gòu),考察基因之間在位置、結(jié)構(gòu)和功能上的相互關(guān)系。 從目前生物信息學(xué)的研究情況來看,國(guó)際上公認(rèn)的生物信息學(xué)的研究?jī)?nèi)容,大致包括以下幾個(gè)方面: 生物信息的收集、存儲(chǔ)、管理與提供。包括建立國(guó)際基本生物信息庫和生物信息傳輸?shù)膰?guó)際聯(lián)網(wǎng)系統(tǒng);建立生物信息數(shù)據(jù)質(zhì)量的評(píng)估與檢測(cè)系統(tǒng);生物信息的在線服務(wù);生物信息可視化和專家系統(tǒng)。 基因組序列信息的提取和分析。包括基因的發(fā)現(xiàn)與鑒定,如利用國(guó)際EST 數(shù)據(jù)庫 (dbEST) 和各自實(shí)驗(yàn)室測(cè)定的相應(yīng)數(shù)據(jù),經(jīng)過大規(guī)模 并行計(jì)算發(fā)現(xiàn)新基因和新SNPs以及各種功能位點(diǎn);基因組中非編碼區(qū)的信息結(jié)構(gòu)分析,提出理論模型,闡明該區(qū)域的重要生物學(xué)功能;進(jìn)行模式生物完整基因組的信息結(jié)構(gòu)分析和比較研究;利用生物信息研究遺傳密碼起源、基因組結(jié)構(gòu)的演化、基因組空間結(jié)構(gòu)與DNA折疊的關(guān)系以及基因組信息與生物進(jìn)化關(guān)系等生物學(xué)的重大問題。 功能基因組相關(guān)信息分析。包括與大規(guī);虮磉_(dá)譜分析相關(guān)的算法、軟件研究,基因表達(dá)調(diào)控網(wǎng)絡(luò)的研究;與基因組信息相關(guān)的核酸、蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測(cè)和模擬,以及蛋白質(zhì)功能預(yù)測(cè)的研究。 生物大分子結(jié)構(gòu)模擬和藥物設(shè)計(jì)。包括RNA(核糖核酸)的結(jié)構(gòu)模擬和反義RNA的分子設(shè)計(jì);蛋白質(zhì)空間結(jié)構(gòu)模擬和分子設(shè)計(jì);具有不同功能域的復(fù)合蛋白質(zhì)以及連接肽的設(shè)計(jì);生物活性分子的電子結(jié)構(gòu)計(jì)算和設(shè)計(jì);納米生物材料的模擬與設(shè)計(jì);基于酶和功能蛋白質(zhì)結(jié)構(gòu)、細(xì)胞表面受體結(jié)構(gòu)的藥物設(shè)計(jì);基于DNA結(jié)構(gòu)的藥物設(shè)計(jì)等。 生物信息分析的技術(shù)與方法研究。包括發(fā)展有效的能支持大尺度作圖與測(cè)序需要的軟件、數(shù)據(jù)庫以及若干數(shù)據(jù)庫工具,諸如電子網(wǎng)絡(luò)等遠(yuǎn)程通訊工具;改進(jìn)現(xiàn)有的理論分析方法,如統(tǒng)計(jì)方法、模式識(shí)別方法、隱馬爾科夫過程方法、分維方法、神經(jīng)網(wǎng)絡(luò)方法、復(fù)雜性分析方法、密碼學(xué)方法、多序列比較方法等;創(chuàng)建一切適用于基因組信息分析的新方法、新技術(shù)。包括引入復(fù)雜系統(tǒng)分析技術(shù)、信息系統(tǒng)分析技術(shù)等;建立嚴(yán)格的多序列比較方法;發(fā)展與應(yīng)用密碼學(xué)方法以及其他算法和分析技術(shù),用于解釋基因組的信息,探索DNA序列及其空間結(jié)構(gòu)信息的新表征;發(fā)展研究基因組完整信息結(jié)構(gòu)和信息網(wǎng)絡(luò)的研究方法等;發(fā)展生物大分子空間結(jié)構(gòu)模擬、電子結(jié)構(gòu)模擬和藥物設(shè)計(jì)的新方法與新技術(shù)。 應(yīng)用與發(fā)展研究。匯集與疾病相關(guān)的人類基因信息,發(fā)展患者樣品序列信息檢測(cè)技術(shù)和基于序列信息選擇表達(dá)載體、引物的技術(shù),建立與動(dòng)植物良種繁育相關(guān)的數(shù)據(jù)庫以及與大分子設(shè)計(jì)和藥物設(shè)計(jì)相關(guān)的數(shù)據(jù)庫。 利用生物信息學(xué)方法進(jìn)行結(jié)構(gòu)功能預(yù)測(cè)要注意的是同一問題采用不同算法,可能產(chǎn)生相同或不同的結(jié)果。因此,必要弄清楚某種方法的基本原理,而不是僅把算法當(dāng)作一個(gè)“黑箱”。因?yàn)橐环N方法可能對(duì)特定實(shí)例很合適,而對(duì)另一個(gè)則完全不對(duì)。因此,本章采用原理和實(shí)用方法并重的原則進(jìn)行介紹。因生物信息學(xué)覆蓋面廣,限于篇幅,本章并未將生物信息學(xué)的全部?jī)?nèi)容詳細(xì)加以講述,僅針對(duì)與目前分子生物學(xué)實(shí)驗(yàn)數(shù)據(jù)分析密切相關(guān)的生物信息學(xué)策略及實(shí)用工具進(jìn)行扼要介紹,文中涉及問題的更詳細(xì)信息可參考相關(guān)網(wǎng)站。 [ Last edited by BlueGuy on 2005-6-7 at 16:47 ] |
榮譽(yù)版主 (正式寫手)
懶懶的小蟲蟲
|
2 生物信息數(shù)據(jù)庫與查詢 近年來大量生物學(xué)實(shí)驗(yàn)的數(shù)據(jù)積累,形成了當(dāng)前數(shù)以百計(jì)的生物信息數(shù)據(jù)庫。它們各自按一定的目標(biāo)收集和整理生物學(xué)實(shí)驗(yàn)數(shù)據(jù),并提供相關(guān)的數(shù)據(jù)查詢、數(shù)據(jù)處理的服務(wù)。隨著因特網(wǎng)的普及,這些數(shù)據(jù)庫大多可以通過網(wǎng)絡(luò)來訪問,或者通過網(wǎng)絡(luò)下載。 一般而言,這些生物信息數(shù)據(jù)庫可以分為一級(jí)數(shù)據(jù)庫和二級(jí)數(shù)據(jù)庫。一級(jí)數(shù)據(jù)庫的數(shù)據(jù)都直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過簡(jiǎn)單的歸類整理和注釋;二級(jí)數(shù)據(jù)庫是在一級(jí)數(shù)據(jù)庫、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定目標(biāo)衍生而來,是對(duì)生物學(xué)知識(shí)和信息的進(jìn)一步整理。國(guó)際上著名的一級(jí)核酸數(shù)據(jù)庫有Genbank數(shù)據(jù)庫、EMBL核酸庫和DDBJ庫等;蛋白質(zhì)序列數(shù)據(jù)庫有SWISS-PROT、PIR等;蛋白質(zhì)結(jié)構(gòu)庫有PDB等。國(guó)際上二級(jí)生物學(xué)數(shù)據(jù)庫非常多,它們因針對(duì)不同的研究?jī)?nèi)容和需要而各具特色,如人類基因組圖譜庫GDB、轉(zhuǎn)錄因子和結(jié)合位點(diǎn)庫TRANSFAC、蛋白質(zhì)結(jié)構(gòu)家族分類庫SCOP等等。 下面將順序簡(jiǎn)要介紹一些著名和有特色的生物信息數(shù)據(jù)庫。 2.1 基因和基因組數(shù)據(jù)庫 1. Genbank Genbank庫包含了所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關(guān)的文獻(xiàn)著作和生物學(xué)注釋。它是由美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)建立和維護(hù)的。它的數(shù)據(jù)直接來源于測(cè)序工作者提交的序列;由測(cè)序中心提交的大量EST序列和其它測(cè)序數(shù)據(jù);以及與其它數(shù)據(jù)機(jī)構(gòu)協(xié)作交換數(shù)據(jù)而來。Genbank每天都會(huì)與歐洲分子生物學(xué)實(shí)驗(yàn)室(EMBL)的數(shù)據(jù)庫,和日本的DNA數(shù)據(jù)庫(DDBJ)交換數(shù)據(jù),使這三個(gè)數(shù)據(jù)庫的數(shù)據(jù)同步。到1999年8月,Genbank中收集的序列數(shù)量達(dá)到460萬條,34億個(gè)堿基,而且數(shù)據(jù)增長(zhǎng)的速度還在不斷加快。Genbank的數(shù)據(jù)可以從NCBI的FTP服務(wù)器上免費(fèi)下載完整的庫,或下載積累的新數(shù)據(jù)。NCBI還提供廣泛的數(shù)據(jù)查詢、序列相似性搜索以及其它分析服務(wù),用戶可以從NCBI的主頁上找到這些服務(wù)。 Genbank庫里的數(shù)據(jù)按來源于約55,000個(gè)物種,其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列)。每條Genbank數(shù)據(jù)記錄包含了對(duì)序列的簡(jiǎn)要描述,它的科學(xué)命名,物種分類名稱,參考文獻(xiàn),序列特征表,以及序列本身。序列特征表里包含對(duì)序列生物學(xué)特征注釋如:編碼區(qū)、轉(zhuǎn)錄單元、重復(fù)區(qū)域、突變位點(diǎn)或修飾位點(diǎn)等。所有數(shù)據(jù)記錄被劃分在若干個(gè)文件里,如細(xì)菌類、病毒類、靈長(zhǎng)類、嚙齒類,以及EST數(shù)據(jù)、基因組測(cè)序數(shù)據(jù)、大規(guī)模基因組序列數(shù)據(jù)等16類,其中EST數(shù)據(jù)等又被各自分成若干個(gè)文件。 (1)Genbank數(shù)據(jù)檢索 NCBI的數(shù)據(jù)庫檢索查詢系統(tǒng)是Entrez。Entrez是基于Web界面的綜合生物信息數(shù)據(jù)庫檢索系統(tǒng)。利用Entrez系統(tǒng),用戶不僅可以方便地檢索Genbank的核酸數(shù)據(jù),還可以檢索來自Genbank和其它數(shù)據(jù)庫的蛋白質(zhì)序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、來自分子模型數(shù)據(jù)庫(MMDB)的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群序列數(shù)據(jù)集、以及由PubMed獲得Medline的文獻(xiàn)數(shù)據(jù)。 Entrez提供了方便實(shí)用的檢索服務(wù),所有操作都可以在網(wǎng)絡(luò)瀏覽器上完成。用戶可以利用Entrez界面上提供的限制條件(Limits)、索引(Index)、檢索歷史(History)和剪貼板(Clipboard)等功能來實(shí)現(xiàn)復(fù)雜的檢索查詢工作。對(duì)于檢索獲得的記錄,用戶可以選擇需要顯示的數(shù)據(jù),保存查詢結(jié)果,甚至以圖形方式觀看檢索獲得的序列。更詳細(xì)的Entrez使用說明可以在該主頁上獲得。 (2)向Genbank提交序列數(shù)據(jù) 測(cè)序工作者可以把自己工作中獲得的新序列提交給NCBI,添加到Genbank數(shù)據(jù)庫。這個(gè)任務(wù)可以由基于Web界面的BankIt或獨(dú)立程序Sequin來完成。 BankIt是一系列表單,包括聯(lián)絡(luò)信息、發(fā)布要求、引用參考信息、序列來源信息、以及序列本身的信息等。用戶提交序列后,會(huì)從電子郵件收到自動(dòng)生成的數(shù)據(jù)條目,Genbank的新序列編號(hào),以及完成注釋后的完整的數(shù)據(jù)記錄。用戶還可以在BankIt頁面下修改已經(jīng)發(fā)布序列的信息。BankIt適合于獨(dú)立測(cè)序工作者提交少量序列,而不適合大量序列的提交,也不適合提交很長(zhǎng)的序列,EST序列和GSS序列也不應(yīng)用BankIt提交。BankIt使用說明和對(duì)序列的要求可詳見其主頁面。 大量的序列提交可以由Sequin程序完成。Sequin程序能方便的編輯和處理復(fù)雜注釋,并包含一系列內(nèi)建的檢查函數(shù)來提高序列的質(zhì)量保證。它還被設(shè)計(jì)用于提交來自系統(tǒng)進(jìn)化、種群和突變研究的序列,可以加入比對(duì)的數(shù)據(jù)。Sequin除了用于編輯和修改序列數(shù)據(jù)記錄,還可以用于序列的分析,任何以FASTA或ASN.1格式序列為輸入數(shù)據(jù)的序列分析程序都可以整合到Sequin程序下。在不同操作系統(tǒng)下運(yùn)行的Sequin程序都可以在ftp://ncbi.nlm.nih.gov/sequin/下找到,Sequin的使用說明可詳見其網(wǎng)頁。 NCBI的網(wǎng)址是:http://www.ncbi.nlm.nih.gov。 Entrez的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/entrez/。 BankIt的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/BankIt。 Sequin的相關(guān)網(wǎng)址是:http://www.ncbi.nlm.nih.gov/Sequin/。 2. EMBL核酸序列數(shù)據(jù)庫 EMBL核酸序列數(shù)據(jù)庫由歐洲生物信息學(xué)研究所(EBI)維護(hù)的核酸序列數(shù)據(jù)構(gòu)成,由于與Genbank和DDBJ的數(shù)據(jù)合作交換,它也是一個(gè)全面的核酸序列數(shù)據(jù)庫。該數(shù)據(jù)庫由Oracal數(shù)據(jù)庫系統(tǒng)管理維護(hù),查詢檢索可以通過通過因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務(wù)完成。向EMBL核酸序列數(shù)據(jù)庫提交序列可以通過基于Web的WEBIN工具,也可以用Sequin軟件來完成。 數(shù)據(jù)庫網(wǎng)址是:http://www.ebi.ac.uk/embl/。 SRS的網(wǎng)址是:http://srs.ebi.ac.uk/。 WEBIN的網(wǎng)址是:http://www.ebi.ac.uk/embl/Submission/webin.html。 3. DDBJ數(shù)據(jù)庫 日本DNA數(shù)據(jù)倉庫(DDBJ)也是一個(gè)全面的核酸序列數(shù)據(jù)庫,與Genbank和EMBL核酸庫合作交換數(shù)據(jù)?梢允褂闷渲黜撋咸峁┑腟RS工具進(jìn)行數(shù)據(jù)檢索和序列分析?梢杂肧equin軟件向該數(shù)據(jù)庫提交序列。 DDBJ的網(wǎng)址是:http://www.ddbj.nig.ac.jp/。 4. GDB 基因組數(shù)據(jù)庫(GDB)為人類基因組計(jì)劃(HGP)保存和處理基因組圖譜數(shù)據(jù)。GDB的目標(biāo)是構(gòu)建關(guān)于人類基因組的百科全書,除了構(gòu)建基因組圖譜之外,還開發(fā)了描述序列水平的基因組內(nèi)容的方法,包括序列變異和其它對(duì)功能和表型的描述。目前GDB中有:人類基因組區(qū)域(包括基因、克隆、amplimers PCR 標(biāo)記、斷點(diǎn)breakpoints、細(xì)胞遺傳標(biāo)記cytogenetic markers、易碎位點(diǎn)fragile sites、EST序列、綜合區(qū)域syndromic regions、contigs和重復(fù)序列);人類基因組圖譜(包括細(xì)胞遺傳圖譜、連接圖譜、放射性雜交圖譜、content contig圖譜和綜合圖譜等);人類基因組內(nèi)的變異(包括突變和多態(tài)性,加上等位基因頻率數(shù)據(jù))。GDB數(shù)據(jù)庫以對(duì)象模型來保存數(shù)據(jù),提供基于Web的數(shù)據(jù)對(duì)象檢索服務(wù),用戶可以搜索各種類型的對(duì)象,并以圖形方式觀看基因組圖譜。 GDB的網(wǎng)址是:http://www.gdb.org。 GDB的國(guó)內(nèi)鏡像是:http://gdb.pku.edu.cn/gdb/。 2.2 蛋白質(zhì)數(shù)據(jù)庫 1. PIR和PSD PIR國(guó)際蛋白質(zhì)序列數(shù)據(jù)庫(PSD)是由蛋白質(zhì)信息資源(PIR)、慕尼黑蛋白質(zhì)序列信息中心(MIPS)和日本國(guó)際蛋白質(zhì)序列數(shù)據(jù)庫(JIPID)共同維護(hù)的國(guó)際上最大的公共蛋白質(zhì)序列數(shù)據(jù)庫。這是一個(gè)全面的、經(jīng)過注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫,包含超過142,000條蛋白質(zhì)序列(至99年9月),其中包括來自幾十個(gè)完整基因組的蛋白質(zhì)序列。所有序列數(shù)據(jù)都經(jīng)過整理,超過99%的序列已按蛋白質(zhì)家族分類,一半以上還按蛋白質(zhì)超家族進(jìn)行了分類。PSD的注釋中還包括對(duì)許多序列、結(jié)構(gòu)、基因組和文獻(xiàn)數(shù)據(jù)庫的交叉索引,以及數(shù)據(jù)庫內(nèi)部條目之間的索引,這些內(nèi)部索引幫助用戶在包括復(fù)合物、酶-底物相互作用、活化和調(diào)控級(jí)聯(lián)和具有共同特征的條目之間方便的檢索。每季度都發(fā)行一次完整的數(shù)據(jù)庫,每周可以得到更新部分。 PSD數(shù)據(jù)庫有幾個(gè)輔助數(shù)據(jù)庫,如基于超家族的非冗余庫等。PIR提供三類序列搜索服務(wù):基于文本的交互式檢索;標(biāo)準(zhǔn)的序列相似性搜索,包括BLAST、FASTA等;結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級(jí)搜索,包括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索GeneFIND等。 PIR和PSD的網(wǎng)址是:http://pir.georgetown.edu/。 數(shù)據(jù)庫下載地址是:ftp://nbrfa.georgetown.edu/pir/。 2. SWISS-PROT SWISS-PROT是經(jīng)過注釋的蛋白質(zhì)序列數(shù)據(jù)庫,由歐洲生物信息學(xué)研究所(EBI)維護(hù)。數(shù)據(jù)庫由蛋白質(zhì)序列條目構(gòu)成,每個(gè)條目包含蛋白質(zhì)序列、引用文獻(xiàn)信息、分類學(xué)信息、注釋等,注釋中包括蛋白質(zhì)的功能、轉(zhuǎn)錄后修飾、特殊位點(diǎn)和區(qū)域、二級(jí)結(jié)構(gòu)、四級(jí)結(jié)構(gòu)、與其它序列的相似性、序列殘缺與疾病的關(guān)系、序列變異體和沖突等信息。SWISS-PROT中盡可能減少了冗余序列,并與其它30多個(gè)數(shù)據(jù)建立了交叉引用,其中包括核酸序列庫、蛋白質(zhì)序列庫和蛋白質(zhì)結(jié)構(gòu)庫等。 利用序列提取系統(tǒng)(SRS)可以方便地檢索SWISS-PROT和其它EBI的數(shù)據(jù)庫。 SWISS-PROT只接受直接測(cè)序獲得的蛋白質(zhì)序列,序列提交可以在其Web頁面上完成。 SWISS-PROT的網(wǎng)址是:http://www.ebi.ac.uk/swissprot/。 3. PROSITE PROSITE數(shù)據(jù)庫收集了生物學(xué)有顯著意義的蛋白質(zhì)位點(diǎn)和序列模式,并能根據(jù)這些位點(diǎn)和模式快速和可靠地鑒別一個(gè)未知功能的蛋白質(zhì)序列應(yīng)該屬于哪一個(gè)蛋白質(zhì)家族。有的情況下,某個(gè)蛋白質(zhì)與已知功能蛋白質(zhì)的整體序列相似性很低,但由于功能的需要保留了與功能密切相關(guān)的序列模式,這樣就可能通過PROSITE的搜索找到隱含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點(diǎn)、配體結(jié)合位點(diǎn)、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等;除了序列模式之外,PROSITE還包括由多序列比對(duì)構(gòu)建的profile,能更敏感地發(fā)現(xiàn)序列與profile的相似性。PROSITE的主頁上提供各種相關(guān)檢索服務(wù)。 PROSITE的網(wǎng)址是:http://www.expasy.ch/prosite/。 4. PDB 蛋白質(zhì)數(shù)據(jù)倉庫(PDB)是國(guó)際上唯一的生物大分子結(jié)構(gòu)數(shù)據(jù)檔案庫,由美國(guó)Brookhaven國(guó)家實(shí)驗(yàn)室建立。PDB收集的數(shù)據(jù)來源于X光晶體衍射和核磁共振(NMR)的數(shù)據(jù),經(jīng)過整理和確認(rèn)后存檔而成。目前PDB數(shù)據(jù)庫的維護(hù)由結(jié)構(gòu)生物信息學(xué)研究合作組織(RCSB)負(fù)責(zé)。RCSB的主服務(wù)器和世界各地的鏡像服務(wù)器提供數(shù)據(jù)庫的檢索和下載服務(wù),以及關(guān)于PDB數(shù)據(jù)文件格式和其它文檔的說明,PDB數(shù)據(jù)還可以從發(fā)行的光盤獲得。使用Rasmol等軟件可以在計(jì)算機(jī)上按PDB文件顯示生物大分子的三維結(jié)構(gòu)。 RCSB的PDB數(shù)據(jù)庫網(wǎng)址是:http://www.rcsb.org/pdb/。 5. SCOP 蛋白質(zhì)結(jié)構(gòu)分類(SCOP)數(shù)據(jù)庫詳細(xì)描述了已知的蛋白質(zhì)結(jié)構(gòu)之間的關(guān)系。分類基于若干層次:家族,描述相近的進(jìn)化關(guān)系;超家族,描述遠(yuǎn)源的進(jìn)化關(guān)系;折疊子(fold),描述空間幾何結(jié)構(gòu)的關(guān)系;折疊類,所有折疊子被歸于全α、全β、α/β、α+β和多結(jié)構(gòu)域等幾個(gè)大類。SCOP還提供一個(gè)非冗余的ASTRAIL序列庫,這個(gè)庫通常被用來評(píng)估各種序列比對(duì)算法。此外,SCOP還提供一個(gè)PDB-ISL中介序列庫,通過與這個(gè)庫中序列的兩兩比對(duì),可以找到與未知結(jié)構(gòu)序列遠(yuǎn)緣的已知結(jié)構(gòu)序列。 SCOP的網(wǎng)址是:http://scop.mrc-lmb.cam.ac.uk/scop/。 6. COG 蛋白質(zhì)直系同源簇(COGs)數(shù)據(jù)庫是對(duì)細(xì)菌、藻類和真核生物的21個(gè)完整基因組的編碼蛋白,根據(jù)系統(tǒng)進(jìn)化關(guān)系分類構(gòu)建而成。COG庫對(duì)于預(yù)測(cè)單個(gè)蛋白質(zhì)的功能和整個(gè)新基因組中蛋白質(zhì)的功能都很有用。利用COGNITOR程序,可以把某個(gè)蛋白質(zhì)與所有COGs中的蛋白質(zhì)進(jìn)行比對(duì),并把它歸入適當(dāng)?shù)腃OG簇。COG庫提供了對(duì)COG分類數(shù)據(jù)的檢索和查詢,基于Web的COGNITOR服務(wù),系統(tǒng)進(jìn)化模式的查詢服務(wù)等。 COG庫的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/COG。 下載COG庫和COGNITOR程序在:ftp://ncbi.nlm.nih.gov/pub/COG。 2.3 功能數(shù)據(jù)庫 1. KEGG 京都基因和基因組百科全書(KEGG)是系統(tǒng)分析基因功能,聯(lián)系基因組信息和功能信息的知識(shí)庫;蚪M信息存儲(chǔ)在GENES數(shù)據(jù)庫里,包括完整和部分測(cè)序的基因組序列;更高級(jí)的功能信息存儲(chǔ)在PATHWAY數(shù)據(jù)庫里,包括圖解的細(xì)胞生化過程如代謝、膜轉(zhuǎn)運(yùn)、信號(hào)傳遞、細(xì)胞周期,還包括同系保守的子通路等信息;KEGG的另一個(gè)數(shù)據(jù)庫是LIGAND,包含關(guān)于化學(xué)物質(zhì)、酶分子、酶反應(yīng)等信息。KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達(dá)圖譜,以及其它序列比較、圖形比較和通路計(jì)算的工具,可以免費(fèi)獲取。 KEGG的網(wǎng)址是:。 2. DIP 相互作用的蛋白質(zhì)數(shù)據(jù)庫(DIP)收集了由實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)-蛋白質(zhì)相互作用。數(shù)據(jù)庫包括蛋白質(zhì)的信息、相互作用的信息和檢測(cè)相互作用的實(shí)驗(yàn)技術(shù)三個(gè)部分。用戶可以根據(jù)蛋白質(zhì)、生物物種、蛋白質(zhì)超家族、關(guān)鍵詞、實(shí)驗(yàn)技術(shù)或引用文獻(xiàn)來查詢DIP數(shù)據(jù)庫。 DIP的網(wǎng)址是:http://dip.doe-mbi.ucla.edu/。 3. ASDB 可變剪接數(shù)據(jù)庫(ASDB)包括蛋白質(zhì)庫和核酸庫兩部分。ASDB(蛋白質(zhì))部分來源于SWISS-PROT蛋白質(zhì)序列庫,通過選取有可變剪接注釋的序列,搜索相關(guān)可變剪接的序列,經(jīng)過序列比對(duì)、篩選和分類構(gòu)建而成。ASDB(核酸)部分來自Genbank中提及和注釋的可變剪接的完整基因構(gòu)成。數(shù)據(jù)庫提供了方便的搜索服務(wù)。 ASDB的網(wǎng)址是:http://cbcg.nersc.gov/asdb。 4. TRRD 轉(zhuǎn)錄調(diào)控區(qū)數(shù)據(jù)庫(TRRD)是在不斷積累的真核生物基因調(diào)控區(qū)結(jié)構(gòu)-功能特性信息基礎(chǔ)上構(gòu)建的。每一個(gè)TRRD的條目里包含特定基因各種結(jié)構(gòu)-功能特性:轉(zhuǎn)錄因子結(jié)合位點(diǎn)、啟動(dòng)子、增強(qiáng)子、靜默子、以及基因表達(dá)調(diào)控模式等。TRRD包括五個(gè)相關(guān)的數(shù)據(jù)表:TRRDGENES(包含所有TRRD庫基因的基本信息和調(diào)控單元信息);TRRDSITES(包括調(diào)控因子結(jié)合位點(diǎn)的具體信息);TRRDFACTORS(包括TRRD中與各個(gè)位點(diǎn)結(jié)合的調(diào)控因子的具體信息);TRRDEXP(包括對(duì)基因表達(dá)模式的具體描述);TRRDBIB(包括所有注釋涉及的參考文獻(xiàn))。TRRD主頁提供了對(duì)這幾個(gè)數(shù)據(jù)表的檢索服務(wù)。 TRRD的網(wǎng)址是:http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/。 5. TRANSFAC TRANSFAC數(shù)據(jù)庫是關(guān)于轉(zhuǎn)錄因子、它們?cè)诨蚪M上的結(jié)合位點(diǎn)和與DNA結(jié)合的profiles的數(shù)據(jù)庫。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等數(shù)據(jù)表構(gòu)成。此外,還有幾個(gè)與TRANSFAC密切相關(guān)的擴(kuò)展庫:PATHODB庫收集了可能導(dǎo)致病態(tài)的突變的轉(zhuǎn)錄因子和結(jié)合位點(diǎn);S/MART DB收集了與染色體結(jié)構(gòu)變化相關(guān)的蛋白因子和位點(diǎn)的信息;TRANSPATH庫用于描述與轉(zhuǎn)錄因子調(diào)控相關(guān)的信號(hào)傳遞的網(wǎng)絡(luò);CYTOMER庫表現(xiàn)了人類轉(zhuǎn)錄因子在各個(gè)器官、細(xì)胞類型、生理系統(tǒng)和發(fā)育時(shí)期的表達(dá)狀況。TRANSFAC及其相關(guān)數(shù)據(jù)庫可以免費(fèi)下載,也可以通過Web進(jìn)行檢索和查詢。 TRANSFAC的網(wǎng)址是:http://transfac.gbf.de/TRANSFAC/。 2.4 其它數(shù)據(jù)庫資源 1. DBCat DBCat是生物信息數(shù)據(jù)庫的目錄數(shù)據(jù)庫,它收集了500多個(gè)生物信息學(xué)數(shù)據(jù)庫的信息,并根據(jù)它們的應(yīng)用領(lǐng)域進(jìn)行了分類。包括DNA、RNA、蛋白質(zhì)、基因組、圖譜、蛋白質(zhì)結(jié)構(gòu)、文獻(xiàn)著作等基本類型。數(shù)據(jù)庫可以免費(fèi)下載或在網(wǎng)絡(luò)上檢索查詢。 DBCat的網(wǎng)址是:http://www.infobiogen.fr/services/dbcat/。 下載DBCat在:ftp://ftp.infobiogen.fr/pub/db/dbcat。 2. PubMed PubMed是NCBI維護(hù)的文獻(xiàn)引用數(shù)據(jù)庫,提供對(duì)MEDLINE、Pre-MEDLINE等文獻(xiàn)數(shù)據(jù)庫的引用查詢和對(duì)大量網(wǎng)絡(luò)科學(xué)類電子期刊的鏈接。利用Entrez系統(tǒng)可以對(duì)PubMed進(jìn)行方便的查詢檢索。 PubMed的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/。 除了以上提及的數(shù)據(jù)之外,還有許許多多的專門生物信息數(shù)據(jù)庫,涉及了目前生物學(xué)研究的各個(gè)層面和領(lǐng)域,由于篇幅所限無法一一詳述。國(guó)內(nèi)也有一些大數(shù)據(jù)庫的鏡像站點(diǎn)和自己開發(fā)的有特色的數(shù)據(jù)庫,如歐洲分子生物學(xué)網(wǎng)絡(luò)組織EMBNet中國(guó)節(jié)點(diǎn)北京大學(xué)分子生物信息鏡像系統(tǒng),上海博容基因公司與上海嘉瑞軟件公司合作開發(fā)的國(guó)產(chǎn)漢化基因數(shù)據(jù)庫及分析管理系統(tǒng),同時(shí)國(guó)家級(jí)的生物信息學(xué)中心也在籌建之中。我們期待國(guó)內(nèi)能有更多高質(zhì)量和使用便利的數(shù)據(jù)庫資源,推動(dòng)我國(guó)生物信息學(xué)和整個(gè)生命科學(xué)的發(fā)展。 清華大學(xué)生物信息學(xué)研究所網(wǎng)址:http://bioinfo.tsinghua.edu.cn 北京大學(xué)生物信息鏡像系統(tǒng)網(wǎng)址:http://cbi.pku.edu.cn |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 能源材料化學(xué)課題組招收碩士研究生8-10名 +3 | 脫穎而出 2026-03-16 | 6/300 |
|
|---|---|---|---|---|
|
[考研] 0703化學(xué)調(diào)劑 ,六級(jí)已過,有科研經(jīng)歷 +8 | 曦熙兮 2026-03-15 | 8/400 |
|
|
[考研] 材料工程專碩調(diào)劑 +5 | 204818@lcx 2026-03-17 | 5/250 |
|
|
[考研] 303求調(diào)劑 +3 | 睿08 2026-03-17 | 3/150 |
|
|
[考博] 26申博 +4 | 八旬速覽 2026-03-16 | 4/200 |
|
|
[基金申請(qǐng)] 國(guó)自科面上基金字體 +6 | iwuli 2026-03-12 | 7/350 |
|
|
[基金申請(qǐng)]
今年的國(guó)基金是打分制嗎?
50+3
|
zhanghaozhu 2026-03-14 | 3/150 |
|
|
[考研] 285求調(diào)劑 +6 | ytter 2026-03-12 | 6/300 |
|
|
[考研] 材料與化工一志愿南昌大學(xué)327求調(diào)劑推薦 +7 | Ncdx123456 2026-03-13 | 8/400 |
|
|
[考研] 331求調(diào)劑(0703有機(jī)化學(xué) +5 | ZY-05 2026-03-13 | 6/300 |
|
|
[考研] 285 求調(diào)劑 資源與環(huán)境 一志愿北京化工大學(xué) +3 | 未名考生 2026-03-10 | 3/150 |
|
|
[碩博家園] 085600 260分求調(diào)劑 +3 | 天空還下雨么 2026-03-13 | 5/250 |
|
|
[考研] 310求調(diào)劑 +3 | 【上上簽】 2026-03-11 | 3/150 |
|
|
[考研] 307求調(diào)劑 +5 | 超級(jí)伊昂大王 2026-03-12 | 5/250 |
|
|
[考研] 314求調(diào)劑 +7 | 無懈可擊的巨人 2026-03-12 | 7/350 |
|
|
[考研] 土木第一志愿276求調(diào)劑,科研和技能十分豐富,求新興方向的導(dǎo)師收留 +3 | 土木小天才 2026-03-12 | 3/150 |
|
|
[考研] 328化工專碩求調(diào)劑 +4 | 。,。,。,。i 2026-03-12 | 4/200 |
|
|
[考研] 0817化學(xué)工程與技術(shù)考研312分調(diào)劑 +3 | T123 tt 2026-03-12 | 3/150 |
|
|
[考研] 求調(diào)劑 資源與環(huán)境 285 +3 | 未名考生 2026-03-10 | 3/150 |
|
|
[考研] 大連大學(xué)化學(xué)專業(yè)研究生調(diào)劑 +3 | 琪久. 2026-03-10 | 8/400 |
|