版塊導(dǎo)航: 正在加載中...

應(yīng)《網(wǎng)絡(luò)安全法》要求，自2017年10月1日起，未進(jìn)行實(shí)名認(rèn)證將不得使用互聯(lián)網(wǎng)跟帖服務(wù)。為保障您的帳號(hào)能夠正常使用，請(qǐng)盡快對(duì)帳號(hào)進(jìn)行手機(jī)號(hào)驗(yàn)證，感謝您的理解與支持！

24小時(shí)熱門版塊排行榜

返回列表

當(dāng)前只顯示滿足指定條件的回帖，點(diǎn)擊這里查看本話題的所有回帖

BlueGuy

榮譽(yù)版主 (正式寫手)

懶懶的小蟲蟲

應(yīng)助: 0 (幼兒園)
貴賓: 4.4
金幣: 2908.4
紅花: 3
帖子: 796
在線: 6.5小時(shí)
蟲號(hào): 50895
注冊(cè): 2004-07-15
性別: GG
專業(yè): 細(xì)胞增殖、生長(zhǎng)與分化

[交流] 生物信息學(xué)專題－生物版，醫(yī)學(xué)版和信息科學(xué)版共同創(chuàng)建已有2人參與

為進(jìn)一步建好小木蟲的專業(yè)學(xué)科版，現(xiàn)由生物版、醫(yī)學(xué)版和信息科學(xué)版共同創(chuàng)建生物信息學(xué)專題，歡迎大家積極參與！

引用回帖:

友情鏈接：生物版碩博研究生入學(xué)考試專題！重金懸賞！更新中......
http://www.gaoyang168.com/bbs/viewthread.php?tid=95236&fpage=2

[ Last edited by fishery on 2005-6-16 at 21:05 ]

回復(fù)此樓

» 收錄本帖的淘帖專輯推薦

生物信息學(xué)	高通量測(cè)序	生物信息-分析與挖掘	ENVIRON TECHNOL
劉安安

» 本帖已獲得的紅花（最新10朵）

凌波麗

爬坡的羊

» 猜你喜歡

考研求調(diào)劑已經(jīng)有4人回復(fù)
085601專碩，總分342求調(diào)劑，地區(qū)不限已經(jīng)有4人回復(fù)
085601材料工程專碩求調(diào)劑已經(jīng)有5人回復(fù)
一志愿天津大學(xué)化學(xué)工藝專業(yè)（081702）315分求調(diào)劑已經(jīng)有6人回復(fù)
能源材料化學(xué)課題組招收碩士研究生8-10名已經(jīng)有6人回復(fù)
296求調(diào)劑已經(jīng)有5人回復(fù)
0703化學(xué)調(diào)劑，六級(jí)已過，有科研經(jīng)歷已經(jīng)有8人回復(fù)
268求調(diào)劑已經(jīng)有8人回復(fù)
材料，紡織，生物（0856、0710），化學(xué)招生啦已經(jīng)有7人回復(fù)
301求調(diào)劑已經(jīng)有5人回復(fù)

» 本主題相關(guān)價(jià)值貼推薦，對(duì)您同樣有幫助:

生物信息學(xué) 已經(jīng)有184人回復(fù)
電子科技大學(xué)生物信息學(xué)方向招收3名調(diào)劑研究生已經(jīng)有29人回復(fù)
誠(chéng)招生物信息學(xué)博士研究生一位已經(jīng)有38人回復(fù)
【Journal Club】第3講水稻全基因組基因網(wǎng)絡(luò)生物信息學(xué)平臺(tái)的建立已經(jīng)有33人回復(fù)
生物信息學(xué) 找工作已經(jīng)有20人回復(fù)
華大基因發(fā)布生物信息學(xué)軟件已經(jīng)有11人回復(fù)
請(qǐng)問生物信息學(xué)的標(biāo)書形式審查完了沒？已經(jīng)有10人回復(fù)
【原創(chuàng)】電子科技大學(xué)生命學(xué)院2011年研究生調(diào)劑--生物信息學(xué) 已經(jīng)有20人回復(fù)
生物信息學(xué)網(wǎng)址(國(guó)外）已經(jīng)有22人回復(fù)

1樓 2005-06-07 16:19:29

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

BlueGuy

榮譽(yù)版主 (正式寫手)

懶懶的小蟲蟲

應(yīng)助: 0 (幼兒園)
貴賓: 4.4
金幣: 2908.4
紅花: 3
帖子: 796
在線: 6.5小時(shí)
蟲號(hào): 50895
注冊(cè): 2004-07-15
性別: GG
專業(yè): 細(xì)胞增殖、生長(zhǎng)與分化

★ ★
miRNA(金幣+2):謝謝！！

7 功能基因組相關(guān)信息分析

功能基因組學(xué)是后基因組研究的核心內(nèi)容，它強(qiáng)調(diào)發(fā)展和應(yīng)用整體的（基因組水平或系統(tǒng)水平）實(shí)驗(yàn)方法分析基因組序列信息闡明基因功能，特點(diǎn)是采用高通量的實(shí)驗(yàn)方法結(jié)合的大規(guī)模數(shù)據(jù)統(tǒng)計(jì)計(jì)算方法進(jìn)行研究，基本策略是從研究單一基因或蛋白上升到從系統(tǒng)角度一次研究所有基因或蛋白。隨著功能基因組實(shí)驗(yàn)研究的深入，大量的數(shù)據(jù)不斷涌現(xiàn)，生物信息學(xué)將在功能基因組學(xué)研究中的扮演關(guān)鍵角色。

7.1 大規(guī)�；虮磉_(dá)譜分析

隨著人類基因組測(cè)序逐漸接近完成，科學(xué)家發(fā)現(xiàn)即使獲得了完整基因圖譜，對(duì)了解生命活動(dòng)還有很大距離。我們從基因圖譜不知道基因表達(dá)的產(chǎn)物是否出現(xiàn)與何時(shí)出現(xiàn)；基因表達(dá)產(chǎn)物的濃度是多少；是否存在翻譯后的修飾過程，若存在是如何修飾的，等一系列問題。這些問題的實(shí)質(zhì)是不了解按照特定的時(shí)間、空間進(jìn)行的基因表達(dá)譜。獲得基因表達(dá)的信息是比DNA序列測(cè)定艱巨得多的任務(wù)，因?yàn)榛虮磉_(dá)是依賴于許多因素的動(dòng)態(tài)過程。

國(guó)際上在核酸和蛋白質(zhì)兩個(gè)層次上發(fā)展了分析基因表達(dá)譜的新技術(shù)，即核酸層次上的 cDNA 芯片（cDNA微陣列）技術(shù)和蛋白質(zhì)層次上的二維凝膠電泳和測(cè)序質(zhì)譜技術(shù)，即蛋白質(zhì)組(proteome)技術(shù)。DNA芯片技術(shù)能夠在基因組水平分析基因表達(dá)，檢測(cè)許多基因的轉(zhuǎn)錄水平。

對(duì)大規(guī)模基因表達(dá)譜的分析存在新的方法學(xué)問題，它們從數(shù)學(xué)角度看不是簡(jiǎn)單的NP問題、動(dòng)力系統(tǒng)問題或不確定性問題，而是基因表達(dá)網(wǎng)絡(luò)，因此需要發(fā)展新的方法和工具。同時(shí)，在芯片等的設(shè)計(jì)上，也需要從理論到軟件的支持

下面主要圍繞cDNA芯片相關(guān)的數(shù)據(jù)管理和分析問題進(jìn)行討論。

1．實(shí)驗(yàn)室信息管理系統(tǒng)

cDNA芯片實(shí)驗(yàn)的目的是要在一次實(shí)驗(yàn)中同時(shí)得到成千上萬個(gè)基因的表達(dá)行為，這樣的實(shí)驗(yàn)需要有管理實(shí)驗(yàn)前后大量數(shù)據(jù)的能力。設(shè)計(jì)構(gòu)建檢測(cè)基因表達(dá)的微陣列需要獲得生物體基因的所有序列、注釋和克隆。在雜交反應(yīng)和掃描后，收集到的數(shù)據(jù)必須以某種方式保存，以便很容易進(jìn)行圖象處理和統(tǒng)計(jì)及生物學(xué)分析。因此需要建立與大規(guī)模高通量實(shí)驗(yàn)方法相匹配的實(shí)驗(yàn)材料和信息管理系統(tǒng)。

該系統(tǒng)除用來定位和跟蹤材料來源（例如，克隆，微陣列，探針）外，還必須管理實(shí)驗(yàn)前后大量的數(shù)據(jù)。此外，還包括實(shí)驗(yàn)室設(shè)備軟件系統(tǒng)，如斯坦福大學(xué)Brown實(shí)驗(yàn)室免費(fèi)的控制自制機(jī)器點(diǎn)樣設(shè)備軟件（http://cmgm.standford.edu/pbrown）

芯片圖象處理已有各種軟件工具，基本的功能是將不同信號(hào)強(qiáng)度點(diǎn)的圖像轉(zhuǎn)換為每個(gè)點(diǎn)的強(qiáng)度數(shù)值。這方面沒有一致的方法，許多研究小組仍在開發(fā)這類軟件。圖象分析軟件的質(zhì)量對(duì)精確解釋玻片和膜上的信號(hào)非常關(guān)鍵。NHGRI的Yidong Chen開發(fā)了一種復(fù)雜的圖象分析程序，deArray,可免費(fèi)獲取。

美國(guó)國(guó)立衛(wèi)生研究院人類基因組研究所（NHGRI）開發(fā)的免費(fèi)的cDNA芯片數(shù)據(jù)管理分析系統(tǒng)ArrayDB，涉及微陣列的設(shè)計(jì)、實(shí)驗(yàn)室信息管理、實(shí)驗(yàn)結(jié)果的處理和解釋。下面加以簡(jiǎn)單介紹。

ArrayDB

ArrayDB是用來儲(chǔ)存、查詢和分析cDNA芯片實(shí)驗(yàn)信息的實(shí)驗(yàn)室管理系統(tǒng)。ArrayDB整合了cDNA芯片實(shí)驗(yàn)中的多個(gè)方面，包括數(shù)據(jù)管理、用戶介面、機(jī)器自動(dòng)點(diǎn)樣、掃描和圖象處理。ArrayDB中保存的數(shù)據(jù)包括實(shí)驗(yàn)來源、實(shí)驗(yàn)參數(shù)和條件以及原始的和經(jīng)處理的雜交結(jié)果。ArrayDB依托的關(guān)系數(shù)據(jù)庫儲(chǔ)存了芯片上每個(gè)克隆的相關(guān)信息，包括基因的簡(jiǎn)單描述、GenBank號(hào)、IMAGE克隆識(shí)別號(hào)、代謝途徑號(hào)和實(shí)驗(yàn)室內(nèi)部克隆號(hào)。ArrayDB還儲(chǔ)存了與cDNA芯片制造和實(shí)驗(yàn)條件的信息。包括點(diǎn)樣相關(guān)數(shù)據(jù)（點(diǎn)樣機(jī)器的參數(shù)）、環(huán)境條件（溫度、濕度、點(diǎn)樣針沖洗條件）等數(shù)據(jù)。此外，還保存了雜交探針和實(shí)驗(yàn)條件，包括研究者的姓名，研究目的和實(shí)驗(yàn)條件、組織細(xì)胞類型的文本描述。有關(guān)雜交的結(jié)果的信息包括掃描圖象（“原始”結(jié)果）、信號(hào)強(qiáng)度數(shù)據(jù)、信號(hào)強(qiáng)度比值和本底值。

ArrayDB的設(shè)計(jì)允許靈活地提取數(shù)據(jù)信息。設(shè)計(jì)策略允許不同來源的數(shù)據(jù)輸入，大多數(shù)克隆信息來自Unigene數(shù)據(jù)庫(包括序列的命名和獲取號(hào))。也允許新分離的還沒有獲取號(hào)及名稱的克隆的輸入。許多數(shù)據(jù)輸入和處理過程是自動(dòng)的。軟件會(huì)自動(dòng)掃描目錄查找新輸入數(shù)據(jù)庫中的信號(hào)強(qiáng)度數(shù)據(jù)無須人工輔助，其它自動(dòng)處理包括很方便地整合信號(hào)強(qiáng)度數(shù)據(jù)和克隆數(shù)據(jù)。

ArrayDB的Web界面能很方便地進(jìn)行不同類型信息的查詢，從克隆信息到信號(hào)強(qiáng)度值到分析結(jié)果。ArrayDB支持各種字段的數(shù)據(jù)查詢，例如克隆ID、標(biāo)題、實(shí)驗(yàn)編號(hào)、序列獲取號(hào)、微量滴定板編號(hào)以及相關(guān)克隆的結(jié)果。每個(gè)克隆的更多信息通過超文本鏈接至其他數(shù)據(jù)庫如dbEST、GenBank或Unigene，代謝途徑信息也可通過鏈接至KEGG得到。

通過序列相似性搜索可以有效地尋找目的基因。ArrayDB支持對(duì)10K/15K數(shù)據(jù)（軟件自帶數(shù)據(jù)）進(jìn)行BLASTN搜索以便確定目的基因是否已包含在芯片中。

ArrayDB能分析單個(gè)和多個(gè)實(shí)驗(yàn)產(chǎn)生的信號(hào)強(qiáng)度比值的類型和關(guān)系。ArrayViewer工具支持查詢和分析單個(gè)實(shí)驗(yàn)；MultiExperiment viewer工具支持多個(gè)實(shí)驗(yàn)數(shù)據(jù)。在下述網(wǎng)站可得到更詳細(xì)信息和相關(guān)軟件。

DeArray和ArrayDB網(wǎng)址： http://www.nhgri.nih.gov/DIR/LCG/15K/HTML

　

2．基因表達(dá)公共數(shù)據(jù)庫

數(shù)據(jù)庫用途

（1）基礎(chǔ)研究將來自各種生物的表達(dá)數(shù)據(jù)與其它各種分子生物學(xué)數(shù)據(jù)資源，如經(jīng)注釋的基因組序列、啟動(dòng)子、代謝途徑數(shù)據(jù)庫等結(jié)合，有助于理解基因調(diào)控網(wǎng)絡(luò)、代謝途徑、細(xì)胞分化和組織發(fā)育。例如，比較未知基因與已知基因表達(dá)譜的相似性能幫助推測(cè)未知基因的功能。

（2）醫(yī)學(xué)及藥學(xué)研究例如，如果特定的一些基因的高表達(dá)與某種腫瘤密切相關(guān)，可以研究這些或其它有相似表達(dá)譜的基因的表達(dá)的影響條件，或研究能降低表達(dá)水平的化合物（潛在藥物）。

（3）診斷研究通過對(duì)數(shù)據(jù)庫數(shù)據(jù)進(jìn)行基因表達(dá)譜的相似性比較對(duì)疾病早期診斷具有臨床價(jià)值。

（4）毒理學(xué)研究例如，了解大鼠某種基因?qū)μ囟ǘ緞┑姆磻?yīng)可幫助預(yù)測(cè)人的同源性基因的反應(yīng)情況。

（5）實(shí)驗(yàn)質(zhì)量控制和研究參考實(shí)驗(yàn)室樣本與數(shù)據(jù)庫中標(biāo)準(zhǔn)對(duì)照樣本比較能找出方法和設(shè)備問題。此外，還能提供其他研究者的研究現(xiàn)狀，避免重復(fù)實(shí)驗(yàn)，節(jié)約經(jīng)費(fèi)。

數(shù)據(jù)庫的特點(diǎn)和難點(diǎn)

目前急需建立標(biāo)準(zhǔn)注釋的公共數(shù)據(jù)庫，但這是生物信息學(xué)迄今面臨的最復(fù)雜且富有挑戰(zhàn)性的工作之一。主要困難來自對(duì)實(shí)驗(yàn)條件細(xì)節(jié)的描述，不精確的表達(dá)水平相對(duì)定量方法以及不斷增長(zhǎng)的龐大數(shù)據(jù)量。

目前所有的基因表達(dá)水平定量都是相對(duì)的：哪些基因差異表達(dá)僅僅是與另外一個(gè)實(shí)驗(yàn)比較而言，或者與相同實(shí)驗(yàn)的另一個(gè)基因的相比而言。這種方法不能確定mRNA的拷貝數(shù)，轉(zhuǎn)錄水平是總的細(xì)胞群的平均水平。結(jié)果導(dǎo)致采用不同技術(shù)進(jìn)行基因表達(dá)的檢測(cè)，甚至不同實(shí)驗(yàn)室采用相同技術(shù)，都有可能不能進(jìn)行比較。對(duì)不同來源數(shù)據(jù)的進(jìn)行比較有必要采取兩個(gè)步驟：首先，原始數(shù)據(jù)應(yīng)避免任何改動(dòng)，比如采取數(shù)據(jù)標(biāo)準(zhǔn)化（data-normalization）的方法。其次，在實(shí)驗(yàn)中設(shè)計(jì)使用標(biāo)準(zhǔn)化的對(duì)照探針和樣本以便給出參考點(diǎn)至少使來自同一實(shí)驗(yàn)平臺(tái)的數(shù)據(jù)標(biāo)準(zhǔn)化。

另一難點(diǎn)是對(duì)實(shí)驗(yàn)條件的描述，解決方法是對(duì)實(shí)驗(yàn)方法用采用規(guī)范化詞匯的文件描述：如基因名稱，物種，發(fā)育階段，組織或細(xì)胞系。還要考慮偶然的不受控制實(shí)驗(yàn)因素也可能影響表達(dá)：例如空氣濕度，甚至實(shí)驗(yàn)室的噪音水平。目前建立一種結(jié)構(gòu)能對(duì)將來實(shí)驗(yàn)設(shè)計(jì)的所有細(xì)節(jié)進(jìn)行描述顯然是不可能的。比較現(xiàn)實(shí)的解決辦法是大部分采用自由文本描述實(shí)驗(yàn)，同時(shí)盡可能加上有實(shí)用價(jià)值的結(jié)構(gòu)。DNA芯片實(shí)驗(yàn)的標(biāo)準(zhǔn)注釋必須采用一致的術(shù)語，這有待時(shí)間去發(fā)展。但目前，就應(yīng)采用盡可能合理的標(biāo)準(zhǔn)用于DNA芯片數(shù)據(jù)及其注釋。

標(biāo)準(zhǔn)化的基因表達(dá)公共數(shù)據(jù)庫要有五類必要的信息：

（1）聯(lián)系信息：提交數(shù)據(jù)的實(shí)驗(yàn)室或研究人員的信息。

（2）雜交靶探針信息：對(duì)陣列上的每個(gè)“點(diǎn)”，應(yīng)有相應(yīng)的DNA序列在公共數(shù)據(jù)庫中的編號(hào)。對(duì)cDNA陣列，克隆識(shí)別號(hào)（如IMAGE clone_id）應(yīng)給出。

（3）雜交樣本：細(xì)胞類型和組織來源用標(biāo)準(zhǔn)語言描述。常規(guī)診斷病理中使用的組織和組織病理詞匯可被采用，還可采用胚胎發(fā)育和器官發(fā)生中的標(biāo)準(zhǔn)詞匯。樣本來源種屬的分類學(xué)名稱（如Saccharomyces cerevisiae,Homo sapiens），應(yīng)當(dāng)提供。對(duì)有些生物體如嚙齒類動(dòng)物和微生物，品系資料需要提供。關(guān)于實(shí)驗(yàn)中生物體狀況的資料，如用藥或未用藥非常關(guān)鍵，也需提供�！澳[瘤與正�！被虿煌l(fā)育階段也該注明。細(xì)胞或生物體的遺傳背景或基因型在特定例子中也應(yīng)是重要的，如酵母基因缺失和轉(zhuǎn)基因鼠。最后，由于組織處理的會(huì)引起差別，故應(yīng)包括相關(guān)的詳細(xì)處理方法。

（4）mRNA轉(zhuǎn)錄定量：這方面非常關(guān)鍵，很難通過一組“持家基因”做內(nèi)參照進(jìn)行標(biāo)準(zhǔn)化，有關(guān)的具體定量方法應(yīng)提供。

（5）統(tǒng)計(jì)學(xué)意義：理想地，應(yīng)經(jīng)濟(jì)合理地有足夠的次數(shù)重復(fù)一個(gè)實(shí)驗(yàn)以便給出基因表達(dá)測(cè)定的變異情況，最好能提供合理的可信度值。

上述表達(dá)數(shù)據(jù)記錄的前兩個(gè)要求是簡(jiǎn)單的，第三個(gè)要求較困難需有標(biāo)準(zhǔn)術(shù)語協(xié)議，但這并不只是表達(dá)數(shù)據(jù)的要求，類似的要求已在公共序列數(shù)據(jù)庫或?qū)I(yè)化的數(shù)據(jù)庫中得到成功解決。目前基因表達(dá)數(shù)據(jù)最富有挑戰(zhàn)性的方面是最后兩個(gè)方面。

現(xiàn)狀和計(jì)劃

幾個(gè)大的芯片實(shí)驗(yàn)室如斯坦福大學(xué)和麻省理工學(xué)院Whitehead研究所等，在發(fā)展實(shí)驗(yàn)室內(nèi)部數(shù)據(jù)庫；大的商業(yè)化芯片公司如Affymetrix, Incyte,GeneLogic，正在開發(fā)基于Affymetrix芯片技術(shù)平臺(tái)的商業(yè)化基因表達(dá)數(shù)據(jù)庫。哈佛大學(xué)已經(jīng)建立了一個(gè)的數(shù)據(jù)庫，數(shù)據(jù)來自幾個(gè)公共來源并統(tǒng)一格式。賓夕法尼亞大學(xué)計(jì)算生物學(xué)和信息學(xué)實(shí)驗(yàn)室正在整合描述樣本的術(shù)語。

目前至少有3個(gè)大的公共基因表達(dá)數(shù)據(jù)庫項(xiàng)目：美國(guó)基因組資源國(guó)家中心的GeneX；美國(guó)國(guó)家生物技術(shù)信息中心（NCBI）的Gene Expression Omnibus;歐洲生物信息學(xué)研究所（EBI）的ArrayExpress.

歐美專家合作提出有關(guān)數(shù)據(jù)庫的初步標(biāo)準(zhǔn)：實(shí)驗(yàn)描述和數(shù)據(jù)表示的標(biāo)準(zhǔn)；芯片數(shù)據(jù)XML 交換格式；樣本描述的術(shù)語；標(biāo)準(zhǔn)化、質(zhì)量控制和跨平臺(tái)比較；數(shù)據(jù)查詢語言和數(shù)據(jù)挖掘途徑。（http://www.ebi.ac.uk/microarray/）。EBI與德國(guó)癌癥研究中心正在開發(fā)ArrayExpress , 一種與目前推薦標(biāo)準(zhǔn)兼容的基因表達(dá)數(shù)據(jù)庫。該數(shù)據(jù)庫將利用來自合作方的的數(shù)據(jù)，可操作的數(shù)據(jù)庫將于近期建立（http://www.ebi.ac.uk/arrayexpress）。

3．大規(guī)模基因表達(dá)譜數(shù)據(jù)分析方法

芯片分析能夠檢測(cè)不同條件下的基因轉(zhuǎn)錄變化，能夠顯示反映特征組織類型、發(fā)育階段、環(huán)境條件應(yīng)答、遺傳改變的基因譜。當(dāng)芯片數(shù)據(jù)大量出現(xiàn)，產(chǎn)生了新的問題：如果將所有獲得的數(shù)據(jù)集中起來，我們能否將未知功能的新基因歸類到已知功能分類中？能否將基因表達(dá)與基因功能聯(lián)系起來？能否發(fā)現(xiàn)新類型的共調(diào)控基因？能否從芯片表達(dá)數(shù)據(jù)中得出完整的基因調(diào)控網(wǎng)絡(luò)？這些唯有通過計(jì)算的方法�；蛑茍D及測(cè)序所面臨的問題與大規(guī)模基因表達(dá)分析的數(shù)學(xué)問題相比要小的多。這種新類型的表達(dá)數(shù)據(jù)使我們直接面對(duì)生物系統(tǒng)和基因組水平功能的復(fù)雜性，從生物系統(tǒng)單個(gè)成分的定性發(fā)展到完整生物系統(tǒng)行為的描述上來，這方面困難很多，目前只有很少的分析工具。

聚類分析（clustering analysis）是大規(guī)�；虮磉_(dá)譜目前最廣泛使用的統(tǒng)計(jì)技術(shù)，最近又發(fā)展了一種機(jī)器學(xué)習(xí)方法-支持向量機(jī)（support vector machines,SVMs）。這些分析方法均處在研究的初級(jí)階段，隨著大量數(shù)據(jù)及標(biāo)準(zhǔn)化數(shù)據(jù)庫的出現(xiàn)，其它數(shù)據(jù)挖掘技術(shù)包括神經(jīng)網(wǎng)絡(luò)和遺傳算法將在基因表達(dá)數(shù)據(jù)分析中得到應(yīng)用。

聚類分析

聚類通過把目標(biāo)數(shù)據(jù)放入少數(shù)相對(duì)同源的組或“類”（cluster）里。分析表達(dá)數(shù)據(jù)，（1）通過一系列的檢測(cè)將待測(cè)的一組基因的變異標(biāo)準(zhǔn)化，然后成對(duì)比較線性協(xié)方差。（2）通過把用最緊密關(guān)聯(lián)的譜來放基因進(jìn)行樣本聚類，例如用簡(jiǎn)單的層級(jí)聚類（hierarchical clustering）方法。這種聚類亦可擴(kuò)展到每個(gè)實(shí)驗(yàn)樣本，利用一組基因總的線性相關(guān)進(jìn)行聚類。（3）多維等級(jí)分析（multidimensional scaling analysis,MDS）是一種在二維Euclidean “距離”中顯示實(shí)驗(yàn)樣本相關(guān)的大約程度。（4）K-means方法聚類，通過重復(fù)再分配類成員來使“類”內(nèi)分散度最小化的方法。

聚類方法有兩個(gè)顯著的局限：首先，要聚類結(jié)果要明確就需分離度很好（well-separated）的數(shù)據(jù)。幾乎所有現(xiàn)存的算法都是從互相區(qū)別的不重疊的類數(shù)據(jù)中產(chǎn)生同樣的聚類。但是，如果類是擴(kuò)散且互相滲透，那么每種算法的的結(jié)果將有點(diǎn)不同。結(jié)果，每種算法界定的邊界不清，每種聚類算法得到各自的最適結(jié)果，每個(gè)數(shù)據(jù)部分將產(chǎn)生單一的信息。為解釋因不同算法使同樣數(shù)據(jù)產(chǎn)生不同結(jié)果，必須注意判斷不同的方式。對(duì)遺傳學(xué)家來說，正確解釋來自任一算法的聚類內(nèi)容的實(shí)際結(jié)果是困難的（特別是邊界）。最終，將需要經(jīng)驗(yàn)可信度通過序列比較來指導(dǎo)聚類解釋。

第二個(gè)局限由線性相關(guān)產(chǎn)生。上述的所有聚類方法分析的僅是簡(jiǎn)單的一對(duì)一的關(guān)系。因?yàn)橹皇浅蓪?duì)的線性比較，大大減少發(fā)現(xiàn)表達(dá)類型關(guān)系的計(jì)算量，但忽視了生物系統(tǒng)多因素和非線性的特點(diǎn)。

斯坦福大學(xué)的Michael Eisen開發(fā)的Windows平臺(tái)免費(fèi)芯片數(shù)據(jù)分析軟件CLUSTER和TREEVIEW，采用配對(duì)平均連鎖（pairwise average-linkage）聚類分析。這種方法中，每個(gè)不同的基因與其它的基因比較，鑒定最相關(guān)的基因?qū)�。這種基因?qū)Φ臄?shù)據(jù)用平均數(shù)替代，再重新計(jì)算關(guān)系矩陣，不斷重復(fù)這個(gè)過程。TREEVIEW對(duì)CLUSTER計(jì)算結(jié)果進(jìn)行圖形輸出，將芯片中的每個(gè)基因的表達(dá)比值用彩色方塊表示。

盡管CLUSTER軟件易于使用且直觀，但其算法仍有缺陷之處：實(shí)際數(shù)據(jù)由每次重復(fù)的平均數(shù)據(jù)替代；相似性測(cè)定的選擇（相關(guān)性/Eluclidean距離）；將等級(jí)模型用于非等級(jí)過程；成對(duì)比較矩陣的計(jì)算負(fù)擔(dān)。因此，出現(xiàn)了其它方法，包括自組織圖（self organizing maps,SOMs），二進(jìn)制決定-退火算法（binary deterministic-annealing algorithm）,k-means聚類等。Tamayo等提供Windows平臺(tái)的SOMs軟件包。

CLUSTER和TREEVIE下載網(wǎng)址：http://www.genome.standford.edu

基于知識(shí)挖掘的機(jī)器學(xué)習(xí)方法

最近發(fā)展了一種的有監(jiān)督的機(jī)器學(xué)習(xí)方法-支持向量機(jī)（support vector machines,SVMs）來分析表達(dá)數(shù)據(jù)，它通過訓(xùn)練一種“分類器”來辨識(shí)與已知的共調(diào)控基因表達(dá)類型相似的的新基因。與經(jīng)典的無監(jiān)督聚類方法（unsupervised clustering）和自組織圖（self-organizing maps）不同，該方法建立在已有的知識(shí)上并有改進(jìn)現(xiàn)有知識(shí)的潛力。

無監(jiān)督的聚類方法，例如層級(jí)（hierarchical）和K-means聚類，假設(shè)每個(gè)基因僅屬于一“類”（cluster）。這在生物學(xué)意義上當(dāng)然不是真實(shí)的。而且，事實(shí)上同一類基因不是必然意味著有相似的表達(dá)類型。比如，k-means聚類方法事先指定產(chǎn)生的“類”的數(shù)量及并將每個(gè)基因放在其最優(yōu)“類”，并不總是有意義。需要對(duì)類（cluster）進(jìn)行質(zhì)量評(píng)價(jià)，“類”的“嚴(yán)謹(jǐn)性”和外圍基因的存在（如果存在，它們與下一類的接近度）以及一組核心特征基因應(yīng)在質(zhì)量上保證。最重要的是應(yīng)考慮“類”是否有生物學(xué)意義。

與無監(jiān)督的方法產(chǎn)生基因的“類”相比，有監(jiān)督的學(xué)習(xí)方法是向已知的“類”學(xué)習(xí)。訓(xùn)練者必須提供SVMs以每個(gè)“類”正反兩方面的例子。SVMs提供一種層級(jí)的方法來分析芯片數(shù)據(jù)。首先，對(duì)每個(gè)基因，應(yīng)詢問最近的鄰居是否它與它們的關(guān)系是有生物學(xué)意義的。其次，對(duì)已知共調(diào)控基因，應(yīng)該詢問它們的表達(dá)類型是否相似，如果是這樣，還有哪些其它的基因有相同類型。這些在監(jiān)督階段可通過SVMs或優(yōu)化的SOMs來判斷。第三，應(yīng)該通過無監(jiān)督的學(xué)習(xí)方法進(jìn)行基因分類并詢問是否聚類有生物學(xué)意義并且包括外圍基因。最后，“類”可通過每個(gè)無監(jiān)督的“類”的核心基因訓(xùn)練SVMs的方法來檢測(cè)和優(yōu)化。

　

可視化

大規(guī)模基因表達(dá)數(shù)據(jù)挖掘另一重要方面是發(fā)展有力的數(shù)據(jù)可視化方法和工具。已經(jīng)發(fā)展了用簡(jiǎn)單圖形顯示提供聚類結(jié)果的途徑，如上述的TREEVIEW軟件。對(duì)大規(guī)�；虮磉_(dá)原始數(shù)據(jù)的進(jìn)行不失真的可視化并鏈接的標(biāo)注過的序列數(shù)據(jù)庫，可為基因表達(dá)分析提供非常有價(jià)值的工具，有助于從新的視角看待基因組水平的轉(zhuǎn)錄調(diào)控并建立模型。

　

7.2 基因組水平蛋白質(zhì)功能綜合預(yù)測(cè)

蛋白質(zhì)之間的功能聯(lián)系

基因組測(cè)序計(jì)劃在產(chǎn)生完全的組成多個(gè)亞單位裝配和信號(hào)通路的蛋白質(zhì)列表方面取得里程碑式的業(yè)績(jī)。這些裝配和通路現(xiàn)在必然被制圖，Marcotte等和Enright等在此方面走了顯著一步。這兩個(gè)研究小組發(fā)展了不是通過氨基酸序列相似性比較的其他特性聯(lián)系起蛋白質(zhì)的計(jì)算方法。通過比較系統(tǒng)發(fā)育（進(jìn)化）譜和表達(dá)類型，以及通過分析結(jié)構(gòu)域融合（domain fusions）新方法識(shí)別在代謝通路、信號(hào)通路或結(jié)構(gòu)復(fù)合體上功能相關(guān)的蛋白質(zhì)。酵母未定性蛋白大約一半總蛋白數(shù)約四分之一可用此方法進(jìn)行功能注釋。因?yàn)椴灰蕾囉谥苯拥男蛄邢嗨菩�，這種方法可預(yù)測(cè)與已知功能蛋白質(zhì)缺乏同源性的蛋白質(zhì)功能。將會(huì)發(fā)現(xiàn)它們?cè)诨蚪M學(xué)中的許多應(yīng)用，與大規(guī)模蛋白質(zhì)功能實(shí)驗(yàn)互為補(bǔ)充。

構(gòu)建通路和專配有用模型的信息來自實(shí)驗(yàn)，最重要的通過蛋白質(zhì)組學(xué)和結(jié)構(gòu)基因組學(xué)。蛋白質(zhì)組學(xué)的目標(biāo)是對(duì)所有的蛋白質(zhì)和蛋白相互作用進(jìn)行鑒定和定性。它包括采用大規(guī)模實(shí)驗(yàn)方法如雙雜交系統(tǒng)（two-hybrid system）、質(zhì)譜法(mass spectrometry,MS)、二維凝膠電泳（2D PAGE）和DNA芯片雜交（DNA microarray hybridization）。任務(wù)大小和復(fù)雜性可由下面的假定理解：每個(gè)蛋白質(zhì)有5-50個(gè)功能連鎖，結(jié)果在一個(gè)酵母細(xì)胞中就有30,000-300,000個(gè)連鎖。雖然實(shí)驗(yàn)已確定了約30%的酵母的功能，但是它們有時(shí)不是迅速廉價(jià)的，且不完全。因此需要用計(jì)算的方法來預(yù)測(cè)功能。

計(jì)算方法傳統(tǒng)上預(yù)測(cè)功能是通過與性質(zhì)明確蛋白質(zhì)的序列相似性比較。這樣標(biāo)注的可行性是因?yàn)檫M(jìn)化產(chǎn)生享有共同祖先的的同源性蛋白家族，因此有相似的序列、結(jié)構(gòu)，經(jīng)常還有功能。蛋白質(zhì)比較允許對(duì)酵母另30%的蛋白質(zhì)功能進(jìn)行研究。但是，通過同源性進(jìn)行功能預(yù)測(cè)受兩方面的因素制約。首先，它只能用于與已知功能蛋白質(zhì)有同源性的未知蛋白質(zhì)的功能預(yù)測(cè)。其次，不是總清楚匹配的蛋白質(zhì)何種功能特性為其共享，尤其對(duì)那些距離較遠(yuǎn)的匹配。

Marcotte等和Enright等并未受此限制，因?yàn)樗麄儾灰蕾嚺c未知蛋白質(zhì)與已知功能蛋白質(zhì)的序列相似性。而代替的是，將同樣通路和裝配的蛋白質(zhì)分組，定義為“功能連鎖”（functionally linked）.Marcotte等針對(duì)出芽酵畝基因組蛋白質(zhì)采用了三種不同的方法：系統(tǒng)發(fā)育譜（phylogenetic profiles），結(jié)構(gòu)域融合(domain-fusion analysis)和相關(guān)mRNA表達(dá)類型(correlated messenger RNA expression patterns)。Enright等獨(dú)立發(fā)展了結(jié)構(gòu)域融合分析，采用新的聚類算法用于三個(gè)原核基因組分析。

系統(tǒng)發(fā)育譜依賴于蛋白質(zhì)相關(guān)進(jìn)化。兩個(gè)蛋白質(zhì)是進(jìn)化相關(guān)的當(dāng)它們共有一個(gè)系統(tǒng)發(fā)育譜，定義為蛋白質(zhì)在一組基因組中的發(fā)生率類型。僅當(dāng)幾個(gè)完整的基因組比較時(shí)系統(tǒng)發(fā)育表達(dá)譜才能精確計(jì)算。兩個(gè)蛋白質(zhì)享有相似的系統(tǒng)發(fā)育譜被認(rèn)為是功能連鎖（functionally linked）。因此，根據(jù)系統(tǒng)發(fā)育譜進(jìn)行的蛋白質(zhì)聚類，當(dāng)未知蛋白質(zhì)與一個(gè)或更多的功能已知的蛋白質(zhì)歸為一組時(shí)能夠提供未知蛋白質(zhì)的功能信息。

結(jié)構(gòu)域融合的方法鑒定含有兩個(gè)分別在其它基因組的非同源性成分蛋白（component proteins）組成的融合蛋白(fusion proteins)。這樣的成分蛋白被認(rèn)為彼此物理上有相互作用。在兩個(gè)相互作用成分蛋白之間的界面（interface）更有可能進(jìn)化當(dāng)兩個(gè)蛋白融合為一條單一鏈。著名的例子是，從細(xì)菌到真菌的色氨酸合成酶的α和β亞單位。在一些方面，結(jié)構(gòu)域融合分析與從基因鄰近效應(yīng)（gene proximity）推測(cè)功能連鎖相似。

Marcotte等也通過關(guān)聯(lián)它們的mRNA表達(dá)類型來對(duì)酵母蛋白質(zhì)進(jìn)行分類。這些類型來自97組公共DNA芯片數(shù)據(jù)，顯示了大多數(shù)酵母蛋白質(zhì)在正常生長(zhǎng)、葡萄糖缺乏孢子形成和突變基因表達(dá)的條件下的表達(dá)變化。分析建立在認(rèn)為在一系列相同條件下表達(dá)水平相互關(guān)聯(lián)的蛋白質(zhì)是功能連鎖的。

新的功能注釋經(jīng)常是廣義的，限制蛋白質(zhì)的功能為，“代謝”或“轉(zhuǎn)錄”。即使隨機(jī)的一對(duì)蛋白質(zhì)也有50%的相似機(jī)率在這樣廣義的水平上。但是因?yàn)樽⑨屢话銇碜栽S多連鎖，比隨機(jī)連鎖信息量大3-8倍，在一些例子中與蛋白-蛋白相互作用的實(shí)驗(yàn)決定相比。例如，Marcotte等建立了新的MSH6的連鎖，在某些結(jié)腸癌中的DNA錯(cuò)配修復(fù)蛋白，屬于PMS1錯(cuò)配修復(fù)家族，其中的突變也與人結(jié)腸癌、嘌呤生物合成途徑、RNA修飾酶和一個(gè)未知的蛋白質(zhì)家族相關(guān)，這樣它們可以通過核酸修復(fù)或修飾來研究。

這樣的注釋精確度如何？能覆蓋多少比例的蛋白質(zhì)？這些問題只能部分提出，因?yàn)閰⒖嫉墓δ苓B鎖蛋白質(zhì)不是很容易得到。Marcotte和同事給酵母2,557個(gè)未知蛋白的一半預(yù)測(cè)了一般功能。他們估計(jì)成對(duì)預(yù)測(cè)來確定功能的近30%是錯(cuò)誤的，雖然兩到三種方法聯(lián)合應(yīng)用使錯(cuò)誤率降到15%。

Enright等通過結(jié)構(gòu)域融合在三個(gè)原核基因組中僅功能連鎖215個(gè)蛋白，但是非常少的估計(jì)假陽性。較少的功能連鎖率可能由于沒有系統(tǒng)發(fā)育譜和mRNA表達(dá)方法丟失了連鎖（作者沒有做這兩種方法），融合事件更嚴(yán)格的定義以及用較少的蛋白檢測(cè)融合。盡管假陽性和顯得粗糙的功能注釋，計(jì)算方法使得實(shí)驗(yàn)者將注意力集中在有希望的相互作用上。當(dāng)?shù)玫礁嗟幕蚪M數(shù)據(jù)，結(jié)構(gòu)域融合和系統(tǒng)發(fā)育譜的方法的預(yù)測(cè)數(shù)和精度將增加。

下一步將是提高方法預(yù)測(cè)蛋白質(zhì)功能的范圍、準(zhǔn)確度和精確性。這可能在理論上，通過考慮三維結(jié)構(gòu)來做，因?yàn)榈鞍踪|(zhì)的功能更多直接由它的結(jié)構(gòu)和動(dòng)力學(xué)而不是它的序列來決定。那么為什么在基因組學(xué)上結(jié)構(gòu)沒有序列用的廣泛呢？至少有兩個(gè)原因。首先，只有一部分蛋白質(zhì)有三維結(jié)構(gòu)數(shù)據(jù)。這種限制在幾年內(nèi)隨著結(jié)構(gòu)基因組學(xué)（structural genomics）的進(jìn)展而減少。結(jié)構(gòu)基因組學(xué)的目標(biāo)是確定大約10,000經(jīng)仔細(xì)挑選的蛋白質(zhì)結(jié)構(gòu)域的結(jié)構(gòu)，以便所有其它的蛋白質(zhì)序列能夠有很好的精確性建模。其次，能夠從結(jié)構(gòu)而不是從序列提取的功能細(xì)節(jié)依賴于細(xì)胞環(huán)境下的那種結(jié)構(gòu)的細(xì)節(jié)，同樣也依賴于它的動(dòng)力學(xué)和能量，所有這些在現(xiàn)有的實(shí)驗(yàn)和理論技術(shù)下難以獲得。

贊一下(5人)

回復(fù)此樓

9樓2005-06-07 17:15:06

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

查看全部 88 個(gè)回答

BlueGuy

榮譽(yù)版主 (正式寫手)

懶懶的小蟲蟲

應(yīng)助: 0 (幼兒園)
貴賓: 4.4
金幣: 2908.4
紅花: 3
帖子: 796
在線: 6.5小時(shí)
蟲號(hào): 50895
注冊(cè): 2004-07-15
性別: GG
專業(yè): 細(xì)胞增殖、生長(zhǎng)與分化

★
miRNA(金幣+1):謝謝��！

不錯(cuò)的高通量表達(dá)譜分析講座（轉(zhuǎn)自dxy）

贊一下(5人)

回復(fù)此樓

2樓2005-06-07 16:23:53

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

BlueGuy

榮譽(yù)版主 (正式寫手)

懶懶的小蟲蟲

應(yīng)助: 0 (幼兒園)
貴賓: 4.4
金幣: 2908.4
紅花: 3
帖子: 796
在線: 6.5小時(shí)
蟲號(hào): 50895
注冊(cè): 2004-07-15
性別: GG
專業(yè): 細(xì)胞增殖、生長(zhǎng)與分化

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ...
miRNA(金幣+2):謝謝！！
liubird(金幣+50):支持斑竹開展有意義的活動(dòng)！

概述

當(dāng)前人類基因組研究已進(jìn)入一個(gè)重要時(shí)期，2004年已獲得人類基因組的全部序列，這是基因組研究的轉(zhuǎn)折點(diǎn)和關(guān)鍵時(shí)刻，意味著人類基因組的研究將全面進(jìn)入信息提取和數(shù)據(jù)分析階段，即生物信息學(xué)發(fā)揮重要作用的階段。到1999年12月15日發(fā)布的第115版為止，GenBank中的DNA堿基數(shù)目已達(dá)46億5千萬，DNA序列數(shù)目達(dá)到535萬；其中EST序列超過339萬條； UniGene的數(shù)目已達(dá)到7萬個(gè)；已有25個(gè)模式生物的完整基因組被測(cè)序完成，另外的70個(gè)模式生物基因組正在測(cè)序當(dāng)中；到2005年初為止，人類基因組的序列完成測(cè)定；同時(shí)功能基因組和蛋白質(zhì)組的大量數(shù)據(jù)已開始涌現(xiàn)。如何分析這些數(shù)據(jù)，從中獲得生物結(jié)構(gòu)、功能的相關(guān)信息是基因組研究取得成果的決定性步驟。

生物信息學(xué)是在此背景下發(fā)展起來的綜合運(yùn)用生物學(xué)、數(shù)學(xué)、物理學(xué)、信息科學(xué)以及計(jì)算機(jī)科學(xué)等諸多學(xué)科的理論方法的嶄新交叉學(xué)科。生物信息學(xué)是內(nèi)涵非常豐富的學(xué)科，其核心是基因組信息學(xué)，包括基因組信息的獲取、處理、存儲(chǔ)、分配和解釋�；蚪M信息學(xué)的關(guān)鍵是“讀懂”基因組的核苷酸順序，即全部基因在染色體上的確切位置以及各DNA片段的功能；同時(shí)在發(fā)現(xiàn)了新基因信息之后進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測(cè)，然后依據(jù)特定蛋白質(zhì)的功能進(jìn)行藥物設(shè)計(jì)。了解基因表達(dá)的調(diào)控機(jī)理也是生物信息學(xué)的重要內(nèi)容，根據(jù)生物分子在基因調(diào)控中的作用，描述人類疾病的診斷、治療內(nèi)在規(guī)律。它的研究目標(biāo)是揭示"基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語言的根本規(guī)律"，解釋生命的遺傳語言。生物信息學(xué)已成為整個(gè)生命科學(xué)發(fā)展的重要組成部分，成為生命科學(xué)研究的前沿。

近來的研究表明，基因組不僅是基因的簡(jiǎn)單排列，它有其特有的組織結(jié)構(gòu)和信息結(jié)構(gòu)，這種結(jié)構(gòu)是在長(zhǎng)期的演化過程中產(chǎn)生的，也是基因發(fā)揮其功能所必須的。弄清楚生物體基因組特有的組織結(jié)構(gòu)和信息結(jié)構(gòu)，解譯生命的遺傳語言的關(guān)鍵。

目前在數(shù)據(jù)庫中已經(jīng)有越來越多的模式生物全基因組序列，第一個(gè)人類染色體全序列--第22號(hào)染色體的測(cè)序工作已經(jīng)在1999年12月完成，整個(gè)人類基因組計(jì)劃工作草圖將在最近完成。這無疑給基因組組織結(jié)構(gòu)和信息結(jié)構(gòu)的研究工作提供了大量的第一手材料，同時(shí)也為基因組研究取得突破性進(jìn)展提供了可能。人類對(duì)基因的認(rèn)識(shí)，將從以往的對(duì)單個(gè)基因的了解，上升到在整個(gè)基因組水平上考察基因的組織結(jié)構(gòu)和信息結(jié)構(gòu)，考察基因之間在位置、結(jié)構(gòu)和功能上的相互關(guān)系。

從目前生物信息學(xué)的研究情況來看，國(guó)際上公認(rèn)的生物信息學(xué)的研究?jī)?nèi)容，大致包括以下幾個(gè)方面：

生物信息的收集、存儲(chǔ)、管理與提供。包括建立國(guó)際基本生物信息庫和生物信息傳輸?shù)膰?guó)際聯(lián)網(wǎng)系統(tǒng)；建立生物信息數(shù)據(jù)質(zhì)量的評(píng)估與檢測(cè)系統(tǒng)；生物信息的在線服務(wù)；生物信息可視化和專家系統(tǒng)。
基因組序列信息的提取和分析。包括基因的發(fā)現(xiàn)與鑒定，如利用國(guó)際EST 數(shù)據(jù)庫 (dbEST) 和各自實(shí)驗(yàn)室測(cè)定的相應(yīng)數(shù)據(jù)，經(jīng)過大規(guī)模并行計(jì)算發(fā)現(xiàn)新基因和新SNPs以及各種功能位點(diǎn)；基因組中非編碼區(qū)的信息結(jié)構(gòu)分析，提出理論模型，闡明該區(qū)域的重要生物學(xué)功能；進(jìn)行模式生物完整基因組的信息結(jié)構(gòu)分析和比較研究；利用生物信息研究遺傳密碼起源、基因組結(jié)構(gòu)的演化、基因組空間結(jié)構(gòu)與DNA折疊的關(guān)系以及基因組信息與生物進(jìn)化關(guān)系等生物學(xué)的重大問題。
功能基因組相關(guān)信息分析。包括與大規(guī)�；虮磉_(dá)譜分析相關(guān)的算法、軟件研究，基因表達(dá)調(diào)控網(wǎng)絡(luò)的研究；與基因組信息相關(guān)的核酸、蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測(cè)和模擬，以及蛋白質(zhì)功能預(yù)測(cè)的研究。
生物大分子結(jié)構(gòu)模擬和藥物設(shè)計(jì)。包括RNA(核糖核酸)的結(jié)構(gòu)模擬和反義RNA的分子設(shè)計(jì)；蛋白質(zhì)空間結(jié)構(gòu)模擬和分子設(shè)計(jì)；具有不同功能域的復(fù)合蛋白質(zhì)以及連接肽的設(shè)計(jì)；生物活性分子的電子結(jié)構(gòu)計(jì)算和設(shè)計(jì)；納米生物材料的模擬與設(shè)計(jì)；基于酶和功能蛋白質(zhì)結(jié)構(gòu)、細(xì)胞表面受體結(jié)構(gòu)的藥物設(shè)計(jì)；基于DNA結(jié)構(gòu)的藥物設(shè)計(jì)等。
生物信息分析的技術(shù)與方法研究。包括發(fā)展有效的能支持大尺度作圖與測(cè)序需要的軟件、數(shù)據(jù)庫以及若干數(shù)據(jù)庫工具，諸如電子網(wǎng)絡(luò)等遠(yuǎn)程通訊工具；改進(jìn)現(xiàn)有的理論分析方法，如統(tǒng)計(jì)方法、模式識(shí)別方法、隱馬爾科夫過程方法、分維方法、神經(jīng)網(wǎng)絡(luò)方法、復(fù)雜性分析方法、密碼學(xué)方法、多序列比較方法等；創(chuàng)建一切適用于基因組信息分析的新方法、新技術(shù)。包括引入復(fù)雜系統(tǒng)分析技術(shù)、信息系統(tǒng)分析技術(shù)等；建立嚴(yán)格的多序列比較方法；發(fā)展與應(yīng)用密碼學(xué)方法以及其他算法和分析技術(shù)，用于解釋基因組的信息，探索DNA序列及其空間結(jié)構(gòu)信息的新表征；發(fā)展研究基因組完整信息結(jié)構(gòu)和信息網(wǎng)絡(luò)的研究方法等；發(fā)展生物大分子空間結(jié)構(gòu)模擬、電子結(jié)構(gòu)模擬和藥物設(shè)計(jì)的新方法與新技術(shù)。
應(yīng)用與發(fā)展研究。匯集與疾病相關(guān)的人類基因信息，發(fā)展患者樣品序列信息檢測(cè)技術(shù)和基于序列信息選擇表達(dá)載體、引物的技術(shù)，建立與動(dòng)植物良種繁育相關(guān)的數(shù)據(jù)庫以及與大分子設(shè)計(jì)和藥物設(shè)計(jì)相關(guān)的數(shù)據(jù)庫。
利用生物信息學(xué)方法進(jìn)行結(jié)構(gòu)功能預(yù)測(cè)要注意的是同一問題采用不同算法，可能產(chǎn)生相同或不同的結(jié)果。因此，必要弄清楚某種方法的基本原理，而不是僅把算法當(dāng)作一個(gè)“黑箱”。因?yàn)橐环N方法可能對(duì)特定實(shí)例很合適，而對(duì)另一個(gè)則完全不對(duì)。因此，本章采用原理和實(shí)用方法并重的原則進(jìn)行介紹。因生物信息學(xué)覆蓋面廣，限于篇幅，本章并未將生物信息學(xué)的全部?jī)?nèi)容詳細(xì)加以講述，僅針對(duì)與目前分子生物學(xué)實(shí)驗(yàn)數(shù)據(jù)分析密切相關(guān)的生物信息學(xué)策略及實(shí)用工具進(jìn)行扼要介紹，文中涉及問題的更詳細(xì)信息可參考相關(guān)網(wǎng)站。

[ Last edited by BlueGuy on 2005-6-7 at 16:47 ]

贊一下(15人)

回復(fù)此樓

3樓2005-06-07 16:44:41

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

BlueGuy

榮譽(yù)版主 (正式寫手)

懶懶的小蟲蟲

應(yīng)助: 0 (幼兒園)
貴賓: 4.4
金幣: 2908.4
紅花: 3
帖子: 796
在線: 6.5小時(shí)
蟲號(hào): 50895
注冊(cè): 2004-07-15
性別: GG
專業(yè): 細(xì)胞增殖、生長(zhǎng)與分化

★ ★
miRNA(金幣+1):謝謝！！
zhlpower(金幣+1):繼續(xù)加油

2 生物信息數(shù)據(jù)庫與查詢

近年來大量生物學(xué)實(shí)驗(yàn)的數(shù)據(jù)積累，形成了當(dāng)前數(shù)以百計(jì)的生物信息數(shù)據(jù)庫。它們各自按一定的目標(biāo)收集和整理生物學(xué)實(shí)驗(yàn)數(shù)據(jù)，并提供相關(guān)的數(shù)據(jù)查詢、數(shù)據(jù)處理的服務(wù)。隨著因特網(wǎng)的普及，這些數(shù)據(jù)庫大多可以通過網(wǎng)絡(luò)來訪問，或者通過網(wǎng)絡(luò)下載。

一般而言，這些生物信息數(shù)據(jù)庫可以分為一級(jí)數(shù)據(jù)庫和二級(jí)數(shù)據(jù)庫。一級(jí)數(shù)據(jù)庫的數(shù)據(jù)都直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù)，只經(jīng)過簡(jiǎn)單的歸類整理和注釋；二級(jí)數(shù)據(jù)庫是在一級(jí)數(shù)據(jù)庫、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定目標(biāo)衍生而來，是對(duì)生物學(xué)知識(shí)和信息的進(jìn)一步整理。國(guó)際上著名的一級(jí)核酸數(shù)據(jù)庫有Genbank數(shù)據(jù)庫、EMBL核酸庫和DDBJ庫等；蛋白質(zhì)序列數(shù)據(jù)庫有SWISS-PROT、PIR等；蛋白質(zhì)結(jié)構(gòu)庫有PDB等。國(guó)際上二級(jí)生物學(xué)數(shù)據(jù)庫非常多，它們因針對(duì)不同的研究?jī)?nèi)容和需要而各具特色，如人類基因組圖譜庫GDB、轉(zhuǎn)錄因子和結(jié)合位點(diǎn)庫TRANSFAC、蛋白質(zhì)結(jié)構(gòu)家族分類庫SCOP等等。

下面將順序簡(jiǎn)要介紹一些著名和有特色的生物信息數(shù)據(jù)庫。

2.1 基因和基因組數(shù)據(jù)庫

1. Genbank

Genbank庫包含了所有已知的核酸序列和蛋白質(zhì)序列，以及與它們相關(guān)的文獻(xiàn)著作和生物學(xué)注釋。它是由美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)建立和維護(hù)的。它的數(shù)據(jù)直接來源于測(cè)序工作者提交的序列；由測(cè)序中心提交的大量EST序列和其它測(cè)序數(shù)據(jù)；以及與其它數(shù)據(jù)機(jī)構(gòu)協(xié)作交換數(shù)據(jù)而來。Genbank每天都會(huì)與歐洲分子生物學(xué)實(shí)驗(yàn)室(EMBL)的數(shù)據(jù)庫，和日本的DNA數(shù)據(jù)庫(DDBJ)交換數(shù)據(jù)，使這三個(gè)數(shù)據(jù)庫的數(shù)據(jù)同步。到1999年8月，Genbank中收集的序列數(shù)量達(dá)到460萬條，34億個(gè)堿基，而且數(shù)據(jù)增長(zhǎng)的速度還在不斷加快。Genbank的數(shù)據(jù)可以從NCBI的FTP服務(wù)器上免費(fèi)下載完整的庫，或下載積累的新數(shù)據(jù)。NCBI還提供廣泛的數(shù)據(jù)查詢、序列相似性搜索以及其它分析服務(wù)，用戶可以從NCBI的主頁上找到這些服務(wù)。

Genbank庫里的數(shù)據(jù)按來源于約55,000個(gè)物種，其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列)。每條Genbank數(shù)據(jù)記錄包含了對(duì)序列的簡(jiǎn)要描述，它的科學(xué)命名，物種分類名稱，參考文獻(xiàn)，序列特征表，以及序列本身。序列特征表里包含對(duì)序列生物學(xué)特征注釋如：編碼區(qū)、轉(zhuǎn)錄單元、重復(fù)區(qū)域、突變位點(diǎn)或修飾位點(diǎn)等。所有數(shù)據(jù)記錄被劃分在若干個(gè)文件里，如細(xì)菌類、病毒類、靈長(zhǎng)類、嚙齒類，以及EST數(shù)據(jù)、基因組測(cè)序數(shù)據(jù)、大規(guī)模基因組序列數(shù)據(jù)等16類，其中EST數(shù)據(jù)等又被各自分成若干個(gè)文件。

(1)Genbank數(shù)據(jù)檢索

NCBI的數(shù)據(jù)庫檢索查詢系統(tǒng)是Entrez。Entrez是基于Web界面的綜合生物信息數(shù)據(jù)庫檢索系統(tǒng)。利用Entrez系統(tǒng)，用戶不僅可以方便地檢索Genbank的核酸數(shù)據(jù)，還可以檢索來自Genbank和其它數(shù)據(jù)庫的蛋白質(zhì)序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、來自分子模型數(shù)據(jù)庫(MMDB)的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群序列數(shù)據(jù)集、以及由PubMed獲得Medline的文獻(xiàn)數(shù)據(jù)。

Entrez提供了方便實(shí)用的檢索服務(wù)，所有操作都可以在網(wǎng)絡(luò)瀏覽器上完成。用戶可以利用Entrez界面上提供的限制條件(Limits)、索引(Index)、檢索歷史(History)和剪貼板(Clipboard)等功能來實(shí)現(xiàn)復(fù)雜的檢索查詢工作。對(duì)于檢索獲得的記錄，用戶可以選擇需要顯示的數(shù)據(jù)，保存查詢結(jié)果，甚至以圖形方式觀看檢索獲得的序列。更詳細(xì)的Entrez使用說明可以在該主頁上獲得。

(2)向Genbank提交序列數(shù)據(jù)

測(cè)序工作者可以把自己工作中獲得的新序列提交給NCBI，添加到Genbank數(shù)據(jù)庫。這個(gè)任務(wù)可以由基于Web界面的BankIt或獨(dú)立程序Sequin來完成。

BankIt是一系列表單，包括聯(lián)絡(luò)信息、發(fā)布要求、引用參考信息、序列來源信息、以及序列本身的信息等。用戶提交序列后，會(huì)從電子郵件收到自動(dòng)生成的數(shù)據(jù)條目，Genbank的新序列編號(hào)，以及完成注釋后的完整的數(shù)據(jù)記錄。用戶還可以在BankIt頁面下修改已經(jīng)發(fā)布序列的信息。BankIt適合于獨(dú)立測(cè)序工作者提交少量序列，而不適合大量序列的提交，也不適合提交很長(zhǎng)的序列，EST序列和GSS序列也不應(yīng)用BankIt提交。BankIt使用說明和對(duì)序列的要求可詳見其主頁面。

大量的序列提交可以由Sequin程序完成。Sequin程序能方便的編輯和處理復(fù)雜注釋，并包含一系列內(nèi)建的檢查函數(shù)來提高序列的質(zhì)量保證。它還被設(shè)計(jì)用于提交來自系統(tǒng)進(jìn)化、種群和突變研究的序列，可以加入比對(duì)的數(shù)據(jù)。Sequin除了用于編輯和修改序列數(shù)據(jù)記錄，還可以用于序列的分析，任何以FASTA或ASN.1格式序列為輸入數(shù)據(jù)的序列分析程序都可以整合到Sequin程序下。在不同操作系統(tǒng)下運(yùn)行的Sequin程序都可以在ftp://ncbi.nlm.nih.gov/sequin/下找到，Sequin的使用說明可詳見其網(wǎng)頁。

NCBI的網(wǎng)址是：http://www.ncbi.nlm.nih.gov。

Entrez的網(wǎng)址是：http://www.ncbi.nlm.nih.gov/entrez/。

BankIt的網(wǎng)址是：http://www.ncbi.nlm.nih.gov/BankIt。

Sequin的相關(guān)網(wǎng)址是：http://www.ncbi.nlm.nih.gov/Sequin/。

2. EMBL核酸序列數(shù)據(jù)庫

EMBL核酸序列數(shù)據(jù)庫由歐洲生物信息學(xué)研究所(EBI)維護(hù)的核酸序列數(shù)據(jù)構(gòu)成，由于與Genbank和DDBJ的數(shù)據(jù)合作交換，它也是一個(gè)全面的核酸序列數(shù)據(jù)庫。該數(shù)據(jù)庫由Oracal數(shù)據(jù)庫系統(tǒng)管理維護(hù)，查詢檢索可以通過通過因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務(wù)完成。向EMBL核酸序列數(shù)據(jù)庫提交序列可以通過基于Web的WEBIN工具，也可以用Sequin軟件來完成。

數(shù)據(jù)庫網(wǎng)址是：http://www.ebi.ac.uk/embl/。

SRS的網(wǎng)址是：http://srs.ebi.ac.uk/。

WEBIN的網(wǎng)址是：http://www.ebi.ac.uk/embl/Submission/webin.html。

3. DDBJ數(shù)據(jù)庫

日本DNA數(shù)據(jù)倉庫(DDBJ)也是一個(gè)全面的核酸序列數(shù)據(jù)庫，與Genbank和EMBL核酸庫合作交換數(shù)據(jù)�？梢允褂闷渲黜撋咸峁┑腟RS工具進(jìn)行數(shù)據(jù)檢索和序列分析�？梢杂肧equin軟件向該數(shù)據(jù)庫提交序列。

DDBJ的網(wǎng)址是：http://www.ddbj.nig.ac.jp/。

4. GDB

基因組數(shù)據(jù)庫(GDB)為人類基因組計(jì)劃(HGP)保存和處理基因組圖譜數(shù)據(jù)。GDB的目標(biāo)是構(gòu)建關(guān)于人類基因組的百科全書，除了構(gòu)建基因組圖譜之外，還開發(fā)了描述序列水平的基因組內(nèi)容的方法，包括序列變異和其它對(duì)功能和表型的描述。目前GDB中有：人類基因組區(qū)域(包括基因、克隆、amplimers PCR 標(biāo)記、斷點(diǎn)breakpoints、細(xì)胞遺傳標(biāo)記cytogenetic markers、易碎位點(diǎn)fragile sites、EST序列、綜合區(qū)域syndromic regions、contigs和重復(fù)序列)；人類基因組圖譜(包括細(xì)胞遺傳圖譜、連接圖譜、放射性雜交圖譜、content contig圖譜和綜合圖譜等)；人類基因組內(nèi)的變異(包括突變和多態(tài)性，加上等位基因頻率數(shù)據(jù))。GDB數(shù)據(jù)庫以對(duì)象模型來保存數(shù)據(jù)，提供基于Web的數(shù)據(jù)對(duì)象檢索服務(wù)，用戶可以搜索各種類型的對(duì)象，并以圖形方式觀看基因組圖譜。

GDB的網(wǎng)址是：http://www.gdb.org。

GDB的國(guó)內(nèi)鏡像是：http://gdb.pku.edu.cn/gdb/。

2.2 蛋白質(zhì)數(shù)據(jù)庫

1. PIR和PSD

PIR國(guó)際蛋白質(zhì)序列數(shù)據(jù)庫(PSD)是由蛋白質(zhì)信息資源(PIR)、慕尼黑蛋白質(zhì)序列信息中心(MIPS)和日本國(guó)際蛋白質(zhì)序列數(shù)據(jù)庫(JIPID)共同維護(hù)的國(guó)際上最大的公共蛋白質(zhì)序列數(shù)據(jù)庫。這是一個(gè)全面的、經(jīng)過注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫，包含超過142,000條蛋白質(zhì)序列(至99年9月)，其中包括來自幾十個(gè)完整基因組的蛋白質(zhì)序列。所有序列數(shù)據(jù)都經(jīng)過整理，超過99%的序列已按蛋白質(zhì)家族分類，一半以上還按蛋白質(zhì)超家族進(jìn)行了分類。PSD的注釋中還包括對(duì)許多序列、結(jié)構(gòu)、基因組和文獻(xiàn)數(shù)據(jù)庫的交叉索引，以及數(shù)據(jù)庫內(nèi)部條目之間的索引，這些內(nèi)部索引幫助用戶在包括復(fù)合物、酶－底物相互作用、活化和調(diào)控級(jí)聯(lián)和具有共同特征的條目之間方便的檢索。每季度都發(fā)行一次完整的數(shù)據(jù)庫，每周可以得到更新部分。

PSD數(shù)據(jù)庫有幾個(gè)輔助數(shù)據(jù)庫，如基于超家族的非冗余庫等。PIR提供三類序列搜索服務(wù)：基于文本的交互式檢索；標(biāo)準(zhǔn)的序列相似性搜索，包括BLAST、FASTA等；結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級(jí)搜索，包括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索GeneFIND等。

PIR和PSD的網(wǎng)址是：http://pir.georgetown.edu/。

數(shù)據(jù)庫下載地址是：ftp://nbrfa.georgetown.edu/pir/。

2. SWISS-PROT

SWISS-PROT是經(jīng)過注釋的蛋白質(zhì)序列數(shù)據(jù)庫，由歐洲生物信息學(xué)研究所(EBI)維護(hù)。數(shù)據(jù)庫由蛋白質(zhì)序列條目構(gòu)成，每個(gè)條目包含蛋白質(zhì)序列、引用文獻(xiàn)信息、分類學(xué)信息、注釋等，注釋中包括蛋白質(zhì)的功能、轉(zhuǎn)錄后修飾、特殊位點(diǎn)和區(qū)域、二級(jí)結(jié)構(gòu)、四級(jí)結(jié)構(gòu)、與其它序列的相似性、序列殘缺與疾病的關(guān)系、序列變異體和沖突等信息。SWISS-PROT中盡可能減少了冗余序列，并與其它30多個(gè)數(shù)據(jù)建立了交叉引用，其中包括核酸序列庫、蛋白質(zhì)序列庫和蛋白質(zhì)結(jié)構(gòu)庫等。

利用序列提取系統(tǒng)(SRS)可以方便地檢索SWISS-PROT和其它EBI的數(shù)據(jù)庫。

SWISS-PROT只接受直接測(cè)序獲得的蛋白質(zhì)序列，序列提交可以在其Web頁面上完成。

SWISS-PROT的網(wǎng)址是：http://www.ebi.ac.uk/swissprot/。

3. PROSITE

PROSITE數(shù)據(jù)庫收集了生物學(xué)有顯著意義的蛋白質(zhì)位點(diǎn)和序列模式，并能根據(jù)這些位點(diǎn)和模式快速和可靠地鑒別一個(gè)未知功能的蛋白質(zhì)序列應(yīng)該屬于哪一個(gè)蛋白質(zhì)家族。有的情況下，某個(gè)蛋白質(zhì)與已知功能蛋白質(zhì)的整體序列相似性很低，但由于功能的需要保留了與功能密切相關(guān)的序列模式，這樣就可能通過PROSITE的搜索找到隱含的功能motif，因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點(diǎn)、配體結(jié)合位點(diǎn)、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等；除了序列模式之外，PROSITE還包括由多序列比對(duì)構(gòu)建的profile，能更敏感地發(fā)現(xiàn)序列與profile的相似性。PROSITE的主頁上提供各種相關(guān)檢索服務(wù)。

PROSITE的網(wǎng)址是：http://www.expasy.ch/prosite/。

4. PDB

蛋白質(zhì)數(shù)據(jù)倉庫(PDB)是國(guó)際上唯一的生物大分子結(jié)構(gòu)數(shù)據(jù)檔案庫，由美國(guó)Brookhaven國(guó)家實(shí)驗(yàn)室建立。PDB收集的數(shù)據(jù)來源于X光晶體衍射和核磁共振(NMR)的數(shù)據(jù)，經(jīng)過整理和確認(rèn)后存檔而成。目前PDB數(shù)據(jù)庫的維護(hù)由結(jié)構(gòu)生物信息學(xué)研究合作組織(RCSB)負(fù)責(zé)。RCSB的主服務(wù)器和世界各地的鏡像服務(wù)器提供數(shù)據(jù)庫的檢索和下載服務(wù)，以及關(guān)于PDB數(shù)據(jù)文件格式和其它文檔的說明，PDB數(shù)據(jù)還可以從發(fā)行的光盤獲得。使用Rasmol等軟件可以在計(jì)算機(jī)上按PDB文件顯示生物大分子的三維結(jié)構(gòu)。

RCSB的PDB數(shù)據(jù)庫網(wǎng)址是：http://www.rcsb.org/pdb/。

5. SCOP

蛋白質(zhì)結(jié)構(gòu)分類(SCOP)數(shù)據(jù)庫詳細(xì)描述了已知的蛋白質(zhì)結(jié)構(gòu)之間的關(guān)系。分類基于若干層次：家族，描述相近的進(jìn)化關(guān)系；超家族，描述遠(yuǎn)源的進(jìn)化關(guān)系；折疊子(fold)，描述空間幾何結(jié)構(gòu)的關(guān)系；折疊類，所有折疊子被歸于全α、全β、α/β、α＋β和多結(jié)構(gòu)域等幾個(gè)大類。SCOP還提供一個(gè)非冗余的ASTRAIL序列庫，這個(gè)庫通常被用來評(píng)估各種序列比對(duì)算法。此外，SCOP還提供一個(gè)PDB-ISL中介序列庫，通過與這個(gè)庫中序列的兩兩比對(duì)，可以找到與未知結(jié)構(gòu)序列遠(yuǎn)緣的已知結(jié)構(gòu)序列。

SCOP的網(wǎng)址是：http://scop.mrc-lmb.cam.ac.uk/scop/。

6. COG

蛋白質(zhì)直系同源簇(COGs)數(shù)據(jù)庫是對(duì)細(xì)菌、藻類和真核生物的21個(gè)完整基因組的編碼蛋白，根據(jù)系統(tǒng)進(jìn)化關(guān)系分類構(gòu)建而成。COG庫對(duì)于預(yù)測(cè)單個(gè)蛋白質(zhì)的功能和整個(gè)新基因組中蛋白質(zhì)的功能都很有用。利用COGNITOR程序，可以把某個(gè)蛋白質(zhì)與所有COGs中的蛋白質(zhì)進(jìn)行比對(duì)，并把它歸入適當(dāng)?shù)腃OG簇。COG庫提供了對(duì)COG分類數(shù)據(jù)的檢索和查詢，基于Web的COGNITOR服務(wù)，系統(tǒng)進(jìn)化模式的查詢服務(wù)等。

COG庫的網(wǎng)址是：http://www.ncbi.nlm.nih.gov/COG。

下載COG庫和COGNITOR程序在：ftp://ncbi.nlm.nih.gov/pub/COG。

2.3 功能數(shù)據(jù)庫

1. KEGG

京都基因和基因組百科全書(KEGG)是系統(tǒng)分析基因功能，聯(lián)系基因組信息和功能信息的知識(shí)庫�；蚪M信息存儲(chǔ)在GENES數(shù)據(jù)庫里，包括完整和部分測(cè)序的基因組序列；更高級(jí)的功能信息存儲(chǔ)在PATHWAY數(shù)據(jù)庫里，包括圖解的細(xì)胞生化過程如代謝、膜轉(zhuǎn)運(yùn)、信號(hào)傳遞、細(xì)胞周期，還包括同系保守的子通路等信息；KEGG的另一個(gè)數(shù)據(jù)庫是LIGAND，包含關(guān)于化學(xué)物質(zhì)、酶分子、酶反應(yīng)等信息。KEGG提供了Java的圖形工具來訪問基因組圖譜，比較基因組圖譜和操作表達(dá)圖譜，以及其它序列比較、圖形比較和通路計(jì)算的工具，可以免費(fèi)獲取。

KEGG的網(wǎng)址是：。

2. DIP

相互作用的蛋白質(zhì)數(shù)據(jù)庫(DIP)收集了由實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)－蛋白質(zhì)相互作用。數(shù)據(jù)庫包括蛋白質(zhì)的信息、相互作用的信息和檢測(cè)相互作用的實(shí)驗(yàn)技術(shù)三個(gè)部分。用戶可以根據(jù)蛋白質(zhì)、生物物種、蛋白質(zhì)超家族、關(guān)鍵詞、實(shí)驗(yàn)技術(shù)或引用文獻(xiàn)來查詢DIP數(shù)據(jù)庫。

DIP的網(wǎng)址是：http://dip.doe-mbi.ucla.edu/。

3. ASDB

可變剪接數(shù)據(jù)庫(ASDB)包括蛋白質(zhì)庫和核酸庫兩部分。ASDB(蛋白質(zhì))部分來源于SWISS-PROT蛋白質(zhì)序列庫，通過選取有可變剪接注釋的序列，搜索相關(guān)可變剪接的序列，經(jīng)過序列比對(duì)、篩選和分類構(gòu)建而成。ASDB(核酸)部分來自Genbank中提及和注釋的可變剪接的完整基因構(gòu)成。數(shù)據(jù)庫提供了方便的搜索服務(wù)。

ASDB的網(wǎng)址是：http://cbcg.nersc.gov/asdb。

4. TRRD

轉(zhuǎn)錄調(diào)控區(qū)數(shù)據(jù)庫(TRRD)是在不斷積累的真核生物基因調(diào)控區(qū)結(jié)構(gòu)－功能特性信息基礎(chǔ)上構(gòu)建的。每一個(gè)TRRD的條目里包含特定基因各種結(jié)構(gòu)－功能特性：轉(zhuǎn)錄因子結(jié)合位點(diǎn)、啟動(dòng)子、增強(qiáng)子、靜默子、以及基因表達(dá)調(diào)控模式等。TRRD包括五個(gè)相關(guān)的數(shù)據(jù)表：TRRDGENES(包含所有TRRD庫基因的基本信息和調(diào)控單元信息)；TRRDSITES(包括調(diào)控因子結(jié)合位點(diǎn)的具體信息)；TRRDFACTORS(包括TRRD中與各個(gè)位點(diǎn)結(jié)合的調(diào)控因子的具體信息)；TRRDEXP(包括對(duì)基因表達(dá)模式的具體描述)；TRRDBIB(包括所有注釋涉及的參考文獻(xiàn))。TRRD主頁提供了對(duì)這幾個(gè)數(shù)據(jù)表的檢索服務(wù)。

TRRD的網(wǎng)址是：http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/。

5. TRANSFAC

TRANSFAC數(shù)據(jù)庫是關(guān)于轉(zhuǎn)錄因子、它們?cè)诨蚪M上的結(jié)合位點(diǎn)和與DNA結(jié)合的profiles的數(shù)據(jù)庫。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等數(shù)據(jù)表構(gòu)成。此外，還有幾個(gè)與TRANSFAC密切相關(guān)的擴(kuò)展庫：PATHODB庫收集了可能導(dǎo)致病態(tài)的突變的轉(zhuǎn)錄因子和結(jié)合位點(diǎn)；S/MART DB收集了與染色體結(jié)構(gòu)變化相關(guān)的蛋白因子和位點(diǎn)的信息；TRANSPATH庫用于描述與轉(zhuǎn)錄因子調(diào)控相關(guān)的信號(hào)傳遞的網(wǎng)絡(luò)；CYTOMER庫表現(xiàn)了人類轉(zhuǎn)錄因子在各個(gè)器官、細(xì)胞類型、生理系統(tǒng)和發(fā)育時(shí)期的表達(dá)狀況。TRANSFAC及其相關(guān)數(shù)據(jù)庫可以免費(fèi)下載，也可以通過Web進(jìn)行檢索和查詢。

TRANSFAC的網(wǎng)址是：http://transfac.gbf.de/TRANSFAC/。

2.4 其它數(shù)據(jù)庫資源

1. DBCat

DBCat是生物信息數(shù)據(jù)庫的目錄數(shù)據(jù)庫，它收集了500多個(gè)生物信息學(xué)數(shù)據(jù)庫的信息，并根據(jù)它們的應(yīng)用領(lǐng)域進(jìn)行了分類。包括DNA、RNA、蛋白質(zhì)、基因組、圖譜、蛋白質(zhì)結(jié)構(gòu)、文獻(xiàn)著作等基本類型。數(shù)據(jù)庫可以免費(fèi)下載或在網(wǎng)絡(luò)上檢索查詢。

DBCat的網(wǎng)址是：http://www.infobiogen.fr/services/dbcat/。

下載DBCat在：ftp://ftp.infobiogen.fr/pub/db/dbcat。

2. PubMed

PubMed是NCBI維護(hù)的文獻(xiàn)引用數(shù)據(jù)庫，提供對(duì)MEDLINE、Pre-MEDLINE等文獻(xiàn)數(shù)據(jù)庫的引用查詢和對(duì)大量網(wǎng)絡(luò)科學(xué)類電子期刊的鏈接。利用Entrez系統(tǒng)可以對(duì)PubMed進(jìn)行方便的查詢檢索。

PubMed的網(wǎng)址是：http://www.ncbi.nlm.nih.gov/。

除了以上提及的數(shù)據(jù)之外，還有許許多多的專門生物信息數(shù)據(jù)庫，涉及了目前生物學(xué)研究的各個(gè)層面和領(lǐng)域，由于篇幅所限無法一一詳述。國(guó)內(nèi)也有一些大數(shù)據(jù)庫的鏡像站點(diǎn)和自己開發(fā)的有特色的數(shù)據(jù)庫，如歐洲分子生物學(xué)網(wǎng)絡(luò)組織EMBNet中國(guó)節(jié)點(diǎn)北京大學(xué)分子生物信息鏡像系統(tǒng)，上海博容基因公司與上海嘉瑞軟件公司合作開發(fā)的國(guó)產(chǎn)漢化基因數(shù)據(jù)庫及分析管理系統(tǒng)，同時(shí)國(guó)家級(jí)的生物信息學(xué)中心也在籌建之中。我們期待國(guó)內(nèi)能有更多高質(zhì)量和使用便利的數(shù)據(jù)庫資源，推動(dòng)我國(guó)生物信息學(xué)和整個(gè)生命科學(xué)的發(fā)展。

清華大學(xué)生物信息學(xué)研究所網(wǎng)址：http://bioinfo.tsinghua.edu.cn

北京大學(xué)生物信息鏡像系統(tǒng)網(wǎng)址：http://cbi.pku.edu.cn

贊一下(10人)

回復(fù)此樓

4樓2005-06-07 16:46:06

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

查看全部 88 個(gè)回答

普通表情龍兔虎貓高級(jí)回復(fù) (可上傳附件)

最具人氣熱帖推薦 [查看全部]		作者	回/看	最后發(fā)表

[考研] 能源材料化學(xué)課題組招收碩士研究生8-10名 +3	脫穎而出 2026-03-16	6/300	2026-03-17 21:19 by z1z2z3879
[考研] 0703化學(xué)調(diào)劑，六級(jí)已過，有科研經(jīng)歷 +8	曦熙兮 2026-03-15	8/400	2026-03-17 20:31 by xilongliang
[考研] 材料工程專碩調(diào)劑 +5	204818@lcx 2026-03-17	5/250	2026-03-17 17:27 by Little-xue
[考研] 303求調(diào)劑 +3	睿08 2026-03-17	3/150	2026-03-17 15:24 by 哦哦123
[考博] 26申博 +4	八旬速覽 2026-03-16	4/200	2026-03-17 13:00 by 輕松不少隨
[基金申請(qǐng)] 國(guó)自科面上基金字體 +6	iwuli 2026-03-12	7/350	2026-03-16 21:18 by sculhf
[基金申請(qǐng)] 今年的國(guó)基金是打分制嗎？ 50+3	zhanghaozhu 2026-03-14	3/150	2026-03-16 17:07 by 北京萊茵潤(rùn)色
[考研] 285求調(diào)劑 +6	ytter 2026-03-12	6/300	2026-03-16 15:05 by njzyff
[考研] 材料與化工一志愿南昌大學(xué)327求調(diào)劑推薦 +7	Ncdx123456 2026-03-13	8/400	2026-03-16 12:15 by karry wen
[考研] 331求調(diào)劑（0703有機(jī)化學(xué) +5	ZY-05 2026-03-13	6/300	2026-03-14 10:51 by Jy?
[考研] 285 求調(diào)劑資源與環(huán)境一志愿北京化工大學(xué) +3	未名考生 2026-03-10	3/150	2026-03-13 23:04 by JourneyLucky
[碩博家園] 085600 260分求調(diào)劑 +3	天空還下雨么 2026-03-13	5/250	2026-03-13 18:46 by 天空還下雨么
[考研] 310求調(diào)劑 +3	【上上簽】 2026-03-11	3/150	2026-03-13 16:16 by JourneyLucky
[考研] 307求調(diào)劑 +5	超級(jí)伊昂大王 2026-03-12	5/250	2026-03-13 15:56 by 棒棒球手
[考研] 314求調(diào)劑 +7	無懈可擊的巨人 2026-03-12	7/350	2026-03-13 15:40 by JourneyLucky
[考研] 土木第一志愿276求調(diào)劑，科研和技能十分豐富，求新興方向的導(dǎo)師收留 +3	土木小天才 2026-03-12	3/150	2026-03-13 15:01 by JourneyLucky
[考研] 328化工專碩求調(diào)劑 +4	。，。，。，。i 2026-03-12	4/200	2026-03-13 14:44 by JourneyLucky
[考研] 0817化學(xué)工程與技術(shù)考研312分調(diào)劑 +3	T123 tt 2026-03-12	3/150	2026-03-13 10:49 by houyaoxu
[考研] 求調(diào)劑資源與環(huán)境 285 +3	未名考生 2026-03-10	3/150	2026-03-13 10:31 by houyaoxu
[考研] 大連大學(xué)化學(xué)專業(yè)研究生調(diào)劑 +3	琪久. 2026-03-10	8/400	2026-03-11 10:02 by 琪久.

亭亭五月天在线观看,亭亭五月天在线观看,国产最新av一区二区,国产 高清 中文字幕,99re热久久亚洲综合精品成人,熟妇 一区二区三区,一级做a爰片性色毛片武则天,美女的骚穴视频播放,国产美女午夜免费视频

24小時(shí)熱門版塊排行榜

BlueGuy

[交流] 生物信息學(xué)專題－生物版，醫(yī)學(xué)版和信息科學(xué)版共同創(chuàng)建 已有2人參與

» 收錄本帖的淘帖專輯推薦

» 本帖已獲得的紅花（最新10朵）

» 猜你喜歡

» 本主題相關(guān)價(jià)值貼推薦，對(duì)您同樣有幫助:

BlueGuy

BlueGuy

BlueGuy

BlueGuy

亭亭五月天在线观看,亭亭五月天在线观看,国产最新av一区二区,国产高清中文字幕,99re热久久亚洲综合精品成人,熟妇一区二区三区,一级做a爰片性色毛片武则天,美女的骚穴视频播放,国产美女午夜免费视频

[交流] 生物信息學(xué)專題－生物版，醫(yī)學(xué)版和信息科學(xué)版共同創(chuàng)建已有2人參與

» 本主題相關(guān)價(jià)值貼推薦，對(duì)您同樣有幫助: