版塊導(dǎo)航: 正在加載中...

應(yīng)《網(wǎng)絡(luò)安全法》要求，自2017年10月1日起，未進(jìn)行實(shí)名認(rèn)證將不得使用互聯(lián)網(wǎng)跟帖服務(wù)。為保障您的帳號(hào)能夠正常使用，請(qǐng)盡快對(duì)帳號(hào)進(jìn)行手機(jī)號(hào)驗(yàn)證，感謝您的理解與支持！

24小時(shí)熱門(mén)版塊排行榜

返回列表

當(dāng)前只顯示滿足指定條件的回帖，點(diǎn)擊這里查看本話題的所有回帖

BlueGuy

榮譽(yù)版主 (正式寫(xiě)手)

懶懶的小蟲(chóng)蟲(chóng)

應(yīng)助: 0 (幼兒園)
貴賓: 4.4
金幣: 2908.4
紅花: 3
帖子: 796
在線: 6.5小時(shí)
蟲(chóng)號(hào): 50895
注冊(cè): 2004-07-15
性別: GG
專業(yè): 細(xì)胞增殖、生長(zhǎng)與分化

[交流] 生物信息學(xué)專題－生物版，醫(yī)學(xué)版和信息科學(xué)版共同創(chuàng)建已有2人參與

為進(jìn)一步建好小木蟲(chóng)的專業(yè)學(xué)科版，現(xiàn)由生物版、醫(yī)學(xué)版和信息科學(xué)版共同創(chuàng)建生物信息學(xué)專題，歡迎大家積極參與！

引用回帖:

友情鏈接：生物版碩博研究生入學(xué)考試專題！重金懸賞！更新中......
http://www.gaoyang168.com/bbs/viewthread.php?tid=95236&fpage=2

[ Last edited by fishery on 2005-6-16 at 21:05 ]

回復(fù)此樓

» 收錄本帖的淘帖專輯推薦

生物信息學(xué)	高通量測(cè)序	生物信息-分析與挖掘	ENVIRON TECHNOL
劉安安

» 本帖已獲得的紅花（最新10朵）

凌波麗

爬坡的羊

» 猜你喜歡

281求調(diào)劑（0805）已經(jīng)有8人回復(fù)
環(huán)境領(lǐng)域全國(guó)重點(diǎn)實(shí)驗(yàn)室招收博士1-2名已經(jīng)有3人回復(fù)
材料專碩306英一數(shù)二已經(jīng)有10人回復(fù)
301求調(diào)劑已經(jīng)有6人回復(fù)
一志愿天津大學(xué)化學(xué)工藝專業(yè)（081702）315分求調(diào)劑已經(jīng)有7人回復(fù)
302求調(diào)劑已經(jīng)有6人回復(fù)
26博士申請(qǐng) 已經(jīng)有3人回復(fù)
268求調(diào)劑已經(jīng)有3人回復(fù)
311求調(diào)劑已經(jīng)有10人回復(fù)
被我言中：新模板不強(qiáng)調(diào)格式了，假專家開(kāi)始管格式了已經(jīng)有4人回復(fù)

» 本主題相關(guān)價(jià)值貼推薦，對(duì)您同樣有幫助:

生物信息學(xué) 已經(jīng)有184人回復(fù)
電子科技大學(xué)生物信息學(xué)方向招收3名調(diào)劑研究生已經(jīng)有29人回復(fù)
誠(chéng)招生物信息學(xué)博士研究生一位已經(jīng)有38人回復(fù)
【Journal Club】第3講水稻全基因組基因網(wǎng)絡(luò)生物信息學(xué)平臺(tái)的建立已經(jīng)有33人回復(fù)
生物信息學(xué) 找工作已經(jīng)有20人回復(fù)
華大基因發(fā)布生物信息學(xué)軟件已經(jīng)有11人回復(fù)
請(qǐng)問(wèn)生物信息學(xué)的標(biāo)書(shū)形式審查完了沒(méi)？已經(jīng)有10人回復(fù)
【原創(chuàng)】電子科技大學(xué)生命學(xué)院2011年研究生調(diào)劑--生物信息學(xué) 已經(jīng)有20人回復(fù)
生物信息學(xué)網(wǎng)址(國(guó)外）已經(jīng)有22人回復(fù)

1樓 2005-06-07 16:19:29

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

BlueGuy

榮譽(yù)版主 (正式寫(xiě)手)

懶懶的小蟲(chóng)蟲(chóng)

應(yīng)助: 0 (幼兒園)
貴賓: 4.4
金幣: 2908.4
紅花: 3
帖子: 796
在線: 6.5小時(shí)
蟲(chóng)號(hào): 50895
注冊(cè): 2004-07-15
性別: GG
專業(yè): 細(xì)胞增殖、生長(zhǎng)與分化

★ ★
miRNA(金幣+1):謝謝��！
zhlpower(金幣+1):繼續(xù)加油

2 生物信息數(shù)據(jù)庫(kù)與查詢

近年來(lái)大量生物學(xué)實(shí)驗(yàn)的數(shù)據(jù)積累，形成了當(dāng)前數(shù)以百計(jì)的生物信息數(shù)據(jù)庫(kù)。它們各自按一定的目標(biāo)收集和整理生物學(xué)實(shí)驗(yàn)數(shù)據(jù)，并提供相關(guān)的數(shù)據(jù)查詢、數(shù)據(jù)處理的服務(wù)。隨著因特網(wǎng)的普及，這些數(shù)據(jù)庫(kù)大多可以通過(guò)網(wǎng)絡(luò)來(lái)訪問(wèn)，或者通過(guò)網(wǎng)絡(luò)下載。

一般而言，這些生物信息數(shù)據(jù)庫(kù)可以分為一級(jí)數(shù)據(jù)庫(kù)和二級(jí)數(shù)據(jù)庫(kù)。一級(jí)數(shù)據(jù)庫(kù)的數(shù)據(jù)都直接來(lái)源于實(shí)驗(yàn)獲得的原始數(shù)據(jù)，只經(jīng)過(guò)簡(jiǎn)單的歸類整理和注釋；二級(jí)數(shù)據(jù)庫(kù)是在一級(jí)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定目標(biāo)衍生而來(lái)，是對(duì)生物學(xué)知識(shí)和信息的進(jìn)一步整理。國(guó)際上著名的一級(jí)核酸數(shù)據(jù)庫(kù)有Genbank數(shù)據(jù)庫(kù)、EMBL核酸庫(kù)和DDBJ庫(kù)等；蛋白質(zhì)序列數(shù)據(jù)庫(kù)有SWISS-PROT、PIR等；蛋白質(zhì)結(jié)構(gòu)庫(kù)有PDB等。國(guó)際上二級(jí)生物學(xué)數(shù)據(jù)庫(kù)非常多，它們因針對(duì)不同的研究?jī)?nèi)容和需要而各具特色，如人類基因組圖譜庫(kù)GDB、轉(zhuǎn)錄因子和結(jié)合位點(diǎn)庫(kù)TRANSFAC、蛋白質(zhì)結(jié)構(gòu)家族分類庫(kù)SCOP等等。

下面將順序簡(jiǎn)要介紹一些著名和有特色的生物信息數(shù)據(jù)庫(kù)。

2.1 基因和基因組數(shù)據(jù)庫(kù)

1. Genbank

Genbank庫(kù)包含了所有已知的核酸序列和蛋白質(zhì)序列，以及與它們相關(guān)的文獻(xiàn)著作和生物學(xué)注釋。它是由美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)建立和維護(hù)的。它的數(shù)據(jù)直接來(lái)源于測(cè)序工作者提交的序列；由測(cè)序中心提交的大量EST序列和其它測(cè)序數(shù)據(jù)；以及與其它數(shù)據(jù)機(jī)構(gòu)協(xié)作交換數(shù)據(jù)而來(lái)。Genbank每天都會(huì)與歐洲分子生物學(xué)實(shí)驗(yàn)室(EMBL)的數(shù)據(jù)庫(kù)，和日本的DNA數(shù)據(jù)庫(kù)(DDBJ)交換數(shù)據(jù)，使這三個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)同步。到1999年8月，Genbank中收集的序列數(shù)量達(dá)到460萬(wàn)條，34億個(gè)堿基，而且數(shù)據(jù)增長(zhǎng)的速度還在不斷加快。Genbank的數(shù)據(jù)可以從NCBI的FTP服務(wù)器上免費(fèi)下載完整的庫(kù)，或下載積累的新數(shù)據(jù)。NCBI還提供廣泛的數(shù)據(jù)查詢、序列相似性搜索以及其它分析服務(wù)，用戶可以從NCBI的主頁(yè)上找到這些服務(wù)。

Genbank庫(kù)里的數(shù)據(jù)按來(lái)源于約55,000個(gè)物種，其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列)。每條Genbank數(shù)據(jù)記錄包含了對(duì)序列的簡(jiǎn)要描述，它的科學(xué)命名，物種分類名稱，參考文獻(xiàn)，序列特征表，以及序列本身。序列特征表里包含對(duì)序列生物學(xué)特征注釋如：編碼區(qū)、轉(zhuǎn)錄單元、重復(fù)區(qū)域、突變位點(diǎn)或修飾位點(diǎn)等。所有數(shù)據(jù)記錄被劃分在若干個(gè)文件里，如細(xì)菌類、病毒類、靈長(zhǎng)類、嚙齒類，以及EST數(shù)據(jù)、基因組測(cè)序數(shù)據(jù)、大規(guī)模基因組序列數(shù)據(jù)等16類，其中EST數(shù)據(jù)等又被各自分成若干個(gè)文件。

(1)Genbank數(shù)據(jù)檢索

NCBI的數(shù)據(jù)庫(kù)檢索查詢系統(tǒng)是Entrez。Entrez是基于Web界面的綜合生物信息數(shù)據(jù)庫(kù)檢索系統(tǒng)。利用Entrez系統(tǒng)，用戶不僅可以方便地檢索Genbank的核酸數(shù)據(jù)，還可以檢索來(lái)自Genbank和其它數(shù)據(jù)庫(kù)的蛋白質(zhì)序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、來(lái)自分子模型數(shù)據(jù)庫(kù)(MMDB)的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群序列數(shù)據(jù)集、以及由PubMed獲得Medline的文獻(xiàn)數(shù)據(jù)。

Entrez提供了方便實(shí)用的檢索服務(wù)，所有操作都可以在網(wǎng)絡(luò)瀏覽器上完成。用戶可以利用Entrez界面上提供的限制條件(Limits)、索引(Index)、檢索歷史(History)和剪貼板(Clipboard)等功能來(lái)實(shí)現(xiàn)復(fù)雜的檢索查詢工作。對(duì)于檢索獲得的記錄，用戶可以選擇需要顯示的數(shù)據(jù)，保存查詢結(jié)果，甚至以圖形方式觀看檢索獲得的序列。更詳細(xì)的Entrez使用說(shuō)明可以在該主頁(yè)上獲得。

(2)向Genbank提交序列數(shù)據(jù)

測(cè)序工作者可以把自己工作中獲得的新序列提交給NCBI，添加到Genbank數(shù)據(jù)庫(kù)。這個(gè)任務(wù)可以由基于Web界面的BankIt或獨(dú)立程序Sequin來(lái)完成。

BankIt是一系列表單，包括聯(lián)絡(luò)信息、發(fā)布要求、引用參考信息、序列來(lái)源信息、以及序列本身的信息等。用戶提交序列后，會(huì)從電子郵件收到自動(dòng)生成的數(shù)據(jù)條目，Genbank的新序列編號(hào)，以及完成注釋后的完整的數(shù)據(jù)記錄。用戶還可以在BankIt頁(yè)面下修改已經(jīng)發(fā)布序列的信息。BankIt適合于獨(dú)立測(cè)序工作者提交少量序列，而不適合大量序列的提交，也不適合提交很長(zhǎng)的序列，EST序列和GSS序列也不應(yīng)用BankIt提交。BankIt使用說(shuō)明和對(duì)序列的要求可詳見(jiàn)其主頁(yè)面。

大量的序列提交可以由Sequin程序完成。Sequin程序能方便的編輯和處理復(fù)雜注釋，并包含一系列內(nèi)建的檢查函數(shù)來(lái)提高序列的質(zhì)量保證。它還被設(shè)計(jì)用于提交來(lái)自系統(tǒng)進(jìn)化、種群和突變研究的序列，可以加入比對(duì)的數(shù)據(jù)。Sequin除了用于編輯和修改序列數(shù)據(jù)記錄，還可以用于序列的分析，任何以FASTA或ASN.1格式序列為輸入數(shù)據(jù)的序列分析程序都可以整合到Sequin程序下。在不同操作系統(tǒng)下運(yùn)行的Sequin程序都可以在ftp://ncbi.nlm.nih.gov/sequin/下找到，Sequin的使用說(shuō)明可詳見(jiàn)其網(wǎng)頁(yè)。

NCBI的網(wǎng)址是：http://www.ncbi.nlm.nih.gov。

Entrez的網(wǎng)址是：http://www.ncbi.nlm.nih.gov/entrez/。

BankIt的網(wǎng)址是：http://www.ncbi.nlm.nih.gov/BankIt。

Sequin的相關(guān)網(wǎng)址是：http://www.ncbi.nlm.nih.gov/Sequin/。

2. EMBL核酸序列數(shù)據(jù)庫(kù)

EMBL核酸序列數(shù)據(jù)庫(kù)由歐洲生物信息學(xué)研究所(EBI)維護(hù)的核酸序列數(shù)據(jù)構(gòu)成，由于與Genbank和DDBJ的數(shù)據(jù)合作交換，它也是一個(gè)全面的核酸序列數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)由Oracal數(shù)據(jù)庫(kù)系統(tǒng)管理維護(hù)，查詢檢索可以通過(guò)通過(guò)因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務(wù)完成。向EMBL核酸序列數(shù)據(jù)庫(kù)提交序列可以通過(guò)基于Web的WEBIN工具，也可以用Sequin軟件來(lái)完成。

數(shù)據(jù)庫(kù)網(wǎng)址是：http://www.ebi.ac.uk/embl/。

SRS的網(wǎng)址是：http://srs.ebi.ac.uk/。

WEBIN的網(wǎng)址是：http://www.ebi.ac.uk/embl/Submission/webin.html。

3. DDBJ數(shù)據(jù)庫(kù)

日本DNA數(shù)據(jù)倉(cāng)庫(kù)(DDBJ)也是一個(gè)全面的核酸序列數(shù)據(jù)庫(kù)，與Genbank和EMBL核酸庫(kù)合作交換數(shù)據(jù)�？梢允褂闷渲黜�(yè)上提供的SRS工具進(jìn)行數(shù)據(jù)檢索和序列分析�？梢杂肧equin軟件向該數(shù)據(jù)庫(kù)提交序列。

DDBJ的網(wǎng)址是：http://www.ddbj.nig.ac.jp/。

4. GDB

基因組數(shù)據(jù)庫(kù)(GDB)為人類基因組計(jì)劃(HGP)保存和處理基因組圖譜數(shù)據(jù)。GDB的目標(biāo)是構(gòu)建關(guān)于人類基因組的百科全書(shū)，除了構(gòu)建基因組圖譜之外，還開(kāi)發(fā)了描述序列水平的基因組內(nèi)容的方法，包括序列變異和其它對(duì)功能和表型的描述。目前GDB中有：人類基因組區(qū)域(包括基因、克隆、amplimers PCR 標(biāo)記、斷點(diǎn)breakpoints、細(xì)胞遺傳標(biāo)記cytogenetic markers、易碎位點(diǎn)fragile sites、EST序列、綜合區(qū)域syndromic regions、contigs和重復(fù)序列)；人類基因組圖譜(包括細(xì)胞遺傳圖譜、連接圖譜、放射性雜交圖譜、content contig圖譜和綜合圖譜等)；人類基因組內(nèi)的變異(包括突變和多態(tài)性，加上等位基因頻率數(shù)據(jù))。GDB數(shù)據(jù)庫(kù)以對(duì)象模型來(lái)保存數(shù)據(jù)，提供基于Web的數(shù)據(jù)對(duì)象檢索服務(wù)，用戶可以搜索各種類型的對(duì)象，并以圖形方式觀看基因組圖譜。

GDB的網(wǎng)址是：http://www.gdb.org。

GDB的國(guó)內(nèi)鏡像是：http://gdb.pku.edu.cn/gdb/。

2.2 蛋白質(zhì)數(shù)據(jù)庫(kù)

1. PIR和PSD

PIR國(guó)際蛋白質(zhì)序列數(shù)據(jù)庫(kù)(PSD)是由蛋白質(zhì)信息資源(PIR)、慕尼黑蛋白質(zhì)序列信息中心(MIPS)和日本國(guó)際蛋白質(zhì)序列數(shù)據(jù)庫(kù)(JIPID)共同維護(hù)的國(guó)際上最大的公共蛋白質(zhì)序列數(shù)據(jù)庫(kù)。這是一個(gè)全面的、經(jīng)過(guò)注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫(kù)，包含超過(guò)142,000條蛋白質(zhì)序列(至99年9月)，其中包括來(lái)自幾十個(gè)完整基因組的蛋白質(zhì)序列。所有序列數(shù)據(jù)都經(jīng)過(guò)整理，超過(guò)99%的序列已按蛋白質(zhì)家族分類，一半以上還按蛋白質(zhì)超家族進(jìn)行了分類。PSD的注釋中還包括對(duì)許多序列、結(jié)構(gòu)、基因組和文獻(xiàn)數(shù)據(jù)庫(kù)的交叉索引，以及數(shù)據(jù)庫(kù)內(nèi)部條目之間的索引，這些內(nèi)部索引幫助用戶在包括復(fù)合物、酶－底物相互作用、活化和調(diào)控級(jí)聯(lián)和具有共同特征的條目之間方便的檢索。每季度都發(fā)行一次完整的數(shù)據(jù)庫(kù)，每周可以得到更新部分。

PSD數(shù)據(jù)庫(kù)有幾個(gè)輔助數(shù)據(jù)庫(kù)，如基于超家族的非冗余庫(kù)等。PIR提供三類序列搜索服務(wù)：基于文本的交互式檢索；標(biāo)準(zhǔn)的序列相似性搜索，包括BLAST、FASTA等；結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級(jí)搜索，包括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索GeneFIND等。

PIR和PSD的網(wǎng)址是：http://pir.georgetown.edu/。

數(shù)據(jù)庫(kù)下載地址是：ftp://nbrfa.georgetown.edu/pir/。

2. SWISS-PROT

SWISS-PROT是經(jīng)過(guò)注釋的蛋白質(zhì)序列數(shù)據(jù)庫(kù)，由歐洲生物信息學(xué)研究所(EBI)維護(hù)。數(shù)據(jù)庫(kù)由蛋白質(zhì)序列條目構(gòu)成，每個(gè)條目包含蛋白質(zhì)序列、引用文獻(xiàn)信息、分類學(xué)信息、注釋等，注釋中包括蛋白質(zhì)的功能、轉(zhuǎn)錄后修飾、特殊位點(diǎn)和區(qū)域、二級(jí)結(jié)構(gòu)、四級(jí)結(jié)構(gòu)、與其它序列的相似性、序列殘缺與疾病的關(guān)系、序列變異體和沖突等信息。SWISS-PROT中盡可能減少了冗余序列，并與其它30多個(gè)數(shù)據(jù)建立了交叉引用，其中包括核酸序列庫(kù)、蛋白質(zhì)序列庫(kù)和蛋白質(zhì)結(jié)構(gòu)庫(kù)等。

利用序列提取系統(tǒng)(SRS)可以方便地檢索SWISS-PROT和其它EBI的數(shù)據(jù)庫(kù)。

SWISS-PROT只接受直接測(cè)序獲得的蛋白質(zhì)序列，序列提交可以在其Web頁(yè)面上完成。

SWISS-PROT的網(wǎng)址是：http://www.ebi.ac.uk/swissprot/。

3. PROSITE

PROSITE數(shù)據(jù)庫(kù)收集了生物學(xué)有顯著意義的蛋白質(zhì)位點(diǎn)和序列模式，并能根據(jù)這些位點(diǎn)和模式快速和可靠地鑒別一個(gè)未知功能的蛋白質(zhì)序列應(yīng)該屬于哪一個(gè)蛋白質(zhì)家族。有的情況下，某個(gè)蛋白質(zhì)與已知功能蛋白質(zhì)的整體序列相似性很低，但由于功能的需要保留了與功能密切相關(guān)的序列模式，這樣就可能通過(guò)PROSITE的搜索找到隱含的功能motif，因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點(diǎn)、配體結(jié)合位點(diǎn)、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等；除了序列模式之外，PROSITE還包括由多序列比對(duì)構(gòu)建的profile，能更敏感地發(fā)現(xiàn)序列與profile的相似性。PROSITE的主頁(yè)上提供各種相關(guān)檢索服務(wù)。

PROSITE的網(wǎng)址是：http://www.expasy.ch/prosite/。

4. PDB

蛋白質(zhì)數(shù)據(jù)倉(cāng)庫(kù)(PDB)是國(guó)際上唯一的生物大分子結(jié)構(gòu)數(shù)據(jù)檔案庫(kù)，由美國(guó)Brookhaven國(guó)家實(shí)驗(yàn)室建立。PDB收集的數(shù)據(jù)來(lái)源于X光晶體衍射和核磁共振(NMR)的數(shù)據(jù)，經(jīng)過(guò)整理和確認(rèn)后存檔而成。目前PDB數(shù)據(jù)庫(kù)的維護(hù)由結(jié)構(gòu)生物信息學(xué)研究合作組織(RCSB)負(fù)責(zé)。RCSB的主服務(wù)器和世界各地的鏡像服務(wù)器提供數(shù)據(jù)庫(kù)的檢索和下載服務(wù)，以及關(guān)于PDB數(shù)據(jù)文件格式和其它文檔的說(shuō)明，PDB數(shù)據(jù)還可以從發(fā)行的光盤(pán)獲得。使用Rasmol等軟件可以在計(jì)算機(jī)上按PDB文件顯示生物大分子的三維結(jié)構(gòu)。

RCSB的PDB數(shù)據(jù)庫(kù)網(wǎng)址是：http://www.rcsb.org/pdb/。

5. SCOP

蛋白質(zhì)結(jié)構(gòu)分類(SCOP)數(shù)據(jù)庫(kù)詳細(xì)描述了已知的蛋白質(zhì)結(jié)構(gòu)之間的關(guān)系。分類基于若干層次：家族，描述相近的進(jìn)化關(guān)系；超家族，描述遠(yuǎn)源的進(jìn)化關(guān)系；折疊子(fold)，描述空間幾何結(jié)構(gòu)的關(guān)系；折疊類，所有折疊子被歸于全α、全β、α/β、α＋β和多結(jié)構(gòu)域等幾個(gè)大類。SCOP還提供一個(gè)非冗余的ASTRAIL序列庫(kù)，這個(gè)庫(kù)通常被用來(lái)評(píng)估各種序列比對(duì)算法。此外，SCOP還提供一個(gè)PDB-ISL中介序列庫(kù)，通過(guò)與這個(gè)庫(kù)中序列的兩兩比對(duì)，可以找到與未知結(jié)構(gòu)序列遠(yuǎn)緣的已知結(jié)構(gòu)序列。

SCOP的網(wǎng)址是：http://scop.mrc-lmb.cam.ac.uk/scop/。

6. COG

蛋白質(zhì)直系同源簇(COGs)數(shù)據(jù)庫(kù)是對(duì)細(xì)菌、藻類和真核生物的21個(gè)完整基因組的編碼蛋白，根據(jù)系統(tǒng)進(jìn)化關(guān)系分類構(gòu)建而成。COG庫(kù)對(duì)于預(yù)測(cè)單個(gè)蛋白質(zhì)的功能和整個(gè)新基因組中蛋白質(zhì)的功能都很有用。利用COGNITOR程序，可以把某個(gè)蛋白質(zhì)與所有COGs中的蛋白質(zhì)進(jìn)行比對(duì)，并把它歸入適當(dāng)?shù)腃OG簇。COG庫(kù)提供了對(duì)COG分類數(shù)據(jù)的檢索和查詢，基于Web的COGNITOR服務(wù)，系統(tǒng)進(jìn)化模式的查詢服務(wù)等。

COG庫(kù)的網(wǎng)址是：http://www.ncbi.nlm.nih.gov/COG。

下載COG庫(kù)和COGNITOR程序在：ftp://ncbi.nlm.nih.gov/pub/COG。

2.3 功能數(shù)據(jù)庫(kù)

1. KEGG

京都基因和基因組百科全書(shū)(KEGG)是系統(tǒng)分析基因功能，聯(lián)系基因組信息和功能信息的知識(shí)庫(kù)。基因組信息存儲(chǔ)在GENES數(shù)據(jù)庫(kù)里，包括完整和部分測(cè)序的基因組序列；更高級(jí)的功能信息存儲(chǔ)在PATHWAY數(shù)據(jù)庫(kù)里，包括圖解的細(xì)胞生化過(guò)程如代謝、膜轉(zhuǎn)運(yùn)、信號(hào)傳遞、細(xì)胞周期，還包括同系保守的子通路等信息；KEGG的另一個(gè)數(shù)據(jù)庫(kù)是LIGAND，包含關(guān)于化學(xué)物質(zhì)、酶分子、酶反應(yīng)等信息。KEGG提供了Java的圖形工具來(lái)訪問(wèn)基因組圖譜，比較基因組圖譜和操作表達(dá)圖譜，以及其它序列比較、圖形比較和通路計(jì)算的工具，可以免費(fèi)獲取。

KEGG的網(wǎng)址是：。

2. DIP

相互作用的蛋白質(zhì)數(shù)據(jù)庫(kù)(DIP)收集了由實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)－蛋白質(zhì)相互作用。數(shù)據(jù)庫(kù)包括蛋白質(zhì)的信息、相互作用的信息和檢測(cè)相互作用的實(shí)驗(yàn)技術(shù)三個(gè)部分。用戶可以根據(jù)蛋白質(zhì)、生物物種、蛋白質(zhì)超家族、關(guān)鍵詞、實(shí)驗(yàn)技術(shù)或引用文獻(xiàn)來(lái)查詢DIP數(shù)據(jù)庫(kù)。

DIP的網(wǎng)址是：http://dip.doe-mbi.ucla.edu/。

3. ASDB

可變剪接數(shù)據(jù)庫(kù)(ASDB)包括蛋白質(zhì)庫(kù)和核酸庫(kù)兩部分。ASDB(蛋白質(zhì))部分來(lái)源于SWISS-PROT蛋白質(zhì)序列庫(kù)，通過(guò)選取有可變剪接注釋的序列，搜索相關(guān)可變剪接的序列，經(jīng)過(guò)序列比對(duì)、篩選和分類構(gòu)建而成。ASDB(核酸)部分來(lái)自Genbank中提及和注釋的可變剪接的完整基因構(gòu)成。數(shù)據(jù)庫(kù)提供了方便的搜索服務(wù)。

ASDB的網(wǎng)址是：http://cbcg.nersc.gov/asdb。

4. TRRD

轉(zhuǎn)錄調(diào)控區(qū)數(shù)據(jù)庫(kù)(TRRD)是在不斷積累的真核生物基因調(diào)控區(qū)結(jié)構(gòu)－功能特性信息基礎(chǔ)上構(gòu)建的。每一個(gè)TRRD的條目里包含特定基因各種結(jié)構(gòu)－功能特性：轉(zhuǎn)錄因子結(jié)合位點(diǎn)、啟動(dòng)子、增強(qiáng)子、靜默子、以及基因表達(dá)調(diào)控模式等。TRRD包括五個(gè)相關(guān)的數(shù)據(jù)表：TRRDGENES(包含所有TRRD庫(kù)基因的基本信息和調(diào)控單元信息)；TRRDSITES(包括調(diào)控因子結(jié)合位點(diǎn)的具體信息)；TRRDFACTORS(包括TRRD中與各個(gè)位點(diǎn)結(jié)合的調(diào)控因子的具體信息)；TRRDEXP(包括對(duì)基因表達(dá)模式的具體描述)；TRRDBIB(包括所有注釋涉及的參考文獻(xiàn))。TRRD主頁(yè)提供了對(duì)這幾個(gè)數(shù)據(jù)表的檢索服務(wù)。

TRRD的網(wǎng)址是：http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/。

5. TRANSFAC

TRANSFAC數(shù)據(jù)庫(kù)是關(guān)于轉(zhuǎn)錄因子、它們?cè)诨蚪M上的結(jié)合位點(diǎn)和與DNA結(jié)合的profiles的數(shù)據(jù)庫(kù)。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等數(shù)據(jù)表構(gòu)成。此外，還有幾個(gè)與TRANSFAC密切相關(guān)的擴(kuò)展庫(kù)：PATHODB庫(kù)收集了可能導(dǎo)致病態(tài)的突變的轉(zhuǎn)錄因子和結(jié)合位點(diǎn)；S/MART DB收集了與染色體結(jié)構(gòu)變化相關(guān)的蛋白因子和位點(diǎn)的信息；TRANSPATH庫(kù)用于描述與轉(zhuǎn)錄因子調(diào)控相關(guān)的信號(hào)傳遞的網(wǎng)絡(luò)；CYTOMER庫(kù)表現(xiàn)了人類轉(zhuǎn)錄因子在各個(gè)器官、細(xì)胞類型、生理系統(tǒng)和發(fā)育時(shí)期的表達(dá)狀況。TRANSFAC及其相關(guān)數(shù)據(jù)庫(kù)可以免費(fèi)下載，也可以通過(guò)Web進(jìn)行檢索和查詢。

TRANSFAC的網(wǎng)址是：http://transfac.gbf.de/TRANSFAC/。

2.4 其它數(shù)據(jù)庫(kù)資源

1. DBCat

DBCat是生物信息數(shù)據(jù)庫(kù)的目錄數(shù)據(jù)庫(kù)，它收集了500多個(gè)生物信息學(xué)數(shù)據(jù)庫(kù)的信息，并根據(jù)它們的應(yīng)用領(lǐng)域進(jìn)行了分類。包括DNA、RNA、蛋白質(zhì)、基因組、圖譜、蛋白質(zhì)結(jié)構(gòu)、文獻(xiàn)著作等基本類型。數(shù)據(jù)庫(kù)可以免費(fèi)下載或在網(wǎng)絡(luò)上檢索查詢。

DBCat的網(wǎng)址是：http://www.infobiogen.fr/services/dbcat/。

下載DBCat在：ftp://ftp.infobiogen.fr/pub/db/dbcat。

2. PubMed

PubMed是NCBI維護(hù)的文獻(xiàn)引用數(shù)據(jù)庫(kù)，提供對(duì)MEDLINE、Pre-MEDLINE等文獻(xiàn)數(shù)據(jù)庫(kù)的引用查詢和對(duì)大量網(wǎng)絡(luò)科學(xué)類電子期刊的鏈接。利用Entrez系統(tǒng)可以對(duì)PubMed進(jìn)行方便的查詢檢索。

PubMed的網(wǎng)址是：http://www.ncbi.nlm.nih.gov/。

除了以上提及的數(shù)據(jù)之外，還有許許多多的專門(mén)生物信息數(shù)據(jù)庫(kù)，涉及了目前生物學(xué)研究的各個(gè)層面和領(lǐng)域，由于篇幅所限無(wú)法一一詳述。國(guó)內(nèi)也有一些大數(shù)據(jù)庫(kù)的鏡像站點(diǎn)和自己開(kāi)發(fā)的有特色的數(shù)據(jù)庫(kù)，如歐洲分子生物學(xué)網(wǎng)絡(luò)組織EMBNet中國(guó)節(jié)點(diǎn)北京大學(xué)分子生物信息鏡像系統(tǒng)，上海博容基因公司與上海嘉瑞軟件公司合作開(kāi)發(fā)的國(guó)產(chǎn)漢化基因數(shù)據(jù)庫(kù)及分析管理系統(tǒng)，同時(shí)國(guó)家級(jí)的生物信息學(xué)中心也在籌建之中。我們期待國(guó)內(nèi)能有更多高質(zhì)量和使用便利的數(shù)據(jù)庫(kù)資源，推動(dòng)我國(guó)生物信息學(xué)和整個(gè)生命科學(xué)的發(fā)展。

清華大學(xué)生物信息學(xué)研究所網(wǎng)址：http://bioinfo.tsinghua.edu.cn

北京大學(xué)生物信息鏡像系統(tǒng)網(wǎng)址：http://cbi.pku.edu.cn

贊一下(10人)

回復(fù)此樓

4樓2005-06-07 16:46:06

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

查看全部 88 個(gè)回答

BlueGuy

榮譽(yù)版主 (正式寫(xiě)手)

懶懶的小蟲(chóng)蟲(chóng)

應(yīng)助: 0 (幼兒園)
貴賓: 4.4
金幣: 2908.4
紅花: 3
帖子: 796
在線: 6.5小時(shí)
蟲(chóng)號(hào): 50895
注冊(cè): 2004-07-15
性別: GG
專業(yè): 細(xì)胞增殖、生長(zhǎng)與分化

★
miRNA(金幣+1):謝謝��！

不錯(cuò)的高通量表達(dá)譜分析講座（轉(zhuǎn)自dxy）

贊一下(5人)

回復(fù)此樓

2樓2005-06-07 16:23:53

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

BlueGuy

榮譽(yù)版主 (正式寫(xiě)手)

懶懶的小蟲(chóng)蟲(chóng)

應(yīng)助: 0 (幼兒園)
貴賓: 4.4
金幣: 2908.4
紅花: 3
帖子: 796
在線: 6.5小時(shí)
蟲(chóng)號(hào): 50895
注冊(cè): 2004-07-15
性別: GG
專業(yè): 細(xì)胞增殖、生長(zhǎng)與分化

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ...
miRNA(金幣+2):謝謝��！
liubird(金幣+50):支持斑竹開(kāi)展有意義的活動(dòng)！

概述

當(dāng)前人類基因組研究已進(jìn)入一個(gè)重要時(shí)期，2004年已獲得人類基因組的全部序列，這是基因組研究的轉(zhuǎn)折點(diǎn)和關(guān)鍵時(shí)刻，意味著人類基因組的研究將全面進(jìn)入信息提取和數(shù)據(jù)分析階段，即生物信息學(xué)發(fā)揮重要作用的階段。到1999年12月15日發(fā)布的第115版為止，GenBank中的DNA堿基數(shù)目已達(dá)46億5千萬(wàn)，DNA序列數(shù)目達(dá)到535萬(wàn)；其中EST序列超過(guò)339萬(wàn)條； UniGene的數(shù)目已達(dá)到7萬(wàn)個(gè)；已有25個(gè)模式生物的完整基因組被測(cè)序完成，另外的70個(gè)模式生物基因組正在測(cè)序當(dāng)中；到2005年初為止，人類基因組的序列完成測(cè)定；同時(shí)功能基因組和蛋白質(zhì)組的大量數(shù)據(jù)已開(kāi)始涌現(xiàn)。如何分析這些數(shù)據(jù)，從中獲得生物結(jié)構(gòu)、功能的相關(guān)信息是基因組研究取得成果的決定性步驟。

生物信息學(xué)是在此背景下發(fā)展起來(lái)的綜合運(yùn)用生物學(xué)、數(shù)學(xué)、物理學(xué)、信息科學(xué)以及計(jì)算機(jī)科學(xué)等諸多學(xué)科的理論方法的嶄新交叉學(xué)科。生物信息學(xué)是內(nèi)涵非常豐富的學(xué)科，其核心是基因組信息學(xué)，包括基因組信息的獲取、處理、存儲(chǔ)、分配和解釋�；蚪M信息學(xué)的關(guān)鍵是“讀懂”基因組的核苷酸順序，即全部基因在染色體上的確切位置以及各DNA片段的功能；同時(shí)在發(fā)現(xiàn)了新基因信息之后進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測(cè)，然后依據(jù)特定蛋白質(zhì)的功能進(jìn)行藥物設(shè)計(jì)。了解基因表達(dá)的調(diào)控機(jī)理也是生物信息學(xué)的重要內(nèi)容，根據(jù)生物分子在基因調(diào)控中的作用，描述人類疾病的診斷、治療內(nèi)在規(guī)律。它的研究目標(biāo)是揭示"基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語(yǔ)言的根本規(guī)律"，解釋生命的遺傳語(yǔ)言。生物信息學(xué)已成為整個(gè)生命科學(xué)發(fā)展的重要組成部分，成為生命科學(xué)研究的前沿。

近來(lái)的研究表明，基因組不僅是基因的簡(jiǎn)單排列，它有其特有的組織結(jié)構(gòu)和信息結(jié)構(gòu)，這種結(jié)構(gòu)是在長(zhǎng)期的演化過(guò)程中產(chǎn)生的，也是基因發(fā)揮其功能所必須的。弄清楚生物體基因組特有的組織結(jié)構(gòu)和信息結(jié)構(gòu)，解譯生命的遺傳語(yǔ)言的關(guān)鍵。

目前在數(shù)據(jù)庫(kù)中已經(jīng)有越來(lái)越多的模式生物全基因組序列，第一個(gè)人類染色體全序列--第22號(hào)染色體的測(cè)序工作已經(jīng)在1999年12月完成，整個(gè)人類基因組計(jì)劃工作草圖將在最近完成。這無(wú)疑給基因組組織結(jié)構(gòu)和信息結(jié)構(gòu)的研究工作提供了大量的第一手材料，同時(shí)也為基因組研究取得突破性進(jìn)展提供了可能。人類對(duì)基因的認(rèn)識(shí)，將從以往的對(duì)單個(gè)基因的了解，上升到在整個(gè)基因組水平上考察基因的組織結(jié)構(gòu)和信息結(jié)構(gòu)，考察基因之間在位置、結(jié)構(gòu)和功能上的相互關(guān)系。

從目前生物信息學(xué)的研究情況來(lái)看，國(guó)際上公認(rèn)的生物信息學(xué)的研究?jī)?nèi)容，大致包括以下幾個(gè)方面：

生物信息的收集、存儲(chǔ)、管理與提供。包括建立國(guó)際基本生物信息庫(kù)和生物信息傳輸?shù)膰?guó)際聯(lián)網(wǎng)系統(tǒng)；建立生物信息數(shù)據(jù)質(zhì)量的評(píng)估與檢測(cè)系統(tǒng)；生物信息的在線服務(wù)；生物信息可視化和專家系統(tǒng)。
基因組序列信息的提取和分析。包括基因的發(fā)現(xiàn)與鑒定，如利用國(guó)際EST 數(shù)據(jù)庫(kù) (dbEST) 和各自實(shí)驗(yàn)室測(cè)定的相應(yīng)數(shù)據(jù)，經(jīng)過(guò)大規(guī)模并行計(jì)算發(fā)現(xiàn)新基因和新SNPs以及各種功能位點(diǎn)；基因組中非編碼區(qū)的信息結(jié)構(gòu)分析，提出理論模型，闡明該區(qū)域的重要生物學(xué)功能；進(jìn)行模式生物完整基因組的信息結(jié)構(gòu)分析和比較研究；利用生物信息研究遺傳密碼起源、基因組結(jié)構(gòu)的演化、基因組空間結(jié)構(gòu)與DNA折疊的關(guān)系以及基因組信息與生物進(jìn)化關(guān)系等生物學(xué)的重大問(wèn)題。
功能基因組相關(guān)信息分析。包括與大規(guī)�；虮磉_(dá)譜分析相關(guān)的算法、軟件研究，基因表達(dá)調(diào)控網(wǎng)絡(luò)的研究；與基因組信息相關(guān)的核酸、蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測(cè)和模擬，以及蛋白質(zhì)功能預(yù)測(cè)的研究。
生物大分子結(jié)構(gòu)模擬和藥物設(shè)計(jì)。包括RNA(核糖核酸)的結(jié)構(gòu)模擬和反義RNA的分子設(shè)計(jì)；蛋白質(zhì)空間結(jié)構(gòu)模擬和分子設(shè)計(jì)；具有不同功能域的復(fù)合蛋白質(zhì)以及連接肽的設(shè)計(jì)；生物活性分子的電子結(jié)構(gòu)計(jì)算和設(shè)計(jì)；納米生物材料的模擬與設(shè)計(jì)；基于酶和功能蛋白質(zhì)結(jié)構(gòu)、細(xì)胞表面受體結(jié)構(gòu)的藥物設(shè)計(jì)；基于DNA結(jié)構(gòu)的藥物設(shè)計(jì)等。
生物信息分析的技術(shù)與方法研究。包括發(fā)展有效的能支持大尺度作圖與測(cè)序需要的軟件、數(shù)據(jù)庫(kù)以及若干數(shù)據(jù)庫(kù)工具，諸如電子網(wǎng)絡(luò)等遠(yuǎn)程通訊工具；改進(jìn)現(xiàn)有的理論分析方法，如統(tǒng)計(jì)方法、模式識(shí)別方法、隱馬爾科夫過(guò)程方法、分維方法、神經(jīng)網(wǎng)絡(luò)方法、復(fù)雜性分析方法、密碼學(xué)方法、多序列比較方法等；創(chuàng)建一切適用于基因組信息分析的新方法、新技術(shù)。包括引入復(fù)雜系統(tǒng)分析技術(shù)、信息系統(tǒng)分析技術(shù)等；建立嚴(yán)格的多序列比較方法；發(fā)展與應(yīng)用密碼學(xué)方法以及其他算法和分析技術(shù)，用于解釋基因組的信息，探索DNA序列及其空間結(jié)構(gòu)信息的新表征；發(fā)展研究基因組完整信息結(jié)構(gòu)和信息網(wǎng)絡(luò)的研究方法等；發(fā)展生物大分子空間結(jié)構(gòu)模擬、電子結(jié)構(gòu)模擬和藥物設(shè)計(jì)的新方法與新技術(shù)。
應(yīng)用與發(fā)展研究。匯集與疾病相關(guān)的人類基因信息，發(fā)展患者樣品序列信息檢測(cè)技術(shù)和基于序列信息選擇表達(dá)載體、引物的技術(shù)，建立與動(dòng)植物良種繁育相關(guān)的數(shù)據(jù)庫(kù)以及與大分子設(shè)計(jì)和藥物設(shè)計(jì)相關(guān)的數(shù)據(jù)庫(kù)。
利用生物信息學(xué)方法進(jìn)行結(jié)構(gòu)功能預(yù)測(cè)要注意的是同一問(wèn)題采用不同算法，可能產(chǎn)生相同或不同的結(jié)果。因此，必要弄清楚某種方法的基本原理，而不是僅把算法當(dāng)作一個(gè)“黑箱”。因?yàn)橐环N方法可能對(duì)特定實(shí)例很合適，而對(duì)另一個(gè)則完全不對(duì)。因此，本章采用原理和實(shí)用方法并重的原則進(jìn)行介紹。因生物信息學(xué)覆蓋面廣，限于篇幅，本章并未將生物信息學(xué)的全部?jī)?nèi)容詳細(xì)加以講述，僅針對(duì)與目前分子生物學(xué)實(shí)驗(yàn)數(shù)據(jù)分析密切相關(guān)的生物信息學(xué)策略及實(shí)用工具進(jìn)行扼要介紹，文中涉及問(wèn)題的更詳細(xì)信息可參考相關(guān)網(wǎng)站。

[ Last edited by BlueGuy on 2005-6-7 at 16:47 ]

贊一下(15人)

回復(fù)此樓

3樓2005-06-07 16:44:41

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

BlueGuy

榮譽(yù)版主 (正式寫(xiě)手)

懶懶的小蟲(chóng)蟲(chóng)

應(yīng)助: 0 (幼兒園)
貴賓: 4.4
金幣: 2908.4
紅花: 3
帖子: 796
在線: 6.5小時(shí)
蟲(chóng)號(hào): 50895
注冊(cè): 2004-07-15
性別: GG
專業(yè): 細(xì)胞增殖、生長(zhǎng)與分化

★ ★
miRNA(金幣+2):謝謝��！

3 序列比對(duì)和數(shù)據(jù)庫(kù)搜索

比較是科學(xué)研究中最常見(jiàn)的方法，通過(guò)將研究對(duì)象相互比較來(lái)尋找對(duì)象可能具備的特性。在生物信息學(xué)研究中，比對(duì)是最常用和最經(jīng)典的研究手段。

最常見(jiàn)的比對(duì)是蛋白質(zhì)序列之間或核酸序列之間的兩兩比對(duì)，通過(guò)比較兩個(gè)序列之間的相似區(qū)域和保守性位點(diǎn)，尋找二者可能的分子進(jìn)化關(guān)系。進(jìn)一步的比對(duì)是將多個(gè)蛋白質(zhì)或核酸同時(shí)進(jìn)行比較，尋找這些有進(jìn)化關(guān)系的序列之間共同的保守區(qū)域、位點(diǎn)和profile，從而探索導(dǎo)致它們產(chǎn)生共同功能的序列模式。此外，還可以把蛋白質(zhì)序列與核酸序列相比來(lái)探索核酸序列可能的表達(dá)框架；把蛋白質(zhì)序列與具有三維結(jié)構(gòu)信息的蛋白質(zhì)相比，從而獲得蛋白質(zhì)折疊類型的信息。

比對(duì)還是數(shù)據(jù)庫(kù)搜索算法的基礎(chǔ)，將查詢序列與整個(gè)數(shù)據(jù)庫(kù)]的所有序列進(jìn)行比對(duì)，從數(shù)據(jù)庫(kù)中獲得與其最相似序列的已有的數(shù)據(jù)，能最快速的獲得有關(guān)查詢序列的大量有價(jià)值的參考信息，對(duì)于進(jìn)一步分析其結(jié)構(gòu)和功能都會(huì)有很大的幫助。近年來(lái)隨著生物信息學(xué)數(shù)據(jù)大量積累和生物學(xué)知識(shí)的整理，通過(guò)比對(duì)方法可以有效地分析和預(yù)測(cè)一些新發(fā)現(xiàn)基因的功能。

3.1 序列兩兩比對(duì)

序列比對(duì)的理論基礎(chǔ)是進(jìn)化學(xué)說(shuō)，如果兩個(gè)序列之間具有足夠的相似性，就推測(cè)二者可能有共同的進(jìn)化祖先，經(jīng)過(guò)序列內(nèi)殘基的替換、殘基或序列片段的缺失、以及序列重組等遺傳變異過(guò)程分別演化而來(lái)。序列相似和序列同源是不同的概念，序列之間的相似程度是可以量化的參數(shù)，而序列是否同源需要有進(jìn)化事實(shí)的驗(yàn)證。在殘基－殘基比對(duì)中，可以明顯看到序列中某些氨基酸殘基比其它位置上的殘基更保守，這些信息揭示了這些保守位點(diǎn)上的殘基對(duì)蛋白質(zhì)的結(jié)構(gòu)和功能是至關(guān)重要的，例如它們可能是酶的活性位點(diǎn)殘基，形成二硫鍵的半胱氨酸殘基，與配體結(jié)合部位的殘基，與金屬離子結(jié)合的殘基，形成特定結(jié)構(gòu)motif的殘基等等。但并不是所有保守的殘基都一定是結(jié)構(gòu)功能重要的，可能它們只是由于歷史的原因被保留下來(lái)，而不是由于進(jìn)化壓力而保留下來(lái)。因此，如果兩個(gè)序列有顯著的保守性，要確定二者具有共同的進(jìn)化歷史，進(jìn)而認(rèn)為二者有近似的結(jié)構(gòu)和功能還需要更多實(shí)驗(yàn)和信息的支持。通過(guò)大量實(shí)驗(yàn)和序列比對(duì)的分析，一般認(rèn)為蛋白質(zhì)的結(jié)構(gòu)和功能比序列具有更大的保守性，因此粗略的說(shuō)，如果序列之間的相似性超過(guò)30%，它們就很可能是同源的。

早期的序列比對(duì)是全局的序列比較，但由于蛋白質(zhì)具有的模塊性質(zhì)，可能由于外顯子的交換而產(chǎn)生新蛋白質(zhì)，因此局部比對(duì)會(huì)更加合理。通常用打分矩陣描述序列兩兩比對(duì)，兩條序列分別作為矩陣的兩維，矩陣點(diǎn)是兩維上對(duì)應(yīng)兩個(gè)殘基的相似性分?jǐn)?shù)，分?jǐn)?shù)越高則說(shuō)明兩個(gè)殘基越相似。因此，序列比對(duì)問(wèn)題變成在矩陣?yán)飳ふ易罴驯葘?duì)路徑，目前最有效的方法是Needleman-Wunsch動(dòng)態(tài)規(guī)劃算法，在此基礎(chǔ)上又改良產(chǎn)生了Smith-Waterman算法和SIM算法。在FASTA程序包中可以找到用動(dòng)態(tài)規(guī)劃算法進(jìn)行序列比對(duì)的工具LALIGN，它能給出多個(gè)不相互交叉的最佳比對(duì)結(jié)果。

在進(jìn)行序列兩兩比對(duì)時(shí)，有兩方面問(wèn)題直接影響相似性分值：取代矩陣和空位罰分。粗糙的比對(duì)方法僅僅用相同/不同來(lái)描述兩個(gè)殘基的關(guān)系，顯然這種方法無(wú)法描述殘基取代對(duì)結(jié)構(gòu)和功能的不同影響效果，纈氨酸對(duì)異亮氨酸的取代與谷氨酸對(duì)異亮氨酸的取代應(yīng)該給予不同的打分。因此如果用一個(gè)取代矩陣來(lái)描述氨基酸殘基兩兩取代的分值會(huì)大大提高比對(duì)的敏感性和生物學(xué)意義。雖然針對(duì)不同的研究目標(biāo)和對(duì)象應(yīng)該構(gòu)建適宜的取代矩陣，但國(guó)際上常用的取代矩陣有PAM和BLOSUM等，它們來(lái)源于不同的構(gòu)建方法和不同的參數(shù)選擇，包括PAM250、BLOSUM62、BLOSUM90、BLOSUM30等。對(duì)于不同的對(duì)象可以采用不同的取代矩陣以獲得更多信息，例如對(duì)同源性較高的序列可以采用BLOSUM90矩陣，而對(duì)同源性較低的序列可采用BLOSUM30矩陣。

空位罰分是為了補(bǔ)償插入和缺失對(duì)序列相似性的影響，由于沒(méi)有什么合適的理論模型能很好地描述空位問(wèn)題，因此空位罰分缺乏理論依據(jù)而更多的帶有主觀特色。一般的處理方法是用兩個(gè)罰分值，一個(gè)對(duì)插入的第一個(gè)空位罰分，如10－15；另一個(gè)對(duì)空位的延伸罰分，如1－2。對(duì)于具體的比對(duì)問(wèn)題，采用不同的罰分方法會(huì)取得不同的效果。

對(duì)于比對(duì)計(jì)算產(chǎn)生的分值，到底多大才能說(shuō)明兩個(gè)序列是同源的，對(duì)此有統(tǒng)計(jì)學(xué)方法加以說(shuō)明，主要的思想是把具有相同長(zhǎng)度的隨機(jī)序列進(jìn)行比對(duì)，把分值與最初的比對(duì)分值相比，看看比對(duì)結(jié)果是否具有顯著性。相關(guān)的參數(shù)E代表隨機(jī)比對(duì)分值不低于實(shí)際比對(duì)分值的概率。對(duì)于嚴(yán)格的比對(duì)，必須E值低于一定閾值才能說(shuō)明比對(duì)的結(jié)果具有足夠的統(tǒng)計(jì)學(xué)顯著性，這樣就排除了由于偶然的因素產(chǎn)生高比對(duì)得分的可能。

Genbank、SWISS-PROT等序列數(shù)據(jù)庫(kù)提供的序列搜索服務(wù)都是以序列兩兩比對(duì)為基礎(chǔ)的。不同之處在于為了提高搜索的速度和效率，通常的序列搜索算法都進(jìn)行了一定程度的優(yōu)化，如最常見(jiàn)的FASTA工具和BLAST工具。FASTA是第一個(gè)被廣泛應(yīng)用的序列比對(duì)和搜索工具包，包含若干個(gè)獨(dú)立的程序。FASTA為了提供序列搜索的速度，會(huì)先建立序列片段的“字典”，查詢序列先會(huì)在字典里搜索可能的匹配序列，字典中的序列長(zhǎng)度由ktup參數(shù)控制，缺省的ktup=2。FASTA的結(jié)果報(bào)告中會(huì)給出每個(gè)搜索到的序列與查詢序列的最佳比對(duì)結(jié)果，以及這個(gè)比對(duì)的統(tǒng)計(jì)學(xué)顯著性評(píng)估E值。FASTA工具包可以在大多提供下載服務(wù)的生物信息學(xué)站點(diǎn)上找到。

BLAST是現(xiàn)在應(yīng)用最廣泛的序列相似性搜索工具，相比FASTA有更多改進(jìn)，速度更快，并建立在嚴(yán)格的統(tǒng)計(jì)學(xué)基礎(chǔ)之上。NCBI提供了基于Web的BLAST服務(wù)，用戶可以把序列填入網(wǎng)頁(yè)上的表單里，選擇相應(yīng)的參數(shù)后提交到數(shù)據(jù)服務(wù)器上進(jìn)行搜索，從電子郵件中獲得序列搜索的結(jié)果。BLAST包含五個(gè)程序和若干個(gè)相應(yīng)的數(shù)據(jù)庫(kù)，分別針對(duì)不同的查詢序列和要搜索的數(shù)據(jù)庫(kù)類型。其中翻譯的核酸庫(kù)指搜索比對(duì)時(shí)會(huì)把核酸數(shù)據(jù)按密碼子按所有可能的閱讀框架轉(zhuǎn)換成蛋白質(zhì)序列。

BLAST對(duì)序列格式的要求是常見(jiàn)的FASTA格式。FASTA格式第一行是描述行，第一個(gè)字符必須是“>”字符；隨后的行是序列本身，一般每行序列不要超過(guò)80個(gè)字符，回車符不會(huì)影響程序?qū)π蛄羞B續(xù)性的看法。序列由標(biāo)準(zhǔn)的IUB/IUPAC氨基酸和核酸代碼代表；小寫(xiě)字符會(huì)全部轉(zhuǎn)換成大寫(xiě)；單個(gè)“-”號(hào)代表不明長(zhǎng)度的空位；在氨基酸序列里允許出現(xiàn)“U”和“*”號(hào)；任何數(shù)字都應(yīng)該被去掉或換成字母(如，不明核酸用“N”，不明氨基酸用“X”)。此外，對(duì)于核酸序列，除了A、C、G、T、U分別代表各種核酸之外，R代表G或A(嘌呤)；Y代表T或C(嘧啶)；K代表G或T(帶酮基)；M代表A或C(帶氨基)；S代表G或C(強(qiáng))；W代表A或T(弱)；B代表G、T或C；D代表G、A或T；H代表A、C或T；V代表G、C或A；N代表A、G、C、T中任意一種。對(duì)于氨基酸序列，除了20種常見(jiàn)氨基酸的標(biāo)準(zhǔn)單字符標(biāo)識(shí)之外，B代表Asp或Asn；U代表硒代半胱氨酸；Z代表Glu或Gln；X代表任意氨基酸；“*”代表翻譯結(jié)束標(biāo)志。

BLAST的當(dāng)前版本是2.0，它的新發(fā)展是位點(diǎn)特異性反復(fù)BLAST(PSI-BLAST)。PSI-BLAST的特色是每次用profile搜索數(shù)據(jù)庫(kù)后再利用搜索的結(jié)果重新構(gòu)建profile，然后用新的profile再次搜索數(shù)據(jù)庫(kù)，如此反復(fù)直至沒(méi)有新的結(jié)果產(chǎn)生為止。PSI-BLAST先用帶空位的BLAST搜索數(shù)據(jù)庫(kù)，將獲得的序列通過(guò)多序列比對(duì)來(lái)構(gòu)建第一個(gè)profile。PSI-BLAST自然地拓展了BLAST方法，能尋找蛋白質(zhì)序列中的隱含模式，有研究表明這種方法可以有效的找到很多序列差異較大而結(jié)構(gòu)功能相似的相關(guān)蛋白，甚至可以與一些結(jié)構(gòu)比對(duì)方法，如threading相媲美。PSI-BLAST服務(wù)可以在NCBI的BLAST主頁(yè)上找到，還可以從NCBI的FTP服務(wù)器上下載PSI-BLAST的獨(dú)立程序。

NCBI的BLUST網(wǎng)址是：http://www.ncbi.nlm.nih.gov/BLAST/。

下載BLUST的網(wǎng)址是：ftp://ncbi.nlm.nih.gov/blast/。

下載FASTA的網(wǎng)址是：ftp://ftp.virginia.edu/pub/fasta/。

　

3.2 多序列比對(duì)

顧名思義，多序列比對(duì)就是把兩條以上可能有系統(tǒng)進(jìn)化關(guān)系的序列進(jìn)行比對(duì)的方法。目前對(duì)多序列比對(duì)的研究還在不斷前進(jìn)中，現(xiàn)有的大多數(shù)算法都基于漸進(jìn)的比對(duì)的思想，在序列兩兩比對(duì)的基礎(chǔ)上逐步優(yōu)化多序列比對(duì)的結(jié)果。進(jìn)行多序列比對(duì)后可以對(duì)比對(duì)結(jié)果進(jìn)行進(jìn)一步處理，例如構(gòu)建序列模式的profile，將序列聚類構(gòu)建分子進(jìn)化樹(shù)等等。

目前使用最廣泛的多序列比對(duì)程序是CLUSTALW(它的PC版本是CLUSTALX)。CLUSTALW是一種漸進(jìn)的比對(duì)方法，先將多個(gè)序列兩兩比對(duì)構(gòu)建距離矩陣，反應(yīng)序列之間兩兩關(guān)系；然后根據(jù)距離矩陣計(jì)算產(chǎn)生系統(tǒng)進(jìn)化指導(dǎo)樹(shù)，對(duì)關(guān)系密切的序列進(jìn)行加權(quán)；然后從最緊密的兩條序列開(kāi)始，逐步引入臨近的序列并不斷重新構(gòu)建比對(duì)，直到所有序列都被加入為止。

CLUSTALW的程序可以自由使用，在NCBI的FTP服務(wù)器上可以找到下載的軟件包。CLUSTALW程序用選項(xiàng)單逐步指導(dǎo)用戶進(jìn)行操作，用戶可根據(jù)需要選擇打分矩陣、設(shè)置空位罰分等。EBI的主頁(yè)還提供了基于Web的CLUSTALW服務(wù)，用戶可以把序列和各種要求通過(guò)表單提交到服務(wù)器上，服務(wù)器把計(jì)算的結(jié)果用Email返回用戶。

CLUSTALW對(duì)輸入序列的格式比較靈活，可以是前面介紹過(guò)的FASTA格式，還可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。輸出格式也可以選擇，有ALN、GCG、PHYLIP和GDE等，用戶可以根據(jù)自己的需要選擇合適的輸出格式。

用CLUSTALW得到的多序列比對(duì)結(jié)果中，所有序列排列在一起，并以特定的符號(hào)代表各個(gè)位點(diǎn)上殘基的保守性，“*”號(hào)表示保守性極高的殘基位點(diǎn)；“.”號(hào)代表保守性略低的殘基位點(diǎn)。

EBI的CLUSTALW網(wǎng)址是：http://www.ebi.ac.uk/clustalw/。

下載CLUSTALW的網(wǎng)址是：ftp://ftp.ebi.ac.uk/pub/software/。

贊一下(5人)

回復(fù)此樓

5樓2005-06-07 16:50:28

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

查看全部 88 個(gè)回答

普通表情龍兔虎貓高級(jí)回復(fù) (可上傳附件)

最具人氣熱帖推薦 [查看全部]		作者	回/看	最后發(fā)表

[考研] 277調(diào)劑 +5	自由煎餅果子 2026-03-16	6/300	2026-03-17 19:26 by 李leezz
[考研] 293求調(diào)劑 +7	zjl的號(hào) 2026-03-16	12/600	2026-03-17 18:22 by 重科小霸王
[考研] 070300化學(xué)319求調(diào)劑 +4	錦鯉0909 2026-03-17	4/200	2026-03-17 18:21 by 重科小霸王
[考研] 302求調(diào)劑 +9	負(fù)心者當(dāng)誅 2026-03-11	9/450	2026-03-17 17:13 by ruiyingmiao
[考研] 求調(diào)劑，總分315，考的生物醫(yī)藥，一志愿湖南師范大學(xué)。調(diào)劑到任何專業(yè)都可以 +4	小丁想進(jìn)步 2026-03-11	5/250	2026-03-17 16:05 by 外星文明
[考研] 一志愿蘇州大學(xué)材料工程（085601）專碩有科研經(jīng)歷三項(xiàng)國(guó)獎(jiǎng)兩個(gè)實(shí)用型專利一項(xiàng)省級(jí)立項(xiàng) +6	大火山小火山 2026-03-16	8/400	2026-03-17 15:05 by 無(wú)懈可擊111
[考研] 工科材料085601 279求調(diào)劑 +3	困于星晨 2026-03-17	3/150	2026-03-17 14:08 by ms629
[考研] 材料與化工專碩調(diào)劑 +5	heming3743 2026-03-16	5/250	2026-03-17 14:03 by 勇敢太監(jiān)王公公
[考研] 289求調(diào)劑 +6	步川酷紫123 2026-03-11	6/300	2026-03-17 10:23 by Sammy2
[考研] 274求調(diào)劑 +5	時(shí)間點(diǎn) 2026-03-13	5/250	2026-03-17 07:34 by 熱情沙漠
[教師之家] 焦慮 +7	水冰月月野兔 2026-03-13	9/450	2026-03-16 10:00 by Quakerbird
[考研] 0856專碩279求調(diào)劑 +5	加油加油！? 2026-03-15	5/250	2026-03-15 11:58 by 2020015
[考研] 材料與化工 323 英一+數(shù)二+物化，一志愿：哈工大本人本科雙一流 +4	自由的_飛翔 2026-03-13	5/250	2026-03-14 19:39 by hmn_wj
[基金申請(qǐng)] 現(xiàn)在如何回避去年的某一個(gè)專家，不知道名字 +3	zk200107 2026-03-12	6/300	2026-03-14 17:13 by zk200107
[考研] 【0703化學(xué)調(diào)劑】-一志愿華中師范大學(xué)-六級(jí)475 +5	Becho359 2026-03-11	5/250	2026-03-14 11:35 by 哦哦123
[考研] 332求調(diào)劑 +3	zjy101327 2026-03-11	6/300	2026-03-13 22:48 by JourneyLucky
[考研] 304求調(diào)劑 +6	Mochaaaa 2026-03-12	7/350	2026-03-13 22:18 by 星空星月
[考研] 一志愿西南交大，材料專碩317求調(diào)劑 +5	lx8568 2026-03-11	5/250	2026-03-13 21:43 by peike
[考研] 0856化學(xué)工程280分求調(diào)劑 +4	shenzxsn 2026-03-11	4/200	2026-03-13 11:55 by ymwdoctor
[考研] 289求調(diào)劑 +3	李政瑩 2026-03-12	3/150	2026-03-13 11:02 by 求調(diào)劑zz