| 24小時(shí)熱門(mén)版塊排行榜 |
| 5 | 4/1 | 返回列表 |
| 查看: 13314 | 回復(fù): 87 | |||
| 當(dāng)前只顯示滿(mǎn)足指定條件的回帖,點(diǎn)擊這里查看本話(huà)題的所有回帖 | |||
BlueGuy榮譽(yù)版主 (正式寫(xiě)手)
懶懶的小蟲(chóng)蟲(chóng)
|
[交流]
生物信息學(xué)專(zhuān)題-生物版,醫(yī)學(xué)版和信息科學(xué)版共同創(chuàng)建 已有2人參與
|
||
|
為進(jìn)一步建好小木蟲(chóng)的專(zhuān)業(yè)學(xué)科版,現(xiàn)由生物版、醫(yī)學(xué)版和信息科學(xué)版共同創(chuàng)建生物信息學(xué)專(zhuān)題,歡迎大家積極參與! [ Last edited by fishery on 2005-6-16 at 21:05 ] |
榮譽(yù)版主 (著名寫(xiě)手)
無(wú)名
|
生物信息學(xué)課程 http://www.s-star.org/downloads/lectures.html 02 Introductory Molecular Biology 03 An Overview of the Computational Analysis of Biological Sequences 04 Transcript Analysis 05 Comparative Genomics 06 Representations and Algorithms for Computational Molecular Biology 07 Protein Structure Primer 08 Protein Structure Prediction 09 Protein Physics 10 Genomics and Computational Molecular Biology Genomics 11 Protein and Nucleic Acid Structure, Dynamics,and Engineering 12 Proteomics 13 Proteomes: Proteins Expressed as a Genome 14 Structure Prediction for Macromolecular Interactions 15 Protein - Ligand Modeling 16 DNA Microarray Analysis 2、http://www.uni-konstanz.de/FuF/Bio/Bioinformatik/lecture.htm A Brief Guide to these Pages Bioinformatics Intro Sequence Databases and Database Searching Sequence Searching and Analysis I Sequence Searching and Analysis II Databases Survey |

榮譽(yù)版主 (正式寫(xiě)手)
懶懶的小蟲(chóng)蟲(chóng)
榮譽(yù)版主 (正式寫(xiě)手)
懶懶的小蟲(chóng)蟲(chóng)
|
概述 當(dāng)前人類(lèi)基因組研究已進(jìn)入一個(gè)重要時(shí)期,2004年已獲得人類(lèi)基因組的全部序列,這是基因組研究的轉(zhuǎn)折點(diǎn)和關(guān)鍵時(shí)刻,意味著人類(lèi)基因組的研究將全面進(jìn)入信息提取和數(shù)據(jù)分析階段,即生物信息學(xué)發(fā)揮重要作用的階段。到1999年12月15日發(fā)布的第115版為止,GenBank中的DNA堿基數(shù)目已達(dá)46億5千萬(wàn),DNA序列數(shù)目達(dá)到535萬(wàn);其中EST序列超過(guò)339萬(wàn)條; UniGene的數(shù)目已達(dá)到7萬(wàn)個(gè);已有25個(gè)模式生物的完整基因組被測(cè)序完成,另外的70個(gè)模式生物基因組正在測(cè)序當(dāng)中;到2005年初為止,人類(lèi)基因組的序列完成測(cè)定;同時(shí)功能基因組和蛋白質(zhì)組的大量數(shù)據(jù)已開(kāi)始涌現(xiàn)。如何分析這些數(shù)據(jù),從中獲得生物結(jié)構(gòu)、功能的相關(guān)信息是基因組研究取得成果的決定性步驟。 生物信息學(xué)是在此背景下發(fā)展起來(lái)的綜合運(yùn)用生物學(xué)、數(shù)學(xué)、物理學(xué)、信息科學(xué)以及計(jì)算機(jī)科學(xué)等諸多學(xué)科的理論方法的嶄新交叉學(xué)科。生物信息學(xué)是內(nèi)涵非常豐富的學(xué)科,其核心是基因組信息學(xué),包括基因組信息的獲取、處理、存儲(chǔ)、分配和解釋。基因組信息學(xué)的關(guān)鍵是“讀懂”基因組的核苷酸順序,即全部基因在染色體上的確切位置以及各DNA片段的功能;同時(shí)在發(fā)現(xiàn)了新基因信息之后進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測(cè),然后依據(jù)特定蛋白質(zhì)的功能進(jìn)行藥物設(shè)計(jì)。了解基因表達(dá)的調(diào)控機(jī)理也是生物信息學(xué)的重要內(nèi)容,根據(jù)生物分子在基因調(diào)控中的作用,描述人類(lèi)疾病的診斷、治療內(nèi)在規(guī)律。它的研究目標(biāo)是揭示"基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語(yǔ)言的根本規(guī)律",解釋生命的遺傳語(yǔ)言。生物信息學(xué)已成為整個(gè)生命科學(xué)發(fā)展的重要組成部分,成為生命科學(xué)研究的前沿。 近來(lái)的研究表明,基因組不僅是基因的簡(jiǎn)單排列,它有其特有的組織結(jié)構(gòu)和信息結(jié)構(gòu),這種結(jié)構(gòu)是在長(zhǎng)期的演化過(guò)程中產(chǎn)生的,也是基因發(fā)揮其功能所必須的。弄清楚生物體基因組特有的組織結(jié)構(gòu)和信息結(jié)構(gòu),解譯生命的遺傳語(yǔ)言的關(guān)鍵。 目前在數(shù)據(jù)庫(kù)中已經(jīng)有越來(lái)越多的模式生物全基因組序列,第一個(gè)人類(lèi)染色體全序列--第22號(hào)染色體的測(cè)序工作已經(jīng)在1999年12月完成,整個(gè)人類(lèi)基因組計(jì)劃工作草圖將在最近完成。這無(wú)疑給基因組組織結(jié)構(gòu)和信息結(jié)構(gòu)的研究工作提供了大量的第一手材料,同時(shí)也為基因組研究取得突破性進(jìn)展提供了可能。人類(lèi)對(duì)基因的認(rèn)識(shí),將從以往的對(duì)單個(gè)基因的了解,上升到在整個(gè)基因組水平上考察基因的組織結(jié)構(gòu)和信息結(jié)構(gòu),考察基因之間在位置、結(jié)構(gòu)和功能上的相互關(guān)系。 從目前生物信息學(xué)的研究情況來(lái)看,國(guó)際上公認(rèn)的生物信息學(xué)的研究?jī)?nèi)容,大致包括以下幾個(gè)方面: 生物信息的收集、存儲(chǔ)、管理與提供。包括建立國(guó)際基本生物信息庫(kù)和生物信息傳輸?shù)膰?guó)際聯(lián)網(wǎng)系統(tǒng);建立生物信息數(shù)據(jù)質(zhì)量的評(píng)估與檢測(cè)系統(tǒng);生物信息的在線(xiàn)服務(wù);生物信息可視化和專(zhuān)家系統(tǒng)。 基因組序列信息的提取和分析。包括基因的發(fā)現(xiàn)與鑒定,如利用國(guó)際EST 數(shù)據(jù)庫(kù) (dbEST) 和各自實(shí)驗(yàn)室測(cè)定的相應(yīng)數(shù)據(jù),經(jīng)過(guò)大規(guī)模 并行計(jì)算發(fā)現(xiàn)新基因和新SNPs以及各種功能位點(diǎn);基因組中非編碼區(qū)的信息結(jié)構(gòu)分析,提出理論模型,闡明該區(qū)域的重要生物學(xué)功能;進(jìn)行模式生物完整基因組的信息結(jié)構(gòu)分析和比較研究;利用生物信息研究遺傳密碼起源、基因組結(jié)構(gòu)的演化、基因組空間結(jié)構(gòu)與DNA折疊的關(guān)系以及基因組信息與生物進(jìn)化關(guān)系等生物學(xué)的重大問(wèn)題。 功能基因組相關(guān)信息分析。包括與大規(guī)模基因表達(dá)譜分析相關(guān)的算法、軟件研究,基因表達(dá)調(diào)控網(wǎng)絡(luò)的研究;與基因組信息相關(guān)的核酸、蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測(cè)和模擬,以及蛋白質(zhì)功能預(yù)測(cè)的研究。 生物大分子結(jié)構(gòu)模擬和藥物設(shè)計(jì)。包括RNA(核糖核酸)的結(jié)構(gòu)模擬和反義RNA的分子設(shè)計(jì);蛋白質(zhì)空間結(jié)構(gòu)模擬和分子設(shè)計(jì);具有不同功能域的復(fù)合蛋白質(zhì)以及連接肽的設(shè)計(jì);生物活性分子的電子結(jié)構(gòu)計(jì)算和設(shè)計(jì);納米生物材料的模擬與設(shè)計(jì);基于酶和功能蛋白質(zhì)結(jié)構(gòu)、細(xì)胞表面受體結(jié)構(gòu)的藥物設(shè)計(jì);基于DNA結(jié)構(gòu)的藥物設(shè)計(jì)等。 生物信息分析的技術(shù)與方法研究。包括發(fā)展有效的能支持大尺度作圖與測(cè)序需要的軟件、數(shù)據(jù)庫(kù)以及若干數(shù)據(jù)庫(kù)工具,諸如電子網(wǎng)絡(luò)等遠(yuǎn)程通訊工具;改進(jìn)現(xiàn)有的理論分析方法,如統(tǒng)計(jì)方法、模式識(shí)別方法、隱馬爾科夫過(guò)程方法、分維方法、神經(jīng)網(wǎng)絡(luò)方法、復(fù)雜性分析方法、密碼學(xué)方法、多序列比較方法等;創(chuàng)建一切適用于基因組信息分析的新方法、新技術(shù)。包括引入復(fù)雜系統(tǒng)分析技術(shù)、信息系統(tǒng)分析技術(shù)等;建立嚴(yán)格的多序列比較方法;發(fā)展與應(yīng)用密碼學(xué)方法以及其他算法和分析技術(shù),用于解釋基因組的信息,探索DNA序列及其空間結(jié)構(gòu)信息的新表征;發(fā)展研究基因組完整信息結(jié)構(gòu)和信息網(wǎng)絡(luò)的研究方法等;發(fā)展生物大分子空間結(jié)構(gòu)模擬、電子結(jié)構(gòu)模擬和藥物設(shè)計(jì)的新方法與新技術(shù)。 應(yīng)用與發(fā)展研究。匯集與疾病相關(guān)的人類(lèi)基因信息,發(fā)展患者樣品序列信息檢測(cè)技術(shù)和基于序列信息選擇表達(dá)載體、引物的技術(shù),建立與動(dòng)植物良種繁育相關(guān)的數(shù)據(jù)庫(kù)以及與大分子設(shè)計(jì)和藥物設(shè)計(jì)相關(guān)的數(shù)據(jù)庫(kù)。 利用生物信息學(xué)方法進(jìn)行結(jié)構(gòu)功能預(yù)測(cè)要注意的是同一問(wèn)題采用不同算法,可能產(chǎn)生相同或不同的結(jié)果。因此,必要弄清楚某種方法的基本原理,而不是僅把算法當(dāng)作一個(gè)“黑箱”。因?yàn)橐环N方法可能對(duì)特定實(shí)例很合適,而對(duì)另一個(gè)則完全不對(duì)。因此,本章采用原理和實(shí)用方法并重的原則進(jìn)行介紹。因生物信息學(xué)覆蓋面廣,限于篇幅,本章并未將生物信息學(xué)的全部?jī)?nèi)容詳細(xì)加以講述,僅針對(duì)與目前分子生物學(xué)實(shí)驗(yàn)數(shù)據(jù)分析密切相關(guān)的生物信息學(xué)策略及實(shí)用工具進(jìn)行扼要介紹,文中涉及問(wèn)題的更詳細(xì)信息可參考相關(guān)網(wǎng)站。 [ Last edited by BlueGuy on 2005-6-7 at 16:47 ] |
榮譽(yù)版主 (正式寫(xiě)手)
懶懶的小蟲(chóng)蟲(chóng)
|
2 生物信息數(shù)據(jù)庫(kù)與查詢(xún) 近年來(lái)大量生物學(xué)實(shí)驗(yàn)的數(shù)據(jù)積累,形成了當(dāng)前數(shù)以百計(jì)的生物信息數(shù)據(jù)庫(kù)。它們各自按一定的目標(biāo)收集和整理生物學(xué)實(shí)驗(yàn)數(shù)據(jù),并提供相關(guān)的數(shù)據(jù)查詢(xún)、數(shù)據(jù)處理的服務(wù)。隨著因特網(wǎng)的普及,這些數(shù)據(jù)庫(kù)大多可以通過(guò)網(wǎng)絡(luò)來(lái)訪(fǎng)問(wèn),或者通過(guò)網(wǎng)絡(luò)下載。 一般而言,這些生物信息數(shù)據(jù)庫(kù)可以分為一級(jí)數(shù)據(jù)庫(kù)和二級(jí)數(shù)據(jù)庫(kù)。一級(jí)數(shù)據(jù)庫(kù)的數(shù)據(jù)都直接來(lái)源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過(guò)簡(jiǎn)單的歸類(lèi)整理和注釋?zhuān)欢?jí)數(shù)據(jù)庫(kù)是在一級(jí)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定目標(biāo)衍生而來(lái),是對(duì)生物學(xué)知識(shí)和信息的進(jìn)一步整理。國(guó)際上著名的一級(jí)核酸數(shù)據(jù)庫(kù)有Genbank數(shù)據(jù)庫(kù)、EMBL核酸庫(kù)和DDBJ庫(kù)等;蛋白質(zhì)序列數(shù)據(jù)庫(kù)有SWISS-PROT、PIR等;蛋白質(zhì)結(jié)構(gòu)庫(kù)有PDB等。國(guó)際上二級(jí)生物學(xué)數(shù)據(jù)庫(kù)非常多,它們因針對(duì)不同的研究?jī)?nèi)容和需要而各具特色,如人類(lèi)基因組圖譜庫(kù)GDB、轉(zhuǎn)錄因子和結(jié)合位點(diǎn)庫(kù)TRANSFAC、蛋白質(zhì)結(jié)構(gòu)家族分類(lèi)庫(kù)SCOP等等。 下面將順序簡(jiǎn)要介紹一些著名和有特色的生物信息數(shù)據(jù)庫(kù)。 2.1 基因和基因組數(shù)據(jù)庫(kù) 1. Genbank Genbank庫(kù)包含了所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關(guān)的文獻(xiàn)著作和生物學(xué)注釋。它是由美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)建立和維護(hù)的。它的數(shù)據(jù)直接來(lái)源于測(cè)序工作者提交的序列;由測(cè)序中心提交的大量EST序列和其它測(cè)序數(shù)據(jù);以及與其它數(shù)據(jù)機(jī)構(gòu)協(xié)作交換數(shù)據(jù)而來(lái)。Genbank每天都會(huì)與歐洲分子生物學(xué)實(shí)驗(yàn)室(EMBL)的數(shù)據(jù)庫(kù),和日本的DNA數(shù)據(jù)庫(kù)(DDBJ)交換數(shù)據(jù),使這三個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)同步。到1999年8月,Genbank中收集的序列數(shù)量達(dá)到460萬(wàn)條,34億個(gè)堿基,而且數(shù)據(jù)增長(zhǎng)的速度還在不斷加快。Genbank的數(shù)據(jù)可以從NCBI的FTP服務(wù)器上免費(fèi)下載完整的庫(kù),或下載積累的新數(shù)據(jù)。NCBI還提供廣泛的數(shù)據(jù)查詢(xún)、序列相似性搜索以及其它分析服務(wù),用戶(hù)可以從NCBI的主頁(yè)上找到這些服務(wù)。 Genbank庫(kù)里的數(shù)據(jù)按來(lái)源于約55,000個(gè)物種,其中56%是人類(lèi)的基因組序列(所有序列中的34%是人類(lèi)的EST序列)。每條Genbank數(shù)據(jù)記錄包含了對(duì)序列的簡(jiǎn)要描述,它的科學(xué)命名,物種分類(lèi)名稱(chēng),參考文獻(xiàn),序列特征表,以及序列本身。序列特征表里包含對(duì)序列生物學(xué)特征注釋如:編碼區(qū)、轉(zhuǎn)錄單元、重復(fù)區(qū)域、突變位點(diǎn)或修飾位點(diǎn)等。所有數(shù)據(jù)記錄被劃分在若干個(gè)文件里,如細(xì)菌類(lèi)、病毒類(lèi)、靈長(zhǎng)類(lèi)、嚙齒類(lèi),以及EST數(shù)據(jù)、基因組測(cè)序數(shù)據(jù)、大規(guī)模基因組序列數(shù)據(jù)等16類(lèi),其中EST數(shù)據(jù)等又被各自分成若干個(gè)文件。 (1)Genbank數(shù)據(jù)檢索 NCBI的數(shù)據(jù)庫(kù)檢索查詢(xún)系統(tǒng)是Entrez。Entrez是基于Web界面的綜合生物信息數(shù)據(jù)庫(kù)檢索系統(tǒng)。利用Entrez系統(tǒng),用戶(hù)不僅可以方便地檢索Genbank的核酸數(shù)據(jù),還可以檢索來(lái)自Genbank和其它數(shù)據(jù)庫(kù)的蛋白質(zhì)序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、來(lái)自分子模型數(shù)據(jù)庫(kù)(MMDB)的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群序列數(shù)據(jù)集、以及由PubMed獲得Medline的文獻(xiàn)數(shù)據(jù)。 Entrez提供了方便實(shí)用的檢索服務(wù),所有操作都可以在網(wǎng)絡(luò)瀏覽器上完成。用戶(hù)可以利用Entrez界面上提供的限制條件(Limits)、索引(Index)、檢索歷史(History)和剪貼板(Clipboard)等功能來(lái)實(shí)現(xiàn)復(fù)雜的檢索查詢(xún)工作。對(duì)于檢索獲得的記錄,用戶(hù)可以選擇需要顯示的數(shù)據(jù),保存查詢(xún)結(jié)果,甚至以圖形方式觀看檢索獲得的序列。更詳細(xì)的Entrez使用說(shuō)明可以在該主頁(yè)上獲得。 (2)向Genbank提交序列數(shù)據(jù) 測(cè)序工作者可以把自己工作中獲得的新序列提交給NCBI,添加到Genbank數(shù)據(jù)庫(kù)。這個(gè)任務(wù)可以由基于Web界面的BankIt或獨(dú)立程序Sequin來(lái)完成。 BankIt是一系列表單,包括聯(lián)絡(luò)信息、發(fā)布要求、引用參考信息、序列來(lái)源信息、以及序列本身的信息等。用戶(hù)提交序列后,會(huì)從電子郵件收到自動(dòng)生成的數(shù)據(jù)條目,Genbank的新序列編號(hào),以及完成注釋后的完整的數(shù)據(jù)記錄。用戶(hù)還可以在BankIt頁(yè)面下修改已經(jīng)發(fā)布序列的信息。BankIt適合于獨(dú)立測(cè)序工作者提交少量序列,而不適合大量序列的提交,也不適合提交很長(zhǎng)的序列,EST序列和GSS序列也不應(yīng)用BankIt提交。BankIt使用說(shuō)明和對(duì)序列的要求可詳見(jiàn)其主頁(yè)面。 大量的序列提交可以由Sequin程序完成。Sequin程序能方便的編輯和處理復(fù)雜注釋?zhuān)幌盗袃?nèi)建的檢查函數(shù)來(lái)提高序列的質(zhì)量保證。它還被設(shè)計(jì)用于提交來(lái)自系統(tǒng)進(jìn)化、種群和突變研究的序列,可以加入比對(duì)的數(shù)據(jù)。Sequin除了用于編輯和修改序列數(shù)據(jù)記錄,還可以用于序列的分析,任何以FASTA或ASN.1格式序列為輸入數(shù)據(jù)的序列分析程序都可以整合到Sequin程序下。在不同操作系統(tǒng)下運(yùn)行的Sequin程序都可以在ftp://ncbi.nlm.nih.gov/sequin/下找到,Sequin的使用說(shuō)明可詳見(jiàn)其網(wǎng)頁(yè)。 NCBI的網(wǎng)址是:http://www.ncbi.nlm.nih.gov。 Entrez的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/entrez/。 BankIt的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/BankIt。 Sequin的相關(guān)網(wǎng)址是:http://www.ncbi.nlm.nih.gov/Sequin/。 2. EMBL核酸序列數(shù)據(jù)庫(kù) EMBL核酸序列數(shù)據(jù)庫(kù)由歐洲生物信息學(xué)研究所(EBI)維護(hù)的核酸序列數(shù)據(jù)構(gòu)成,由于與Genbank和DDBJ的數(shù)據(jù)合作交換,它也是一個(gè)全面的核酸序列數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)由Oracal數(shù)據(jù)庫(kù)系統(tǒng)管理維護(hù),查詢(xún)檢索可以通過(guò)通過(guò)因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務(wù)完成。向EMBL核酸序列數(shù)據(jù)庫(kù)提交序列可以通過(guò)基于Web的WEBIN工具,也可以用Sequin軟件來(lái)完成。 數(shù)據(jù)庫(kù)網(wǎng)址是:http://www.ebi.ac.uk/embl/。 SRS的網(wǎng)址是:http://srs.ebi.ac.uk/。 WEBIN的網(wǎng)址是:http://www.ebi.ac.uk/embl/Submission/webin.html。 3. DDBJ數(shù)據(jù)庫(kù) 日本DNA數(shù)據(jù)倉(cāng)庫(kù)(DDBJ)也是一個(gè)全面的核酸序列數(shù)據(jù)庫(kù),與Genbank和EMBL核酸庫(kù)合作交換數(shù)據(jù)。可以使用其主頁(yè)上提供的SRS工具進(jìn)行數(shù)據(jù)檢索和序列分析?梢杂肧equin軟件向該數(shù)據(jù)庫(kù)提交序列。 DDBJ的網(wǎng)址是:http://www.ddbj.nig.ac.jp/。 4. GDB 基因組數(shù)據(jù)庫(kù)(GDB)為人類(lèi)基因組計(jì)劃(HGP)保存和處理基因組圖譜數(shù)據(jù)。GDB的目標(biāo)是構(gòu)建關(guān)于人類(lèi)基因組的百科全書(shū),除了構(gòu)建基因組圖譜之外,還開(kāi)發(fā)了描述序列水平的基因組內(nèi)容的方法,包括序列變異和其它對(duì)功能和表型的描述。目前GDB中有:人類(lèi)基因組區(qū)域(包括基因、克隆、amplimers PCR 標(biāo)記、斷點(diǎn)breakpoints、細(xì)胞遺傳標(biāo)記cytogenetic markers、易碎位點(diǎn)fragile sites、EST序列、綜合區(qū)域syndromic regions、contigs和重復(fù)序列);人類(lèi)基因組圖譜(包括細(xì)胞遺傳圖譜、連接圖譜、放射性雜交圖譜、content contig圖譜和綜合圖譜等);人類(lèi)基因組內(nèi)的變異(包括突變和多態(tài)性,加上等位基因頻率數(shù)據(jù))。GDB數(shù)據(jù)庫(kù)以對(duì)象模型來(lái)保存數(shù)據(jù),提供基于Web的數(shù)據(jù)對(duì)象檢索服務(wù),用戶(hù)可以搜索各種類(lèi)型的對(duì)象,并以圖形方式觀看基因組圖譜。 GDB的網(wǎng)址是:http://www.gdb.org。 GDB的國(guó)內(nèi)鏡像是:http://gdb.pku.edu.cn/gdb/。 2.2 蛋白質(zhì)數(shù)據(jù)庫(kù) 1. PIR和PSD PIR國(guó)際蛋白質(zhì)序列數(shù)據(jù)庫(kù)(PSD)是由蛋白質(zhì)信息資源(PIR)、慕尼黑蛋白質(zhì)序列信息中心(MIPS)和日本國(guó)際蛋白質(zhì)序列數(shù)據(jù)庫(kù)(JIPID)共同維護(hù)的國(guó)際上最大的公共蛋白質(zhì)序列數(shù)據(jù)庫(kù)。這是一個(gè)全面的、經(jīng)過(guò)注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫(kù),包含超過(guò)142,000條蛋白質(zhì)序列(至99年9月),其中包括來(lái)自幾十個(gè)完整基因組的蛋白質(zhì)序列。所有序列數(shù)據(jù)都經(jīng)過(guò)整理,超過(guò)99%的序列已按蛋白質(zhì)家族分類(lèi),一半以上還按蛋白質(zhì)超家族進(jìn)行了分類(lèi)。PSD的注釋中還包括對(duì)許多序列、結(jié)構(gòu)、基因組和文獻(xiàn)數(shù)據(jù)庫(kù)的交叉索引,以及數(shù)據(jù)庫(kù)內(nèi)部條目之間的索引,這些內(nèi)部索引幫助用戶(hù)在包括復(fù)合物、酶-底物相互作用、活化和調(diào)控級(jí)聯(lián)和具有共同特征的條目之間方便的檢索。每季度都發(fā)行一次完整的數(shù)據(jù)庫(kù),每周可以得到更新部分。 PSD數(shù)據(jù)庫(kù)有幾個(gè)輔助數(shù)據(jù)庫(kù),如基于超家族的非冗余庫(kù)等。PIR提供三類(lèi)序列搜索服務(wù):基于文本的交互式檢索;標(biāo)準(zhǔn)的序列相似性搜索,包括BLAST、FASTA等;結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級(jí)搜索,包括按注釋分類(lèi)的相似性搜索、結(jié)構(gòu)域搜索GeneFIND等。 PIR和PSD的網(wǎng)址是:http://pir.georgetown.edu/。 數(shù)據(jù)庫(kù)下載地址是:ftp://nbrfa.georgetown.edu/pir/。 2. SWISS-PROT SWISS-PROT是經(jīng)過(guò)注釋的蛋白質(zhì)序列數(shù)據(jù)庫(kù),由歐洲生物信息學(xué)研究所(EBI)維護(hù)。數(shù)據(jù)庫(kù)由蛋白質(zhì)序列條目構(gòu)成,每個(gè)條目包含蛋白質(zhì)序列、引用文獻(xiàn)信息、分類(lèi)學(xué)信息、注釋等,注釋中包括蛋白質(zhì)的功能、轉(zhuǎn)錄后修飾、特殊位點(diǎn)和區(qū)域、二級(jí)結(jié)構(gòu)、四級(jí)結(jié)構(gòu)、與其它序列的相似性、序列殘缺與疾病的關(guān)系、序列變異體和沖突等信息。SWISS-PROT中盡可能減少了冗余序列,并與其它30多個(gè)數(shù)據(jù)建立了交叉引用,其中包括核酸序列庫(kù)、蛋白質(zhì)序列庫(kù)和蛋白質(zhì)結(jié)構(gòu)庫(kù)等。 利用序列提取系統(tǒng)(SRS)可以方便地檢索SWISS-PROT和其它EBI的數(shù)據(jù)庫(kù)。 SWISS-PROT只接受直接測(cè)序獲得的蛋白質(zhì)序列,序列提交可以在其Web頁(yè)面上完成。 SWISS-PROT的網(wǎng)址是:http://www.ebi.ac.uk/swissprot/。 3. PROSITE PROSITE數(shù)據(jù)庫(kù)收集了生物學(xué)有顯著意義的蛋白質(zhì)位點(diǎn)和序列模式,并能根據(jù)這些位點(diǎn)和模式快速和可靠地鑒別一個(gè)未知功能的蛋白質(zhì)序列應(yīng)該屬于哪一個(gè)蛋白質(zhì)家族。有的情況下,某個(gè)蛋白質(zhì)與已知功能蛋白質(zhì)的整體序列相似性很低,但由于功能的需要保留了與功能密切相關(guān)的序列模式,這樣就可能通過(guò)PROSITE的搜索找到隱含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點(diǎn)、配體結(jié)合位點(diǎn)、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等;除了序列模式之外,PROSITE還包括由多序列比對(duì)構(gòu)建的profile,能更敏感地發(fā)現(xiàn)序列與profile的相似性。PROSITE的主頁(yè)上提供各種相關(guān)檢索服務(wù)。 PROSITE的網(wǎng)址是:http://www.expasy.ch/prosite/。 4. PDB 蛋白質(zhì)數(shù)據(jù)倉(cāng)庫(kù)(PDB)是國(guó)際上唯一的生物大分子結(jié)構(gòu)數(shù)據(jù)檔案庫(kù),由美國(guó)Brookhaven國(guó)家實(shí)驗(yàn)室建立。PDB收集的數(shù)據(jù)來(lái)源于X光晶體衍射和核磁共振(NMR)的數(shù)據(jù),經(jīng)過(guò)整理和確認(rèn)后存檔而成。目前PDB數(shù)據(jù)庫(kù)的維護(hù)由結(jié)構(gòu)生物信息學(xué)研究合作組織(RCSB)負(fù)責(zé)。RCSB的主服務(wù)器和世界各地的鏡像服務(wù)器提供數(shù)據(jù)庫(kù)的檢索和下載服務(wù),以及關(guān)于PDB數(shù)據(jù)文件格式和其它文檔的說(shuō)明,PDB數(shù)據(jù)還可以從發(fā)行的光盤(pán)獲得。使用Rasmol等軟件可以在計(jì)算機(jī)上按PDB文件顯示生物大分子的三維結(jié)構(gòu)。 RCSB的PDB數(shù)據(jù)庫(kù)網(wǎng)址是:http://www.rcsb.org/pdb/。 5. SCOP 蛋白質(zhì)結(jié)構(gòu)分類(lèi)(SCOP)數(shù)據(jù)庫(kù)詳細(xì)描述了已知的蛋白質(zhì)結(jié)構(gòu)之間的關(guān)系。分類(lèi)基于若干層次:家族,描述相近的進(jìn)化關(guān)系;超家族,描述遠(yuǎn)源的進(jìn)化關(guān)系;折疊子(fold),描述空間幾何結(jié)構(gòu)的關(guān)系;折疊類(lèi),所有折疊子被歸于全α、全β、α/β、α+β和多結(jié)構(gòu)域等幾個(gè)大類(lèi)。SCOP還提供一個(gè)非冗余的ASTRAIL序列庫(kù),這個(gè)庫(kù)通常被用來(lái)評(píng)估各種序列比對(duì)算法。此外,SCOP還提供一個(gè)PDB-ISL中介序列庫(kù),通過(guò)與這個(gè)庫(kù)中序列的兩兩比對(duì),可以找到與未知結(jié)構(gòu)序列遠(yuǎn)緣的已知結(jié)構(gòu)序列。 SCOP的網(wǎng)址是:http://scop.mrc-lmb.cam.ac.uk/scop/。 6. COG 蛋白質(zhì)直系同源簇(COGs)數(shù)據(jù)庫(kù)是對(duì)細(xì)菌、藻類(lèi)和真核生物的21個(gè)完整基因組的編碼蛋白,根據(jù)系統(tǒng)進(jìn)化關(guān)系分類(lèi)構(gòu)建而成。COG庫(kù)對(duì)于預(yù)測(cè)單個(gè)蛋白質(zhì)的功能和整個(gè)新基因組中蛋白質(zhì)的功能都很有用。利用COGNITOR程序,可以把某個(gè)蛋白質(zhì)與所有COGs中的蛋白質(zhì)進(jìn)行比對(duì),并把它歸入適當(dāng)?shù)腃OG簇。COG庫(kù)提供了對(duì)COG分類(lèi)數(shù)據(jù)的檢索和查詢(xún),基于Web的COGNITOR服務(wù),系統(tǒng)進(jìn)化模式的查詢(xún)服務(wù)等。 COG庫(kù)的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/COG。 下載COG庫(kù)和COGNITOR程序在:ftp://ncbi.nlm.nih.gov/pub/COG。 2.3 功能數(shù)據(jù)庫(kù) 1. KEGG 京都基因和基因組百科全書(shū)(KEGG)是系統(tǒng)分析基因功能,聯(lián)系基因組信息和功能信息的知識(shí)庫(kù)。基因組信息存儲(chǔ)在GENES數(shù)據(jù)庫(kù)里,包括完整和部分測(cè)序的基因組序列;更高級(jí)的功能信息存儲(chǔ)在PATHWAY數(shù)據(jù)庫(kù)里,包括圖解的細(xì)胞生化過(guò)程如代謝、膜轉(zhuǎn)運(yùn)、信號(hào)傳遞、細(xì)胞周期,還包括同系保守的子通路等信息;KEGG的另一個(gè)數(shù)據(jù)庫(kù)是LIGAND,包含關(guān)于化學(xué)物質(zhì)、酶分子、酶反應(yīng)等信息。KEGG提供了Java的圖形工具來(lái)訪(fǎng)問(wèn)基因組圖譜,比較基因組圖譜和操作表達(dá)圖譜,以及其它序列比較、圖形比較和通路計(jì)算的工具,可以免費(fèi)獲取。 KEGG的網(wǎng)址是:。 2. DIP 相互作用的蛋白質(zhì)數(shù)據(jù)庫(kù)(DIP)收集了由實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)-蛋白質(zhì)相互作用。數(shù)據(jù)庫(kù)包括蛋白質(zhì)的信息、相互作用的信息和檢測(cè)相互作用的實(shí)驗(yàn)技術(shù)三個(gè)部分。用戶(hù)可以根據(jù)蛋白質(zhì)、生物物種、蛋白質(zhì)超家族、關(guān)鍵詞、實(shí)驗(yàn)技術(shù)或引用文獻(xiàn)來(lái)查詢(xún)DIP數(shù)據(jù)庫(kù)。 DIP的網(wǎng)址是:http://dip.doe-mbi.ucla.edu/。 3. ASDB 可變剪接數(shù)據(jù)庫(kù)(ASDB)包括蛋白質(zhì)庫(kù)和核酸庫(kù)兩部分。ASDB(蛋白質(zhì))部分來(lái)源于SWISS-PROT蛋白質(zhì)序列庫(kù),通過(guò)選取有可變剪接注釋的序列,搜索相關(guān)可變剪接的序列,經(jīng)過(guò)序列比對(duì)、篩選和分類(lèi)構(gòu)建而成。ASDB(核酸)部分來(lái)自Genbank中提及和注釋的可變剪接的完整基因構(gòu)成。數(shù)據(jù)庫(kù)提供了方便的搜索服務(wù)。 ASDB的網(wǎng)址是:http://cbcg.nersc.gov/asdb。 4. TRRD 轉(zhuǎn)錄調(diào)控區(qū)數(shù)據(jù)庫(kù)(TRRD)是在不斷積累的真核生物基因調(diào)控區(qū)結(jié)構(gòu)-功能特性信息基礎(chǔ)上構(gòu)建的。每一個(gè)TRRD的條目里包含特定基因各種結(jié)構(gòu)-功能特性:轉(zhuǎn)錄因子結(jié)合位點(diǎn)、啟動(dòng)子、增強(qiáng)子、靜默子、以及基因表達(dá)調(diào)控模式等。TRRD包括五個(gè)相關(guān)的數(shù)據(jù)表:TRRDGENES(包含所有TRRD庫(kù)基因的基本信息和調(diào)控單元信息);TRRDSITES(包括調(diào)控因子結(jié)合位點(diǎn)的具體信息);TRRDFACTORS(包括TRRD中與各個(gè)位點(diǎn)結(jié)合的調(diào)控因子的具體信息);TRRDEXP(包括對(duì)基因表達(dá)模式的具體描述);TRRDBIB(包括所有注釋涉及的參考文獻(xiàn))。TRRD主頁(yè)提供了對(duì)這幾個(gè)數(shù)據(jù)表的檢索服務(wù)。 TRRD的網(wǎng)址是:http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/。 5. TRANSFAC TRANSFAC數(shù)據(jù)庫(kù)是關(guān)于轉(zhuǎn)錄因子、它們?cè)诨蚪M上的結(jié)合位點(diǎn)和與DNA結(jié)合的profiles的數(shù)據(jù)庫(kù)。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等數(shù)據(jù)表構(gòu)成。此外,還有幾個(gè)與TRANSFAC密切相關(guān)的擴(kuò)展庫(kù):PATHODB庫(kù)收集了可能導(dǎo)致病態(tài)的突變的轉(zhuǎn)錄因子和結(jié)合位點(diǎn);S/MART DB收集了與染色體結(jié)構(gòu)變化相關(guān)的蛋白因子和位點(diǎn)的信息;TRANSPATH庫(kù)用于描述與轉(zhuǎn)錄因子調(diào)控相關(guān)的信號(hào)傳遞的網(wǎng)絡(luò);CYTOMER庫(kù)表現(xiàn)了人類(lèi)轉(zhuǎn)錄因子在各個(gè)器官、細(xì)胞類(lèi)型、生理系統(tǒng)和發(fā)育時(shí)期的表達(dá)狀況。TRANSFAC及其相關(guān)數(shù)據(jù)庫(kù)可以免費(fèi)下載,也可以通過(guò)Web進(jìn)行檢索和查詢(xún)。 TRANSFAC的網(wǎng)址是:http://transfac.gbf.de/TRANSFAC/。 2.4 其它數(shù)據(jù)庫(kù)資源 1. DBCat DBCat是生物信息數(shù)據(jù)庫(kù)的目錄數(shù)據(jù)庫(kù),它收集了500多個(gè)生物信息學(xué)數(shù)據(jù)庫(kù)的信息,并根據(jù)它們的應(yīng)用領(lǐng)域進(jìn)行了分類(lèi)。包括DNA、RNA、蛋白質(zhì)、基因組、圖譜、蛋白質(zhì)結(jié)構(gòu)、文獻(xiàn)著作等基本類(lèi)型。數(shù)據(jù)庫(kù)可以免費(fèi)下載或在網(wǎng)絡(luò)上檢索查詢(xún)。 DBCat的網(wǎng)址是:http://www.infobiogen.fr/services/dbcat/。 下載DBCat在:ftp://ftp.infobiogen.fr/pub/db/dbcat。 2. PubMed PubMed是NCBI維護(hù)的文獻(xiàn)引用數(shù)據(jù)庫(kù),提供對(duì)MEDLINE、Pre-MEDLINE等文獻(xiàn)數(shù)據(jù)庫(kù)的引用查詢(xún)和對(duì)大量網(wǎng)絡(luò)科學(xué)類(lèi)電子期刊的鏈接。利用Entrez系統(tǒng)可以對(duì)PubMed進(jìn)行方便的查詢(xún)檢索。 PubMed的網(wǎng)址是:http://www.ncbi.nlm.nih.gov/。 除了以上提及的數(shù)據(jù)之外,還有許許多多的專(zhuān)門(mén)生物信息數(shù)據(jù)庫(kù),涉及了目前生物學(xué)研究的各個(gè)層面和領(lǐng)域,由于篇幅所限無(wú)法一一詳述。國(guó)內(nèi)也有一些大數(shù)據(jù)庫(kù)的鏡像站點(diǎn)和自己開(kāi)發(fā)的有特色的數(shù)據(jù)庫(kù),如歐洲分子生物學(xué)網(wǎng)絡(luò)組織EMBNet中國(guó)節(jié)點(diǎn)北京大學(xué)分子生物信息鏡像系統(tǒng),上海博容基因公司與上海嘉瑞軟件公司合作開(kāi)發(fā)的國(guó)產(chǎn)漢化基因數(shù)據(jù)庫(kù)及分析管理系統(tǒng),同時(shí)國(guó)家級(jí)的生物信息學(xué)中心也在籌建之中。我們期待國(guó)內(nèi)能有更多高質(zhì)量和使用便利的數(shù)據(jù)庫(kù)資源,推動(dòng)我國(guó)生物信息學(xué)和整個(gè)生命科學(xué)的發(fā)展。 清華大學(xué)生物信息學(xué)研究所網(wǎng)址:http://bioinfo.tsinghua.edu.cn 北京大學(xué)生物信息鏡像系統(tǒng)網(wǎng)址:http://cbi.pku.edu.cn |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 275求調(diào)劑 +15 | Micky11223 2026-03-25 | 20/1000 |
|
|---|---|---|---|---|
|
[考研] 070305高分子化學(xué)與物理 304分求調(diào)劑 +12 | c297914 2026-03-28 | 12/600 |
|
|
[考研] 求調(diào)劑,一志愿 南京航空航天大學(xué) ,080500材料科學(xué)與工程學(xué)碩,總分289分 +7 | @taotao 2026-03-29 | 7/350 |
|
|
[考研] 0856求調(diào)劑 +7 | 楒桉 2026-03-28 | 7/350 |
|
|
[考研] 330分求調(diào)劑 +5 | qzenlc 2026-03-29 | 5/250 |
|
|
[考研] 085701求調(diào)劑初試286分 +4 | secret0328 2026-03-28 | 4/200 |
|
|
[考研] 283求調(diào)劑 +3 | A child 2026-03-28 | 3/150 |
|
|
[考研] 299求調(diào)劑 +7 | 嗯嗯嗯嗯2 2026-03-27 | 7/350 |
|
|
[考研] 266分,求材料冶金能源化工等調(diào)劑 +7 | 哇呼哼呼哼 2026-03-27 | 9/450 |
|
|
[考研] 266求調(diào)劑 +11 | 陽(yáng)陽(yáng)哇塞 2026-03-27 | 12/600 |
|
|
[考研] 考研調(diào)劑 +4 | Sanmu-124 2026-03-26 | 4/200 |
|
|
[考研] 085600,材料與化工321分調(diào)劑 +4 | 大饞小子 2026-03-27 | 6/300 |
|
|
[考研] 085601 材料工程 313分 求調(diào)劑 +5 | Ong3 2026-03-27 | 5/250 |
|
|
[考研] 調(diào)劑推薦 +5 | 清酒714 2026-03-26 | 6/300 |
|
|
[考研] 求調(diào)劑,一志愿 南京航空航天大學(xué)大學(xué) ,080500材料科學(xué)與工程學(xué)碩 +4 | @taotao 2026-03-26 | 5/250 |
|
|
[考研] 調(diào)劑 +4 | 柚柚yoyo 2026-03-26 | 4/200 |
|
|
[考研] 考研一志愿蘇州大學(xué)初始315(英一)求調(diào)劑 +3 | sbdksD 2026-03-24 | 4/200 |
|
|
[考研] 求調(diào)劑 +6 | 研研,接電話(huà) 2026-03-24 | 7/350 |
|
|
[考研] 080500求調(diào)劑 +3 | zzzzfan 2026-03-24 | 3/150 |
|
|
[論文投稿] 急發(fā)核心期刊論文 +3 | 賢達(dá)問(wèn)津 2026-03-23 | 5/250 |
|