版塊導(dǎo)航: 正在加載中...

應(yīng)《網(wǎng)絡(luò)安全法》要求，自2017年10月1日起，未進(jìn)行實(shí)名認(rèn)證將不得使用互聯(lián)網(wǎng)跟帖服務(wù)。為保障您的帳號(hào)能夠正常使用，請(qǐng)盡快對(duì)帳號(hào)進(jìn)行手機(jī)號(hào)驗(yàn)證，感謝您的理解與支持！

24小時(shí)熱門(mén)版塊排行榜

返回列表

當(dāng)前只顯示滿足指定條件的回帖，點(diǎn)擊這里查看本話題的所有回帖

BlueGuy

榮譽(yù)版主 (正式寫(xiě)手)

懶懶的小蟲(chóng)蟲(chóng)

應(yīng)助: 0 (幼兒園)
貴賓: 4.4
金幣: 2908.4
紅花: 3
帖子: 796
在線: 6.5小時(shí)
蟲(chóng)號(hào): 50895
注冊(cè): 2004-07-15
性別: GG
專(zhuān)業(yè): 細(xì)胞增殖、生長(zhǎng)與分化

[交流] 生物信息學(xué)專(zhuān)題－生物版，醫(yī)學(xué)版和信息科學(xué)版共同創(chuàng)建已有2人參與

為進(jìn)一步建好小木蟲(chóng)的專(zhuān)業(yè)學(xué)科版，現(xiàn)由生物版、醫(yī)學(xué)版和信息科學(xué)版共同創(chuàng)建生物信息學(xué)專(zhuān)題，歡迎大家積極參與！

引用回帖:

友情鏈接：生物版碩博研究生入學(xué)考試專(zhuān)題！重金懸賞！更新中......
http://www.gaoyang168.com/bbs/viewthread.php?tid=95236&fpage=2

[ Last edited by fishery on 2005-6-16 at 21:05 ]

回復(fù)此樓

» 收錄本帖的淘帖專(zhuān)輯推薦

生物信息學(xué)	高通量測(cè)序	生物信息-分析與挖掘	ENVIRON TECHNOL
劉安安

» 本帖已獲得的紅花（最新10朵）

凌波麗

爬坡的羊

» 猜你喜歡

07化學(xué)280分求調(diào)劑已經(jīng)有3人回復(fù)
考研化學(xué)308分求調(diào)劑已經(jīng)有8人回復(fù)
070300化學(xué)求調(diào)劑已經(jīng)有7人回復(fù)
生物學(xué)一志愿985，分?jǐn)?shù)349求調(diào)劑已經(jīng)有9人回復(fù)
341求調(diào)劑(一志愿湖南大學(xué)070300) 已經(jīng)有4人回復(fù)
336化工調(diào)劑已經(jīng)有5人回復(fù)
279分求調(diào)劑一志愿211 已經(jīng)有17人回復(fù)
291求調(diào)劑已經(jīng)有4人回復(fù)
328求調(diào)劑，英語(yǔ)六級(jí)551，有科研經(jīng)歷已經(jīng)有12人回復(fù)
一志愿上海交大生物與醫(yī)藥專(zhuān)碩324分，求調(diào)劑已經(jīng)有5人回復(fù)

» 本主題相關(guān)價(jià)值貼推薦，對(duì)您同樣有幫助:

生物信息學(xué) 已經(jīng)有184人回復(fù)
電子科技大學(xué)生物信息學(xué)方向招收3名調(diào)劑研究生已經(jīng)有29人回復(fù)
誠(chéng)招生物信息學(xué)博士研究生一位已經(jīng)有38人回復(fù)
【Journal Club】第3講水稻全基因組基因網(wǎng)絡(luò)生物信息學(xué)平臺(tái)的建立已經(jīng)有33人回復(fù)
生物信息學(xué) 找工作已經(jīng)有20人回復(fù)
華大基因發(fā)布生物信息學(xué)軟件已經(jīng)有11人回復(fù)
請(qǐng)問(wèn)生物信息學(xué)的標(biāo)書(shū)形式審查完了沒(méi)？已經(jīng)有10人回復(fù)
【原創(chuàng)】電子科技大學(xué)生命學(xué)院2011年研究生調(diào)劑--生物信息學(xué) 已經(jīng)有20人回復(fù)
生物信息學(xué)網(wǎng)址(國(guó)外）已經(jīng)有22人回復(fù)

1樓 2005-06-07 16:19:29

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

BlueGuy

榮譽(yù)版主 (正式寫(xiě)手)

懶懶的小蟲(chóng)蟲(chóng)

應(yīng)助: 0 (幼兒園)
貴賓: 4.4
金幣: 2908.4
紅花: 3
帖子: 796
在線: 6.5小時(shí)
蟲(chóng)號(hào): 50895
注冊(cè): 2004-07-15
性別: GG
專(zhuān)業(yè): 細(xì)胞增殖、生長(zhǎng)與分化

★
miRNA(金幣+1):謝謝！！

6 基因組序列信息分析

DNA序列自身編碼特征的分析是基因組信息學(xué)研究的基礎(chǔ)，特別是隨著大規(guī)模測(cè)序的日益增加，它的每一個(gè)環(huán)節(jié)都與信息分析緊密相關(guān)。從測(cè)序儀的光密度采樣與分析、堿基讀出、載體標(biāo)識(shí)與去除、拼接、填補(bǔ)序列間隙、到重復(fù)序列標(biāo)識(shí)、讀框預(yù)測(cè)和基因標(biāo)注的每一步都是緊密依賴基因組信息學(xué)的軟件和數(shù)據(jù)庫(kù)。特別是拼接和填補(bǔ)序列間隙更需要把實(shí)驗(yàn)設(shè)計(jì)和信息分析時(shí)刻聯(lián)系在一起。

基因組不僅是基因的簡(jiǎn)單排列，更重要的是它有其特有的組織結(jié)構(gòu)和信息結(jié)構(gòu)，這種結(jié)構(gòu)是在長(zhǎng)期的演化過(guò)程中產(chǎn)生的，也是基因發(fā)揮其功能所必須的。利用國(guó)際EST 數(shù)據(jù)庫(kù) (dbEST) 和各實(shí)驗(yàn)室測(cè)定的相應(yīng)數(shù)據(jù)，經(jīng)過(guò)大規(guī)模并行計(jì)算識(shí)別并預(yù)測(cè)新基因，新SNPs以及各種功能位點(diǎn)，如剪接與可變剪接位點(diǎn)等。

到2005年初在人類(lèi)的約3萬(wàn)個(gè)基因中有2.1萬(wàn)多個(gè)已被發(fā)現(xiàn)。由于新基因帶來(lái)的顯著經(jīng)濟(jì)效益和社會(huì)效益，它們成為了各國(guó)科學(xué)家當(dāng)前爭(zhēng)奪的熱點(diǎn)。EST序列 (Expressed Sequence Tags) 到1999年12月已搜集了約200萬(wàn)條，它大約覆蓋了人類(lèi)基因的 90％，因此如何利用這些信息發(fā)現(xiàn)新基因成了近幾年的重要研究課題。同時(shí)1998年國(guó)際上又開(kāi)展了以EST為主發(fā)現(xiàn)新SNPs的研究。因此利用EST數(shù)據(jù)庫(kù)發(fā)現(xiàn)新基因、新SNPs以及各種功能位點(diǎn)是近幾年的重要研究方向。

雖然對(duì)約占人類(lèi)基因組 95％的非編碼區(qū)的作用人們還不清楚，但從生物進(jìn)化的觀點(diǎn)看來(lái)，這部分序列必定具有重要的生物功能。普遍的認(rèn)識(shí)是，它們與基因在四維時(shí)空的表達(dá)調(diào)控有關(guān)。尋找這些區(qū)域的編碼特征，信息調(diào)節(jié)與表達(dá)規(guī)律是未來(lái)相當(dāng)長(zhǎng)時(shí)間內(nèi)的熱點(diǎn)，是取得重要成果的源泉。

在不同物種、不同進(jìn)化水平的生物的相關(guān)基因之間進(jìn)行比較分析，是基因研究的重要手段。目前，模式生物全基因組序列數(shù)據(jù)越來(lái)越多，因此，基因的比較研究，也必須從基因的比較，上升到對(duì)不同進(jìn)化水平的生物在全基因組水平上的比較研究。這樣的研究將更有效地揭示基因在生命系統(tǒng)中的地位和作用，解釋整個(gè)生命系統(tǒng)的組成和作用方式。

　

6.1 基因組序列分析工具

1. Wisconsin軟件包（GCG）

Genetics Computer Group公司開(kāi)發(fā)的Wisconsin軟件包，是一組綜合性的序列分析程序，使用公用的核酸和蛋白質(zhì)數(shù)據(jù)庫(kù)。SeqLab是其圖形用戶界面（GUI），通過(guò)它可以使用所有Wisconsin軟件包中的程序及其支持的數(shù)據(jù)庫(kù)。此外，它還提供了一個(gè)環(huán)境用于創(chuàng)建、顯示、編輯和注釋序列。SeqLab也可以被擴(kuò)展使其可以包括其它公用或非公用的程序和數(shù)據(jù)庫(kù)。

Wisconsin軟件包由120多個(gè)獨(dú)立的程序組成，每個(gè)程序進(jìn)行一項(xiàng)單一的分析任務(wù)。包括所有程序的完整目錄以及詳細(xì)的描述可以在Wisconsin軟件包的程序使用文檔中找到。GCG支持兩種核酸數(shù)據(jù)庫(kù)(GenBank數(shù)據(jù)庫(kù), 簡(jiǎn)化版的EMBL核酸序列數(shù)據(jù)庫(kù))和三種蛋白質(zhì)數(shù)據(jù)庫(kù)(PIR,SWISS-PROT, SP-TrEMBL)。這些數(shù)據(jù)庫(kù)既有GCG格式的（供大多數(shù)Wisconsin軟件包程序使用），也有BLAST格式的（供BLAST數(shù)據(jù)庫(kù)搜索程序使用）。同時(shí)還提供了用于LookUp程序以及數(shù)據(jù)庫(kù)參考搜索的索引。

關(guān)于GCG，Wisconsin軟件包，支持的平臺(tái)以及硬件需求的一般性信息可以在GCG的主頁(yè)以及Wisconsin軟件包的用戶手冊(cè)中找到。GCG主頁(yè)提供了更新信息以及Wisconsin軟件包程序的完整列表。

SeqLab中可以使用多個(gè)序列分析程序的特性使用戶可以應(yīng)用這些程序順序地回答相關(guān)問(wèn)題或在對(duì)輸入序列進(jìn)行編輯后重復(fù)某項(xiàng)分析。而可以同時(shí)訪問(wèn)公用數(shù)據(jù)庫(kù)和本機(jī)序列的優(yōu)點(diǎn)使用戶可以在一個(gè)分析中使用其中任意一種而不用先進(jìn)行轉(zhuǎn)換或格式化的工作。SeqLab可以解決的序列分析問(wèn)題：

(1)在兩條mRNA中尋找開(kāi)放閱讀框架，翻譯并對(duì)比RNA與蛋白質(zhì)序列

對(duì)兩條相關(guān)的mRNA進(jìn)行測(cè)序的用戶可能希望尋找開(kāi)放閱讀框架（ORF）、翻譯以及進(jìn)行核酸與氨基酸序列間的兩兩對(duì)比。

把序列加入SeqLab Editor中，從Functions菜單中選中Map選項(xiàng)運(yùn)行Map程序。Map輸出文件包含了限制性酶切圖和6種可能的翻譯框架的ORF的顯示。這些ORF的起始和終止位置可進(jìn)行標(biāo)記并選為SeqLab Editor中序列顯示的范圍，然后可用Edit菜單的Translate操作進(jìn)行翻譯。翻譯結(jié)果自動(dòng)出現(xiàn)在SeqLab Editor中。

兩條相關(guān)的核酸或蛋白質(zhì)序列可用Gap程序或BestFit程序進(jìn)行對(duì)比。Gap程序?qū)ふ覂蓷l序列間的全局最優(yōu)對(duì)比結(jié)果。適用于兩條待比對(duì)的序列是進(jìn)化相關(guān)的情況。BestFit程序?qū)ふ覂蓷l序列的局部最優(yōu)對(duì)比結(jié)果，它適用于兩條序列不是進(jìn)化相關(guān)而是功能相關(guān)的情況。

(2)通過(guò)參考搜索尋找數(shù)據(jù)庫(kù)中的相關(guān)條目并進(jìn)行對(duì)比

研究一個(gè)特征序列家族成員的用戶可能希望尋找這個(gè)家族中的其它成員并建立它們的多序列對(duì)比。

從Functions菜單中選取LookUp程序。LookUp在數(shù)據(jù)庫(kù)條目的參考信息部分搜索描述詞并建立匹配條目的列表。在參考部分的Definiton, Author, Keyword和Organism域中搜索描述詞并在詞之間使用“and”（&）、“or”（|）以及“but not”（�。┎紶柋磉_(dá)式。例如，在SWISS-PROT條目的Description域搜索“l(fā)actate & dehydrogenase & h & chain”將產(chǎn)生一個(gè)輸出文件，其中列出了乳酸脫氫酶 H 鏈（lactate dehydrogenase H chain）條目。這個(gè)輸出文件可以從Output Manager窗口中加以顯示，然后與用戶的序列一起添加到SeqLab Editor中。

要?jiǎng)?chuàng)建所有這些序列的多序列對(duì)比，只要根據(jù)序列名稱選中這些序列并從Functions菜單中運(yùn)行PileUp程序。由PileUp產(chǎn)生的多序列文件也列在Output Manager窗口中并可以直接添加到SeqLab Editor中。推薦采用這一步的原因在于數(shù)據(jù)庫(kù)條目的特征表格（Features table）信息可與對(duì)比結(jié)果一起被包括進(jìn)來(lái)。必要時(shí)對(duì)比結(jié)果是可以被編輯的，并且如果數(shù)據(jù)庫(kù)條目有相似的特征，這些特征可被附加給用戶序列。

(3)用查詢序列搜索數(shù)據(jù)庫(kù)，將找到的條目與查詢序列進(jìn)行對(duì)比并產(chǎn)生進(jìn)化系統(tǒng)樹(shù)

克隆并測(cè)序一個(gè)未知功能基因的用戶可能希望在一個(gè)數(shù)據(jù)庫(kù)中搜索相似的序列。如果搜索到了，用戶可能進(jìn)一步希望創(chuàng)建與查詢序列最相似的序列的多序列對(duì)比并產(chǎn)生數(shù)據(jù)的種系圖。

往SeqLab Editor中添加一個(gè)查詢序列并從Functions菜單中選取FASTA程序。FASTA程序在數(shù)據(jù)庫(kù)中搜索與查詢序列相似的序列。輸出文件可從Output Manager窗口中加以顯示并直接添加到SeqLab Editor中。在這個(gè)輸出文件中數(shù)據(jù)庫(kù)條目與查詢序列局部相似性最好的區(qū)域被加以標(biāo)記。如果要顯示的話，每個(gè)數(shù)據(jù)庫(kù)條目只有這種區(qū)域可以顯示在SeqLab Editor中。不要的條目可以從SeqLab Editor中一起被刪除。

從Functions菜單中選中PileUp程序創(chuàng)建這些序列的多序列對(duì)比。輸出可從Output Manager窗口中加以顯示并添加到SeqLab Editor中更新已經(jīng)存在的未對(duì)比序列。必要時(shí)可對(duì)這一對(duì)比結(jié)果進(jìn)行編輯，并且數(shù)據(jù)庫(kù)條目的有用的特征表格信息也可以添加給查詢序列。

從Functions菜單中選取PaupSearch程序，程序提供了一個(gè)PAUP（進(jìn)化系統(tǒng)簡(jiǎn)約性分析（Phylogenetic Analysis Using Parsimony））中樹(shù)搜索方式的GCG接口。PaupDisplay程序?yàn)镻AUP中的樹(shù)操作，鑒定以及顯示方式提供了一個(gè)GCG接口。

(4)拼接交疊序列片段產(chǎn)生一連續(xù)序列，尋找并翻譯這一序列的編碼區(qū)域并在數(shù)據(jù)庫(kù)中搜索相似序列

克隆了一個(gè)基因，把它分解克隆為一組有交疊的序列片段并進(jìn)行了測(cè)序的用戶可能希望把這些序列片段重新組裝為一條連續(xù)的序列。一旦contig拼接完成，用戶可能希望在序列中尋找閱讀框架，翻譯并在數(shù)據(jù)庫(kù)中搜索相似序列。

Fragment Assmbly System的程序可用于拼接交疊序列片段。GelStart程序創(chuàng)建一個(gè)項(xiàng)目。GelEnter程序把序列片段復(fù)制到項(xiàng)目中。GelMerge程序?qū)ふ移沃g的交疊并把它們拼接成contig。GelAssemble程序是一個(gè)編輯器，可用于編輯這些連續(xù)的部分并解決片段之間的沖突問(wèn)題。所有這些程序都可以從Functions菜單中選取。一旦拼接完成，最終構(gòu)成此contig的連續(xù)序列可以被保存為一個(gè)序列文件并添加到SeqLab Editor中。

使用Map、Frames、TestCode或Codon Preference程序可預(yù)測(cè)序列中的編碼區(qū)（所有這些程序可以從Functions菜單中選中）。使用Edit菜單的Select Range功能選擇這些程序預(yù)測(cè)的區(qū)域并使用Edit菜單中的翻譯操作把它們翻譯為蛋白質(zhì)。這些提出的翻譯區(qū)域也可以作為核酸共有序列的特征被加入。

選取蛋白質(zhì)序列然后選擇Functions菜單中BLAST。BLAST程序在數(shù)據(jù)庫(kù)中搜索與查詢序列相似的條目，此程序既可以進(jìn)行遠(yuǎn)程搜索也可以進(jìn)行本機(jī)搜索。搜索結(jié)果可以從Output Manager窗口中加以顯示。如果被搜索的是一個(gè)本機(jī)的數(shù)據(jù)庫(kù)，結(jié)果文件可以加入SeqLab Editor或Main List窗口中，并允許對(duì)找到的序列進(jìn)行進(jìn)一步分析。

(5)對(duì)比相關(guān)的蛋白質(zhì)序列，計(jì)算對(duì)比結(jié)果的共有序列，辨識(shí)序列中新的特征序列模式，在數(shù)據(jù)庫(kù)中搜索包含此模式的序列或在對(duì)比結(jié)果的共有序列中搜索已知的蛋白質(zhì)模式

辨識(shí)了一組相關(guān)序列的用戶可能希望對(duì)其進(jìn)行對(duì)比并計(jì)算對(duì)比結(jié)果的共有序列。如果可以在對(duì)比結(jié)果中找到保守模式，用戶可能希望在數(shù)據(jù)庫(kù)中搜索包含這種模式的其它序列。用戶可能還希望在計(jì)算出的共有序列搜索已知的蛋白質(zhì)模式。

選取待對(duì)比的序列，從Functions菜單中選取PileUp程序創(chuàng)建多序列對(duì)比，PileUp程序的輸出文件可從Output Manager窗口中加以顯示并添加到SeqLab Editor中。用戶可以對(duì)對(duì)比結(jié)果的某個(gè)區(qū)域重新加以對(duì)比并以此替換原有的對(duì)比結(jié)果。只要選取一個(gè)區(qū)域并重新運(yùn)行PileUp即可。從PileUp Options窗口中選取"realign a portion of an existing alignment（重新對(duì)比一個(gè)已存在的對(duì)比結(jié)果的一部分）"，這可能有利于選擇一個(gè)替代評(píng)分矩陣或不同的創(chuàng)建和擴(kuò)展處罰。新的輸出文件將包含最初的對(duì)比結(jié)果以及替換原始對(duì)比結(jié)果的重新對(duì)比的區(qū)域。

用Edit菜單中Consensus操作計(jì)算對(duì)比結(jié)果的共有序列。如果保守模式可被辨識(shí)，從Functions菜單中選取FindPatterns選項(xiàng)。從共有序列中剪切下此特征序列模式并把它粘貼到FindPatterns模式選擇器中，并在數(shù)據(jù)庫(kù)中搜索包含這一模式的序列。

此外，運(yùn)行Motif程序可在共有序列中搜索已知的蛋白質(zhì)模式。Motif在蛋白質(zhì)序列中搜索在PROSITE，蛋白質(zhì)位點(diǎn)和模式的PROSITE字典中已知的蛋白質(zhì)模式。如果辨識(shí)出一個(gè)Motif，則給所有序列增加一個(gè)特征，并標(biāo)出它的位置。圖4.9顯示了一個(gè)蛋白質(zhì)序列的匹配、一個(gè)共有序列以及Motif搜索的結(jié)果。

(6)使用Profile進(jìn)行相似性搜索并對(duì)比相關(guān)序列

序列分析的一個(gè)新的擴(kuò)展領(lǐng)域是Profile技術(shù)。一個(gè)profile是一個(gè)位置特定的評(píng)分矩陣，它包含了一個(gè)序列對(duì)比結(jié)果中每個(gè)位置的所有殘基信息。這一點(diǎn)與共有序列不同，共有序列中只包含每個(gè)位置的保守殘基的信息。Profile做好后可用于搜索數(shù)據(jù)庫(kù)、數(shù)據(jù)庫(kù)劃分或在一個(gè)集合中搜索與原始對(duì)比結(jié)果中的序列相似的序列。它也可以用于把一條單獨(dú)的序列與一個(gè)對(duì)比結(jié)果進(jìn)行對(duì)比。

使用ProfileMake程序可創(chuàng)建一個(gè)序列對(duì)比結(jié)果的profile。使用ProfileSearch程序可用profile對(duì)數(shù)據(jù)庫(kù)進(jìn)行搜索，ProfileSegment程序可以顯示搜索結(jié)果。使用ProfileGap程序可將一個(gè)序列與profile進(jìn)行對(duì)比。ProfileMake, ProfileSearch, ProfileSegments以及ProfileGap程序都可以從Functions菜單中啟動(dòng)。

GCG的主頁(yè) http://www.gcg.com

2. ACEDB

ACEDB是一種被廣泛應(yīng)用的管理和提供基因組數(shù)據(jù)的工具組,適用于許多動(dòng)物和植物的基因組計(jì)劃。該軟件是免費(fèi)的，并且可運(yùn)行在Unix和Macintosh OS系統(tǒng)下，Windows版本馬上就會(huì)推出。數(shù)據(jù)庫(kù)以豐富的圖形界面提供信息，包括有具體顯示的基因圖譜，物理圖譜，新陳代謝的途徑和序列等。數(shù)據(jù)用流行的對(duì)象的形式進(jìn)行組織，使用大家熟悉的類(lèi)別如，相關(guān)的文獻(xiàn)，基因，描述，和克隆的DNA等�？捎糜趯�(zhuān)用的數(shù)據(jù)分析以及許多永久性數(shù)據(jù)的采集,而且使用者不需要經(jīng)過(guò)專(zhuān)門(mén)的計(jì)算機(jī)和數(shù)據(jù)庫(kù)的訓(xùn)練就可以使用ACEDB。對(duì)于資源有限的計(jì)劃，這往往是決定使用ACEDB的關(guān)鍵因素。

3．其它工具

不同的基因組測(cè)序中心都有其特有的一套序列管理分析方案及工具，并且在不斷發(fā)展完善之中，具體細(xì)節(jié)可訪問(wèn)這些測(cè)序中心的網(wǎng)站了解。

　

6.2人類(lèi)和鼠類(lèi)公共物理圖譜數(shù)據(jù)庫(kù)的使用

1．物理圖譜的類(lèi)型

物理圖譜有許多結(jié)構(gòu)和形式。限制性圖譜（restriction map），用于對(duì)小區(qū)域、如kb量級(jí)做精細(xì)結(jié)構(gòu)制圖，細(xì)胞遺傳學(xué)圖（cytogenetic map），用于對(duì)以104 kb為長(zhǎng)度量級(jí)的區(qū)域制圖。最常用的兩種類(lèi)型是STS含量圖（STS content map）和放射性雜交圖（radiation hybrid map），它們的分辨區(qū)域都大于1Mb，并且有能使用簡(jiǎn)易PCR中的定位標(biāo)記物的優(yōu)點(diǎn)。

在STS含量圖中，STS標(biāo)記物通過(guò)多聚酶鏈反應(yīng)所監(jiān)測(cè)，在反應(yīng)中它與一個(gè)大的插入克隆基因庫(kù)反應(yīng)，如酵母人工染色體（TACs），細(xì)菌人工染色體（BACs）和粘粒等。如果兩個(gè)或多個(gè)STS被發(fā)現(xiàn)是存在于同一個(gè)克隆之中，那么這些標(biāo)記位點(diǎn)緊密相鄰的機(jī)會(huì)就很高（不是100%，因?yàn)樵谥茍D過(guò)程中存在一些假象，如出現(xiàn)嵌合克隆體）。一段時(shí)期以來(lái)，根據(jù)STS含量圖已經(jīng)建立起一系列重疊群，如含有STS的重疊簇克隆。這樣一張圖的分辨率和覆蓋度由一些因子決定，如STS的密度、克隆群體的大小、以及克隆文庫(kù)的深度。通常STS含量圖以長(zhǎng)1Mb的插入YAC庫(kù)為基礎(chǔ)，分辨率為幾百個(gè)bp。如果使用插入部分較小的克隆載體，圖譜就會(huì)有一個(gè)更高的理論分辨率，但是覆蓋基因組同樣大小面積就需要更多的STS。雖然一般有可能從STS含量圖上得到標(biāo)記物的相對(duì)順序，但是相鄰標(biāo)記物之間的距離還是無(wú)法精確測(cè)得。盡管如此，STS含量圖還是有與克隆原相關(guān)的優(yōu)點(diǎn)，并且可將其用于更進(jìn)一步的研究，如次級(jí)克隆或DNA測(cè)序。到目前為止，STS含量圖制圖簡(jiǎn)單而使用最多的來(lái)源是巴黎的CEPH（centre d Etudes du Polymorphisme Humain）中的YAC庫(kù)。它是一個(gè)10×覆蓋率的文庫(kù)，平均插入長(zhǎng)度為~1Mb。

放射性雜交圖（對(duì)片段DNA的斷點(diǎn)作圖。在此技術(shù)中，一個(gè)人體細(xì)胞系被致死性的gamma射線照射，染色體DNA分成片段。然后該細(xì)胞系與一個(gè)倉(cāng)鼠細(xì)胞系融合而被救，并能繁殖幾代。在這期間，人類(lèi)細(xì)胞和倉(cāng)鼠細(xì)胞的雜合體隨機(jī)丟失其人類(lèi)染色體片段。這樣一百個(gè)或更多的雜合細(xì)胞系克隆體中，每一個(gè)都有不同數(shù)量的染色體片段，篩選生長(zhǎng)后，就可以形成一套雜合組，供接下來(lái)的制圖實(shí)驗(yàn)用了。

如果要在一個(gè)放射性雜交組中對(duì)一個(gè)STS作圖，那就要將每種雜交組細(xì)胞系中的DNA進(jìn)行STS的PCR操作。細(xì)胞系中如果含有該STS的染色體片段，那么就能得到一個(gè)正的PCR信號(hào)。在基因組中相鄰很近的STS有相似的固位模式（retention pattern），因?yàn)榉派湫砸鸬臄帱c(diǎn)落在它們中間的幾率很小。相鄰較遠(yuǎn)的STS固位模式相似性降低，相鄰很遠(yuǎn)的STS的固位模式將會(huì)截然不同。與基因圖譜所用方法類(lèi)似，算法類(lèi)的軟件也能推出STS在放射性雜交圖上的相對(duì)順序，并通過(guò)斷點(diǎn)落在其中間的可能性，用某一距離系統(tǒng)計(jì)算相鄰標(biāo)記物之間的距離。放射性雜交圖還能提供一個(gè)標(biāo)記物位于某一個(gè)特殊位點(diǎn)的可能值（優(yōu)勢(shì)對(duì)數(shù)值）。一個(gè)放射性雜交圖的分辨率依賴于雜交體片斷的大小，而這又依賴于人體細(xì)胞系所受的輻射量。一般對(duì)基因組大小作圖的細(xì)胞系分辨率為～1M。

除STS含量圖和放射性雜交圖外還有幾個(gè)方法可用于制作人類(lèi)物理圖譜�？寺D譜使用與STS含量圖不同的技術(shù)來(lái)決定克隆體的接近程度。例如，CEPH YAC圖譜法綜合利用指紋法（fingerprinting）、間－Alu產(chǎn)物雜交法（inter-Alu product hybridization）和STS含量圖法來(lái)制作一張重疊的YAC克隆體圖譜。缺失和體細(xì)胞雜交圖依賴于大型基因組重組（可以人工引進(jìn)或由實(shí)驗(yàn)本身引起），從而將標(biāo)記物放在由染色體斷點(diǎn)所限定的bin?中。FISH圖譜使用一個(gè)熒光信號(hào)來(lái)探測(cè)克隆體的間期DNA擴(kuò)散時(shí)的雜交情況，從而以細(xì)胞遺傳學(xué)圖中一條帶的位置定出克隆體的位置。

研究者捕捉致病基因時(shí)對(duì)轉(zhuǎn)錄序列圖譜有特別的興趣。這些序列是由已表達(dá)序列，和那些從已轉(zhuǎn)化成STS并置于傳統(tǒng)物理圖譜的已知基因衍生而來(lái)的。近來(lái)一些制作大量EST的工程已經(jīng)使制圖實(shí)驗(yàn)室能夠得到數(shù)以萬(wàn)計(jì)的單一表達(dá)序列。一旦一個(gè)致病位點(diǎn)被鑒定出來(lái)后，這些轉(zhuǎn)錄序列圖譜就能明顯加快對(duì)目標(biāo)基因的研究速度。

YAC庫(kù)可用于STS的排序，但其克隆體中的高嵌合率和高刪除率使它們不能用于DNA測(cè)序。去年高分辨率、可用于測(cè)序的質(zhì)粒和BAC圖譜則發(fā)展很快。因?yàn)樗鼈兯璧目寺」に囁胶艿�。除了幾個(gè)特例，如染色體19的Lawrence Livemore實(shí)驗(yàn)室質(zhì)粒圖外，其它圖譜都還只處在初級(jí)階段。

2.大型公用數(shù)據(jù)庫(kù)中的基因組圖譜

人類(lèi)基因組物理圖譜信息的主要來(lái)源是由NCBI和GDB提供的大型公用數(shù)據(jù)庫(kù)。這些數(shù)據(jù)庫(kù)提供各種圖譜的來(lái)源，使研究者能夠用一個(gè)多用戶界面交互系統(tǒng)在圖譜中進(jìn)行比較。在一定程度下，這些數(shù)據(jù)庫(kù)還能進(jìn)行圖譜的綜合及分析。

（1）NCBI Entrez的染色體圖譜

Entrez的基因組部分是最容易獲得物理圖譜信息的來(lái)源之一。此服務(wù)由NCBI所提供。Entrez試圖以一種可理解的方式將幾種遺傳學(xué)圖譜和物理圖譜、DNA和蛋白序列信息、以及一個(gè)目錄型引用數(shù)據(jù)庫(kù)和三維晶體結(jié)構(gòu)信息融合起來(lái)。因?yàn)樗膬?nèi)部連接多，而且界面簡(jiǎn)單，Entrez 可作為搜索圖譜的一個(gè)起始點(diǎn)。

除人類(lèi)基因組，Entrez還提供關(guān)于鼠類(lèi)、果蠅、C.elegans、酵母以及一些原生動(dòng)物的圖譜。盡管可比較的（同線性）圖仍不可獲得，但它代表了現(xiàn)在最大和最完整的一套多生物體的圖譜信息。

（2）GDB的瀏覽染色體圖譜

另一種常見(jiàn)的人類(lèi)物理圖譜數(shù)據(jù)的來(lái)源是GDB。盡管GDB是基于當(dāng)時(shí)基因圖譜的重要性才構(gòu)建起來(lái)的，但是最近幾年來(lái)，GDB也已經(jīng)進(jìn)行了擴(kuò)建重組，現(xiàn)在同樣可以算是物理圖譜數(shù)據(jù)的倉(cāng)庫(kù)。不象NCBI，GDB只限于人類(lèi)圖譜數(shù)據(jù)。它不含序列數(shù)據(jù)，也沒(méi)有其它種類(lèi)生物的信息。同NCBI一樣，GDB可以由WWW上得到。GDB提供了一種全功能的對(duì)其數(shù)據(jù)庫(kù)的查詢式界面。

（3）來(lái)自個(gè)體來(lái)源的基因組圖譜

盡管一級(jí)數(shù)據(jù)庫(kù)，如Entrez和GDB是已發(fā)表的圖譜的重要來(lái)源，但是它們還沒(méi)有能替代原始數(shù)據(jù)的東西。有能力制作自己的物理圖譜的實(shí)驗(yàn)室一般都有自己的網(wǎng)址，連向它們的圖譜數(shù)據(jù)庫(kù)。通過(guò)從這一渠道直接獲取資料，我們可以看到制圖實(shí)驗(yàn)室所使用的圖的形式、下載原始數(shù)據(jù)、并且了解實(shí)驗(yàn)室制圖時(shí)的協(xié)議。另外，一些圖在出現(xiàn)于Entrez和GDB前經(jīng)常被丟掉。Entrez和GDB數(shù)據(jù)庫(kù)選擇的表達(dá)方式，對(duì)那些希望將新的標(biāo)記物定位于已知物理圖譜上的研究者來(lái)說(shuō)，只提供了最小的幫助。

基因組的基因圖譜

基因圖譜是制作許多物理圖譜時(shí)工作的基本骨架，也是許多制圖項(xiàng)目的起點(diǎn)。有兩種基因組范圍的基因圖譜可供選擇。Genethon圖含5264個(gè)多樣性微衛(wèi)星重復(fù)片斷，間隔1.6cM。完整的數(shù)據(jù)庫(kù)文件，以及圖譜的PostScript方式圖形表示，在Genethon的FTP站點(diǎn)上均可獲得，這些圖通過(guò)GDB也可以獲得。

第二大基因圖譜由人類(lèi)連鎖合作中心（Cooperative Human Linkage Center）制造，CHLC圖由10775個(gè)標(biāo)記物組成，大多數(shù)為微衛(wèi)星重復(fù)片斷，間隔3.7cM。

人類(lèi)基因組的轉(zhuǎn)錄物圖

在1996年10月，Horno sapiens的一個(gè)全基因組轉(zhuǎn)錄物圖由一個(gè)國(guó)際合作的研究實(shí)驗(yàn)室發(fā)表于Science上。這個(gè)圖由～15000個(gè)不同的表達(dá)序列組成，由放射性雜交法定位，與Genethon基因圖譜衍生的框架相近。通過(guò)對(duì)酵母人工染色體作STS含量法又增添了1000個(gè)表達(dá)序列。在這張圖中，大約1/5的標(biāo)記物有已知的或是假定的功能，而余下的代表了未知功能的表達(dá)序列。制成圖的序列一般由UniGeneset衍生而來(lái)，它是一個(gè)由NCBI管理的公用重復(fù)ESTs數(shù)據(jù)庫(kù)。

轉(zhuǎn)錄物圖是通過(guò)將八家不同實(shí)驗(yàn)室的圖譜數(shù)據(jù)綜合而得到的。為協(xié)調(diào)制圖方法的些微不同，表達(dá)序列被放在由Genethon基因圖譜衍生的框架上。結(jié)果，該圖的最大分辨率為～2cM。很多情況下，可以從各個(gè)實(shí)驗(yàn)室的數(shù)據(jù)庫(kù)里得到針對(duì)某一部分?jǐn)?shù)據(jù)更好的制圖信息，特別是the Whitehead Institute和Stanford University的。

瀏覽NCBI轉(zhuǎn)錄物圖

轉(zhuǎn)錄物圖可在兩個(gè)網(wǎng)址上得到。數(shù)據(jù)的“親本”站點(diǎn)為NCBI。在那兒可以找到含有全基因組轉(zhuǎn)錄物圖的Science文章的全文，以及彩色的圖象，但一般都只有裝飾性的墻面圖案。另外，也有搜索頁(yè)可以讓瀏覽者對(duì)特別感興趣的基因進(jìn)行查詢，或是通過(guò)對(duì)功能未知，但其讀碼框與某已知功能的蛋白質(zhì)相近的表達(dá)序列圖譜進(jìn)行搜索。

NCBI網(wǎng)址的一個(gè)限制就是它不能在低分辨率標(biāo)記物分布柱形圖上提供轉(zhuǎn)錄物圖的圖形。但是通過(guò)Mapview微程序就可以得到其圖形顯示。從GDB的首頁(yè)，沿著What s New的鏈接，可找到全基因組轉(zhuǎn)錄物圖（到本書(shū)出版時(shí)鏈接形式可能已有所不同）。同樣，可以認(rèn)為轉(zhuǎn)錄物圖也是Entrez網(wǎng)將要制作的一部分。

White head Institute提供的人類(lèi)物理圖譜

The Whitehead Intitute/MIT Center for Genome Research是兩張基因組范圍物理圖譜的最初來(lái)源。其中一張是STS含量圖，內(nèi)含指定為YAC的10000多個(gè)標(biāo)記物，以及一張含12000個(gè)左右標(biāo)記物的放射性雜交圖。Whitehead所用的G4雜交板（Genebridge 4 radiation hybrid panel）分辨率為～1Mbp，而以YAC為基礎(chǔ)作的圖分辨率大約為200kbp。這些圖已經(jīng)和Genethon基因圖相結(jié)合，產(chǎn)生了一張合圖，在平均150kb范圍內(nèi)有20000個(gè)STSs。Whitehead圖上大約有一半的標(biāo)記物是表達(dá)序列，它們?cè)谌祟?lèi)轉(zhuǎn)錄物圖上也會(huì)出現(xiàn)。

WI（Whitehead Institute）圖可通過(guò)網(wǎng)絡(luò)從Whitehead Center for Genome Research的主頁(yè)上得到。沿著“人類(lèi)物理圖項(xiàng)目”（Human Physical Mapping Project）的鏈接就可以得到感興趣的圖，這些圖可通過(guò)幾種方法瀏覽。選擇一系列pop-up菜單可以產(chǎn)生所選染色體的圖，選擇選項(xiàng)按鈕可以綜合放射性雜交圖、STS含量圖和基因圖。與Entrez一樣，這些圖不是固定不變的。點(diǎn)擊一個(gè)STS或是重疊群，會(huì)彈出關(guān)于該圖素詳細(xì)信息的頁(yè)面。圖形式圖譜在網(wǎng)址上可按GIF或Macintosh最初模式（PICT）下載。Whitehead網(wǎng)址上還提供了對(duì)圖譜數(shù)據(jù)庫(kù)進(jìn)行查詢的搜索頁(yè)。這些搜索數(shù)據(jù)的鏈接可按名稱、GenBank通道號(hào)、STS型號(hào)、染色體分配進(jìn)行搜索。另外，Whitehead網(wǎng)頁(yè)也可根據(jù)功能關(guān)鍵字搜索制圖轉(zhuǎn)錄序列，并提供與NCBI中的主轉(zhuǎn)錄物圖的鏈接。

Whitehead也為那些希望建立他們自己的STS 的研究者提供服務(wù)，并將之放在一個(gè)或多個(gè)圖上，這些服務(wù)包括：

一個(gè)在線的引物選擇程序，引物3

將一個(gè)STS放在STS/YAC含量圖上的服務(wù)

將一個(gè)STS放在放射性雜交圖上的服務(wù)

Whitehead圖遠(yuǎn)未完善，對(duì)合圖進(jìn)行監(jiān)督性測(cè)試就能顯示出在基因圖、放射性雜交圖和STS/YAC圖上的STSs位置間存在矛盾。這些矛盾表現(xiàn)在合圖上仍存在交叉線。解釋這些圖的一個(gè)關(guān)鍵點(diǎn)在于理解這些圖在可靠性與分辨率水平不一。基因圖骨架在數(shù)十兆時(shí)能可靠地連接標(biāo)記物，但在低于約2兆時(shí)就無(wú)法準(zhǔn)確解決兩個(gè)STS的順序問(wèn)題了。放射性雜交圖能夠測(cè)知約10Mb的連接，有效分辨率達(dá)～1Mb（更小的間隔也能排序，但是不可靠性逐步增加）。STS/YAC圖可以測(cè)知兩個(gè)相互間隔1Mb的STS的連接，估計(jì)分辨力達(dá)100～300kb。理解圖譜時(shí)頭腦中應(yīng)有這些尺度上的差異。一般在1Mb的范圍以下，STS/YAC圖是說(shuō)明順序的圖譜中最可靠的一種。

在STS含量圖中，由于STS和YAC的不等分布，可靠性也會(huì)有地域差異。在YAC密集的區(qū)域（每一個(gè)STS有5個(gè)或更多的YAC），在排序信息的重要性上，圖譜結(jié)果是相對(duì)更可靠的。在低密度區(qū)，圖譜結(jié)果中就會(huì)有幾種同時(shí)可能替代的STS順序，并會(huì)附上數(shù)據(jù)。假定的錯(cuò)誤的反面情況，如圖12.8中，表示為圖中的空白框。這一點(diǎn)也會(huì)嚴(yán)重降低圖譜的準(zhǔn)確性。最后，因?yàn)樵谒衁AC庫(kù)中都存在嵌合現(xiàn)象的問(wèn)題，雙鍵（例如，一對(duì)STS同時(shí)與2個(gè)或更多YAC連接）比單鍵（STS只由1個(gè)YAC連接）更能可靠說(shuō)明相鄰關(guān)系。盡管只有在基因圖或放射性雜交圖中存在支持性數(shù)據(jù)時(shí)，圖上才能構(gòu)建單鍵信息，但單由兩個(gè)STS相連形成的連接仍保留懷疑。這些元素在任何制圖區(qū)域被詳細(xì)檢查的時(shí)候都應(yīng)考慮在內(nèi)。

下面的部分介紹如何在Whitehead圖上，通過(guò)Whitehead網(wǎng)址安置新的STS。從STS設(shè)計(jì)和針對(duì)Whitehead和放射性雜交圖進(jìn)行制圖開(kāi)始。

設(shè)計(jì)一個(gè)STS，置于Whitehead上

設(shè)計(jì)一個(gè)STS需要一個(gè)高質(zhì)量的DNA序列，至少長(zhǎng)達(dá)所需的PCR產(chǎn)物。為得到最好的結(jié)果，這些序列應(yīng)不含重復(fù)元素和載體序列，并且質(zhì)量相對(duì)高些。任何支持一個(gè)WWW瀏覽器的計(jì)算機(jī)系統(tǒng)都可以使用該程序，支持TCP/IP的網(wǎng)絡(luò)連接也是必須的。

首先，將瀏覽器連到Whitehead Genome Center的主頁(yè)。尋找并點(diǎn)擊指向WWW Primer Picking的鏈接。接著出現(xiàn)一頁(yè)，在其上方有一個(gè)很大的輸入框。剪切原始序列并粘貼到該處，只用粘貼原始序列，不需用名稱或其它標(biāo)記詞。這些堿基可以小寫(xiě)或大寫(xiě)，而白色空格可以忽略。

現(xiàn)在，向下滾動(dòng)窗口，將PCR的條件調(diào)至需要值。那些關(guān)于鹽濃度、溫度和產(chǎn)物大小范圍等的默認(rèn)值均是WI所設(shè)定的。如果有必要的改變需輸入時(shí)，按標(biāo)有Pick Primers鍵返回一套引物處進(jìn)行特定設(shè)定。這些引物現(xiàn)在在對(duì)感興趣的序列的審查實(shí)驗(yàn)中用得上。通過(guò)放大基因組DNA中的一條特定帶，可以對(duì)這些引物的能力進(jìn)行經(jīng)驗(yàn)性鑒定。引物的失敗主要與引物掃描區(qū)域中的重復(fù)元素有關(guān)。相反，通過(guò)進(jìn)行BLAST或FASTA搜索，再選擇引物對(duì)，來(lái)對(duì)輸入序列中的重復(fù)序列進(jìn)行篩選則是比較明智的，如果STS成功地放大了一條特定帶，它就可以與Whitehead STS/TAC含量圖或放射性雜交圖相聯(lián)系，被制成圖。

與Whitehead STS/YAC含量圖聯(lián)系對(duì)STS制圖

一旦被制出后，一個(gè)STS就可以通過(guò)對(duì)CEPT mega-YAC庫(kù)的掃描確定在STS/YAC含量圖上的位置。而對(duì)含有超過(guò)30000個(gè)克隆，其中又有1200個(gè)排列、板塊和柱池（row、plate和column pool）的YAC庫(kù)進(jìn)行搜索，實(shí)在是一件頭疼的任務(wù)�？上驳氖�，幾個(gè)生物技術(shù)公司已經(jīng)提供了CEPH YAC的復(fù)本和（或）篩選系統(tǒng)，包括Research Genetics Corporation。Whitehead圖就是僅從YAC庫(kù)的后一部分構(gòu)建起來(lái)的。這意味著庫(kù)模塊中位于709－972的范圍仍需篩選。STS接著就可以用以下步驟放在圖上了。

使瀏覽器連向Whitehead的主頁(yè)，并點(diǎn)擊標(biāo)有Human Physical Mapping Project的鏈接以跳到該組織的物理制圖頁(yè)。從這兒，再找到并選擇“Search for a YAC to its address”，接著出現(xiàn)一頁(yè)，內(nèi)有一系列pop-up菜單，能用于輸入單個(gè)YAC的地址、或一個(gè)輸入單個(gè)YAC名稱的主題欄、或一個(gè)能粘貼一列YAC地址的大型區(qū)域。后者適用于將多個(gè)YAC用于研究的時(shí)候。在這個(gè)地方輸入YAC列表，再使用“plate_row_column”形式，這里是用“_”號(hào)分離板塊、排和列這三維（如709_A_1），也可輸入多個(gè)YAC地址，用空格或carriage回車(chē)隔開(kāi)。搜索過(guò)程輸入格式并不固定，它也可識(shí)別多個(gè)YAC模式（包括709_a_1和709a1）。

當(dāng)YAC表完成后，按Search鍵，得到一個(gè)表，列有各個(gè)YAC，其重疊群位置和染色體分配，以及附近STS的位置。這些STS位于放射性雜交圖和（或）基因圖上。

要理解該搜索結(jié)果，應(yīng)該知道CEPH庫(kù)中相當(dāng)數(shù)量（40－50％）的克隆都是嵌合體，這意味著單個(gè)YAC可能存在于位于基因組不同部分的重疊群中。由于這個(gè)原因，需要找到多個(gè)YAC來(lái)證明單個(gè)STS分配到了某一特定重疊群中，或是從其它方法來(lái)證明（比如FISH，體細(xì)胞雜交制圖，放射性雜交圖制圖數(shù)據(jù)）。

每張圖對(duì)應(yīng)輸入的一個(gè)YAC地址，每個(gè)表包括已知YAC中的STS表，以及STS制圖信息。對(duì)于每個(gè)STS，染色體分配、基因圖位置和放射性雜交圖位置只要已知就會(huì)給出。另外，STS所屬的已命名的重疊群也列成表，這些表中大多數(shù)元素是超文字鏈接，選擇合適的鏈接可以獲得關(guān)于一個(gè)STS或一個(gè)重疊群更多的信息。由于歷史原因，許多STS有兩個(gè)重疊群。雙鏈接重疊群（例如由成對(duì)YAC共有的重疊群）短一些，在構(gòu)圖的起始階段中是可創(chuàng)造的更可靠的重疊群，它們可以被放心地忽略。單個(gè)重疊群長(zhǎng)一些，在不同方式下也應(yīng)承認(rèn)其合理性。

Whitehead放射性雜交圖

STS也能被置于Whitehead放射性雜交圖中，這比STS/YAC含量圖的問(wèn)題簡(jiǎn)單很多，因?yàn)樵诜派湫噪s交圖上搜索一個(gè)STS只用93次PCR，而不是1000次。Whitehead放射性雜交圖使用Genebridge 4 radiation hybrid panel。與CEPH YAC庫(kù)一樣，這些細(xì)胞譜系的DNA也可以從一些生物技術(shù)公司那兒得到。而有些公司還提供搜索服務(wù)。為得到最好的結(jié)果，PCR必須在與制作Whitehead圖的相同條件下進(jìn)行，并應(yīng)在復(fù)制時(shí)進(jìn)行。復(fù)制PCR間出現(xiàn)的不同結(jié)果說(shuō)明應(yīng)繼續(xù)重復(fù)或以未知物對(duì)待。

首先，將雜交模板篩選結(jié)果重定為“rhv”格式，看上去如下：

sts_name1 001001011000001000000011010001101110011100101001211001110101010100101000

sts_name2 000001111000001000000011010000001110011100101001211001110101010100100000

每個(gè)數(shù)字代表每個(gè)放射性雜交細(xì)胞系的PCR結(jié)果：0說(shuō)明PCR結(jié)果為負(fù)（無(wú)反應(yīng)產(chǎn)物），1說(shuō)明為正，2說(shuō)明為“未知”或“未完成”。載體上數(shù)字的順序是很重要的，必須與G4rhp中的正式順序相對(duì)應(yīng)。為找到該順序，可沿（Whitehead物理圖頁(yè)上）標(biāo)有“How the radiation hybrid maps were constructed”（如何構(gòu)建放射性雜交圖）的鏈接，再按下標(biāo)有“G40”的鏈接。該順序與它們由Research Genetics運(yùn)輸時(shí)包裝的DNA順序相同，所以它一般還不是結(jié)果。要增加可讀性，可在載體內(nèi)加入空格，用一個(gè)或多個(gè)空格、或Tab鍵就可以將STS名稱與掃描數(shù)據(jù)分離開(kāi)了。

從Whitehead物理圖頁(yè)上，按下標(biāo)有“Place your own STSs on the genome framework map”（將你自己的STS放入基因組框架圖中）的鏈接，再輸入提示的合適的Email地址，并將PCR值粘貼至位于該頁(yè)上的大型主題框。輸入正確的Email地址很重要，否則制圖結(jié)果將有可能被誤解。

默認(rèn)時(shí)，制圖數(shù)據(jù)會(huì)以正文形式返回。為產(chǎn)生放在Whitehead圖上的STS的圖形，選擇一個(gè)標(biāo)有Mac PICT（針對(duì)Macintosh系統(tǒng)）或GIF（針對(duì)Windows和Uinx系統(tǒng)）的選項(xiàng)按鈕。

當(dāng)設(shè)置完成時(shí)，按下“提交”鍵。當(dāng)數(shù)據(jù)已被轉(zhuǎn)交或正在制圖時(shí)，你會(huì)得到一個(gè)證明，在一小時(shí)內(nèi)結(jié)果將會(huì)通過(guò)Email回執(zhí)給你。

對(duì)于大量的篩選數(shù)據(jù)，如果用剪切和粘貼來(lái)向服務(wù)器提交這些文件就不太方便了。這時(shí)可以將數(shù)據(jù)以純文本形式存在用戶盤(pán)上，然后用RH制圖頁(yè)中的瀏覽鍵來(lái)定義并提交此文件給服務(wù)器，同樣，Email地址也要手工輸入。

對(duì)于～98％的提交的標(biāo)記物，Whitehead放射性雜交圖制圖服務(wù)器都會(huì)找到特定的位置。如果安置成功，軟件將會(huì)給一回執(zhí)，包括該標(biāo)記物的染色體分布和在染色體連接群中的位置、對(duì)標(biāo)記物的表格式說(shuō)明、和在Whitehead放射性雜交圖上兩側(cè)標(biāo)記物的存在時(shí)其數(shù)據(jù)情況。按要求將會(huì)得到一張Macintosh圖或GIF格式圖。這些圖由Whitehead框架圖組成，所提交STS的位置以紅色標(biāo)明。

如果發(fā)現(xiàn)標(biāo)記物連接的染色體多于一個(gè)或是根本就沒(méi)有連接，制圖過(guò)程也可能失敗。在前一種情況中，可以重新提交并設(shè)置高優(yōu)勢(shì)對(duì)數(shù)值，這樣服務(wù)器將會(huì)認(rèn)為其連接一個(gè)染色體，在后一種情況中，你可以試著利用放射性雜交圖頁(yè)上的一個(gè)pop-up菜單將限制性降低。如果一個(gè)標(biāo)記物確實(shí)連向多個(gè)染色體，那么有可能用STS探測(cè)出重復(fù)序列。

Stanford University放射性雜交圖

Stanford Human Genome Center已經(jīng)用G3制圖板發(fā)展了一張基因組放射性雜交圖。由于比G4板所用放射量更高，G3板的分辨率更高，但是代價(jià)是在探測(cè)長(zhǎng)距離連接時(shí)限制很大。Stanford圖一般在平均375kb的范圍內(nèi)存在～8000個(gè)STS，這些標(biāo)記物中，3700個(gè)左右是表達(dá)序列，存在于NCBI轉(zhuǎn)錄物圖中。同以往一樣，在基因組很多部分中，Stanford圖中的表達(dá)序列比“全包容”NCBI圖中的準(zhǔn)確性更高。

Stanford提供一個(gè)放射性雜交圖制圖服務(wù)器。如同Whitehead服務(wù)，這個(gè)服務(wù)器允許對(duì)從Research Genetics和其它業(yè)主處得到的G3板進(jìn)行STS掃描。輸入數(shù)據(jù)，服務(wù)器將會(huì)嘗試將STS與Stanford圖相連，并用Email返回結(jié)果。因?yàn)镚3板不能探測(cè)長(zhǎng)距離連接，在無(wú)其它圖譜信息時(shí)，Stanford服務(wù)器只能將75％的STS定位在一條染色體上。但是如果要在可選區(qū)域內(nèi)提供標(biāo)記物的染色體分布。服務(wù)器就能夠在一個(gè)低優(yōu)勢(shì)對(duì)數(shù)連接值時(shí)進(jìn)行分析，并可對(duì)90％的情況作出分布圖譜。

當(dāng)使用PCR時(shí)，STS應(yīng)對(duì)83G3板DNA掃描。為得到最好的結(jié)果，可使用Stanford的RH Protocol主頁(yè)給出的PCR協(xié)議，每次分析結(jié)果都應(yīng)該復(fù)制，并且復(fù)制品間有分析差異就應(yīng)該重復(fù)或標(biāo)為未知。

Stanford服務(wù)器返回的制圖結(jié)果由一系列相應(yīng)的標(biāo)記物分布組成。對(duì)于每一個(gè)STS，服務(wù)器都會(huì)報(bào)告離其最近的基因標(biāo)記物、染色體、和標(biāo)記物到STS的距離，以centiray（cR）為單位。盡管對(duì)于制圖結(jié)果并不提供圖形顯示，圖譜信息還是可以用來(lái)與以上討論的瀏覽圖形結(jié)合來(lái)說(shuō)明所提交STS相對(duì)于Stanford圖上其它STS的位置。

要提交這一數(shù)據(jù)，連接Stanford的主頁(yè)，并按下RH服務(wù)器的鏈接，然后是RH Server Web Submission。輸入Email地址和提交號(hào)的區(qū)域已被說(shuō)明。Email地址對(duì)于保證收到制圖結(jié)果是很重要的。提交號(hào)是一個(gè)可選擇欄，它會(huì)同結(jié)果一起回執(zhí)給用戶，并且用于幫助工作人員使結(jié)果組織化。如果STS的染色體分布已知，那么應(yīng)輸入到標(biāo)有Chromosome Number的區(qū)域。這個(gè)信息會(huì)增加制圖軟件測(cè)出一個(gè)正確連接的能力。

現(xiàn)在，將篩選數(shù)據(jù)粘到大型正文欄中，并按提交鍵。制圖結(jié)果一般在幾分鐘內(nèi)通過(guò)Email回執(zhí)。Stanford服務(wù)器以一系列相對(duì)基因標(biāo)記物的位置返回制圖結(jié)果。對(duì)于每個(gè)STS，服務(wù)器會(huì)報(bào)告離其最近的基因標(biāo)記物、其所在染色體和STS到標(biāo)記物的距離（以centirays為單位）。盡管并不提供制圖結(jié)果的圖形顯示，制圖信息仍可用于和以上標(biāo)出了用戶的STS相對(duì)Stanford圖譜上的其它STS的位置的可瀏覽型圖譜相結(jié)合。

CEPH YAC圖

1993年，巴黎的CEPH（Centre d Études du Polymorphisme Humain），與Genethon合作，發(fā)表了人類(lèi)基因組的第一張物理圖譜。這張圖由幾套重疊YAC組成，形成連接鄰近基因標(biāo)記物的途徑。YAC重疊可由幾種技術(shù)鑒定，包括YAC指紋印跡法（YAC fingerprinting）、與inter-Alu PCR結(jié)果雜交法、熒光原位雜交（FISH）和STS含量圖。盡管YAC克隆圖大部分已被更方便的以STS為基礎(chǔ)的圖譜替代，對(duì)于要包括CEPH YAC庫(kù)或以克隆為基礎(chǔ)的反應(yīng)物的制圖項(xiàng)目還是有用的。

由于YAC庫(kù)中的高嵌合率，在兩個(gè)通過(guò)指紋法或inter-Alu PCR雜交法確定相互重疊的YAC之間，每一小步可能都很可能跨過(guò)基因組的一個(gè)物理距離�；谶@一點(diǎn)，短距離比長(zhǎng)距離更可靠，這一概念已植入CEPH的詞條“l(fā)evel”中。一個(gè)1級(jí)（level）途徑，由兩個(gè)錨定STS組成，它們應(yīng)至少有一個(gè)YAC直接連接。這類(lèi)途徑，與平面STS含量圖中用于確定相鄰關(guān)系的鍵或單鍵相類(lèi)同�？梢宰屟芯空邚囊粋€(gè)STS跳到另一個(gè)，而無(wú)需跳過(guò)任何YAC/YAC連接點(diǎn)。相反，一個(gè)2級(jí)途徑，由兩個(gè)錨定STS組成，不直接由單個(gè)YAC連接，而是由inter-Alu PCR或指紋法確定在包含它們的兩個(gè)或多個(gè)YAC間有一個(gè)重疊，所以2級(jí)途徑需要跳過(guò)一個(gè)YAC/YAC連接點(diǎn)。3級(jí)途徑需跳過(guò)2個(gè)。4級(jí)需跳過(guò)3個(gè)，等等。盡管每一種的可靠性尚未經(jīng)驗(yàn)性證明，通過(guò)對(duì)一套CEPH數(shù)據(jù)的分析暗示4級(jí)或更高時(shí)可能不精確。而幸好CEPH途徑中近90％的基于間距為3級(jí)的或更低。

　

從CEPH服務(wù)器得到Y(jié)AC重疊

CEPH圖可以在其單位的網(wǎng)址上在線獲得。這里可找到的鏈接有YAC庫(kù)信息，也有一系列圖譜的后轉(zhuǎn)錄文件，用于制圖的QuickMap軟件，以及含原始圖譜數(shù)據(jù)的文件。瀏覽CEPH圖最好的作用方法為下載QuickMap文件，安裝并利用它來(lái)觀看數(shù)據(jù)文件。然而，由于QuickMap只在Sun工作站工作，這種方法已經(jīng)不可行。CEPH也提供針對(duì)QuickMap的一種在線界面，在通過(guò)標(biāo)有Infoclone的鏈接處可以獲得。這時(shí)會(huì)彈出一頁(yè)，可以提交一個(gè)STS、或一個(gè)基因標(biāo)記物或一個(gè)YAC的名稱。提交名稱后會(huì)回執(zhí)所有關(guān)于它的原始圖譜數(shù)據(jù)。該文本是超鏈接，可以從一個(gè)YAC的單一inter-Alu PCR雜交跳至另一個(gè)。

要得到數(shù)據(jù)，將瀏覽器連到CEPH的網(wǎng)址上。這會(huì)彈出ECPH Genethon網(wǎng)頁(yè)。現(xiàn)在找到并選擇I鏈接，接下來(lái)的一頁(yè)會(huì)要你在一個(gè)小文本欄中輸入一個(gè)YAC或一個(gè)STS的名稱。YAC應(yīng)遵循簡(jiǎn)便的plate_row_column（板塊_排_(tái)列）格式，如923_f_6。對(duì)于STS，可以用GDB分配的D－片斷名（如果可得的話）或是實(shí)驗(yàn)室分配的研究名稱。該文件只針對(duì)特定事例，所以輸入AFM20ZE3不會(huì)得到正確的名為AFM220ZE3的STS。也應(yīng)注意YAC地址中排的名稱應(yīng)小寫(xiě)。

按下Query（查詢）鍵，如果該名稱存在于CEPH數(shù)據(jù)庫(kù)中，那么含相似信息的頁(yè)面將會(huì)出現(xiàn)。第一部分包括一些關(guān)于STS的總體信息，如引物序列和基因圖譜信息。第二部分給出STS的YAC搜索數(shù)據(jù)。該部分列表中的所有YAC通過(guò)直接PAC掃描均發(fā)現(xiàn)含有該STS，注釋Alu-PCR probe（探針）說(shuō)明這個(gè)YAC在inter-Alu PCR雜交實(shí)驗(yàn)中被選用為探針。第三部分包含與STS相鄰的YAC的信息，它們與STS相隔一個(gè)inter-Alu PCR的距離。

為得到一個(gè)YAC上的制圖信息，可在文本欄輸入其名稱并按下Query鍵，出現(xiàn)的界面將會(huì)給出YAC、FISH和STS含量圖數(shù)據(jù)的尺寸信息，以及inter-Alu PCR和指紋印跡實(shí)驗(yàn)中衍生出的重疊信息。

每個(gè)YAC詞條有幾個(gè)編碼與之相關(guān)。例如，在直接PCR掃描表中，c說(shuō)明CEPH進(jìn)行實(shí)驗(yàn)的無(wú)分歧結(jié)果，而E說(shuō)明為單個(gè)已證明的YAC，來(lái)源于外在（非CEPH）實(shí)驗(yàn)室。在YAC/YAC重疊表中，a說(shuō)明為一個(gè)A－PCR關(guān)系，而f說(shuō)明為一個(gè)指紋印跡關(guān)系。完整的編碼表從位于該頁(yè)上的不同幫助鏈接中而得到。

CEPH YAC庫(kù)的一個(gè)子集已由脈沖區(qū)凝膠電泳法限定了大小。如果可以得到它，就能得到Y(jié)AC的大小。在某些情況下，可以找到多帶，這是污染的結(jié)果，或是因?yàn)樵赮AC插入?yún)^(qū)和克隆生長(zhǎng)時(shí)DNA的隨機(jī)刪除所造成的。這種情況下，多YAC的大小也會(huì)演示出來(lái)。

特定人類(lèi)染色體圖譜

除基因組圖譜外，許多個(gè)體染色體物理圖譜也由研究實(shí)驗(yàn)室和基因組中心構(gòu)建起來(lái)了。在很多情況下，這些圖譜能比相應(yīng)基因組范圍圖譜提供更詳盡的信息。在GDB的來(lái)源頁(yè)面上可得到一個(gè)最新的表。另一張表由NHGRI的網(wǎng)址保存。

3．鼠類(lèi)圖譜來(lái)源

現(xiàn)在對(duì)鼠類(lèi)作物理圖活動(dòng)最多的地點(diǎn)是Whitehead Institute/MIT Center for Genome Research，而且一張murine STS/YAC含量圖已經(jīng)被構(gòu)建起來(lái)了。這張圖，最終將在24000個(gè)YAC上含有10000個(gè)STS。

MIT的物理圖譜可以在Whitehead的主頁(yè)上在線瀏覽。先按下Mouse Genetic and Physical Mapping Project（鼠類(lèi)基因圖和物理圖制圖項(xiàng)目）的鏈接，然后向下滾動(dòng)到標(biāo)有鼠類(lèi)STS物理圖譜的部分。這一部分與Whitehead人類(lèi)物理圖譜有相同的搜索項(xiàng)和用戶界面，但是放射性雜交圖數(shù)據(jù)還不可得。

在Whitehead網(wǎng)址上還可以得到基于6331個(gè)簡(jiǎn)單相鄰長(zhǎng)度多態(tài)性的鼠類(lèi)物理圖譜，以及這張圖與Copeland/Jenkins限制性片斷長(zhǎng)度多態(tài)性圖的整合。這些RFLP圖，分辨率為1.1cM。分辨率更高的鼠類(lèi)基因圖正由European Collaborative Interspecific Mouse BackCros項(xiàng)目得到。該圖最大的理論分辨率將會(huì)達(dá)0.3cM，并且可以在ECJMBC的主頁(yè)上在線得到。到1997年5月已完成5條染色體。

The Mouse Genome Database（MGD）是由Bar Harbor的Jackson Laboratory維持的一個(gè)大型鼠類(lèi)基因信息的公用數(shù)據(jù)庫(kù)。盡管它基本上還是一個(gè)基因圖庫(kù)，MGD還是保留了很多物理圖譜信息，包括細(xì)胞遺傳圖譜和synteny圖，將來(lái)一旦得到數(shù)據(jù)就會(huì)加進(jìn)去。MGD可在Jackson Laboratory的主頁(yè)上得到。按下標(biāo)有Mouse Genome Informatics的鏈接，然后是標(biāo)有Mouse Genome Database的鏈接，可得到用于不同研究的一個(gè)起始網(wǎng)頁(yè)。在所列選項(xiàng)中包括目錄檢索、基因和標(biāo)記物符號(hào)檢索、以及多態(tài)性檢索。

CEPH YAC圖
http://www.cephb.fr/ceph-genethon-map.html

CHLC圖
http://www.chlc.org

ECIMBC主頁(yè)
http://www.hgmp.mrc.ac.uk/MBx/MbxHomepage.html

Entrez主頁(yè)
http://www.ncbi.nlm.nih.gov/Entrez/

Entrez全覽頁(yè)
http://www.ncbi.nlm.nih.gov/Entrez/nentrez.overview.html

GDB主頁(yè)
http://gdbwww.gdb.org/

GDB來(lái)源頁(yè)
http://gdbwww.gdb.org/gdb/hgp_resources.html

Genethon FTP站點(diǎn)
ftp://ftp.genethon.fr/pub/Gmap/Nature-1995

I.M.A.G.E. Consortium
http://www.bio.llnl.gov/bbrp/image/iresources.html

Jackson實(shí)驗(yàn)室
http://www.jax.org/

NHGRI來(lái)源頁(yè)
http://www.nhgri.nih.gov/Data/

Science轉(zhuǎn)錄物圖譜
http://www.ncbi.nlm.nih.gov/Science96/

Stanford主頁(yè)
http://shgc.stanford.edu/

Stanford RH協(xié)議
http://shgc.stanford.edu/Mapping/rh/procedure/

Whitehead主頁(yè)
http://www.genome.wi.mit.edu/

Whitehead FTP站點(diǎn)
ftp://www.genome.wi.mit.edu/pub/human_STS_releases

C.elegans
ACEDB
http://probe.nalusda.gov:8300/other/

E.coli
University of Wisonsin
http://www.genetics.wisc.edu/

D.melanogaster
FlyBase
http://flybase.indiana.edu:82/

S.cerevisiae
SGD,Stanford
http://genome-www.stanford.edu/Saccharomyces

--------------------------------------------------------------------------------

　

11.6.3 全基因組比較

在不同物種、不同進(jìn)化水平的生物的相關(guān)基因之間進(jìn)行比較分析，是基因研究的重要手段。目前，我們有了越來(lái)越多的模式生物全基因組序列數(shù)據(jù)，因此，基因的比較研究，也必須從基因的比較，上升到對(duì)不同進(jìn)化水平的生物在全基因組水平上的比較研究。這樣的研究將更有效地揭示基因在生命系統(tǒng)中的地位和作用，解釋整個(gè)生命系統(tǒng)的組成和作用方式。

對(duì)伴隨人類(lèi)基因組而完成的大量微生物完整基因組的信息分析，不僅將直接幫助破譯人類(lèi)遺傳密碼，其本身也可能解決重大的科學(xué)問(wèn)題。因此，由完整基因組研究所導(dǎo)致的比較基因組學(xué)必將為后基因組研究開(kāi)辟新的領(lǐng)域。

11.6.4 SNP的發(fā)現(xiàn)

人類(lèi)基因組計(jì)劃持續(xù)產(chǎn)生大量序列數(shù)據(jù)，清楚表明不同個(gè)體在整個(gè)基因組有許多點(diǎn)存在DNA序列的基本變異。最常見(jiàn)的變異發(fā)生在分散的單個(gè)核苷酸位置，即單核苷酸多態(tài)性（SNPs），估計(jì)發(fā)生頻率大約每1000個(gè)核苷酸有1個(gè)。那么，沒(méi)每1000個(gè)核苷酸，具有一個(gè)群體的基本頻率的任何一個(gè)雙拷貝染色體之間的在任一個(gè)位置平均核苷酸的一致性是不同的。SNPs是雙等位基因多態(tài)性，即多原則上態(tài)性位點(diǎn)的核苷酸一致性通常在人類(lèi)中傾向于二分之一的機(jī)率，而不是四核苷酸機(jī)率。

SNPs在人類(lèi)遺傳學(xué)研究中有重要意義。首先，一組SNPs發(fā)生在蛋白質(zhì)編碼區(qū)。特定的SNPs等位基因可被認(rèn)為是人類(lèi)遺傳疾病的致病因子。在個(gè)體中篩選這類(lèi)等位基因可以檢查其對(duì)疾病的遺傳易感性。其次，SNPs可作為遺傳作圖研究中的遺傳標(biāo)記，幫助定位和鑒定功能基因。推算3000個(gè)雙等位SNP標(biāo)記將足夠進(jìn)行人類(lèi)全基因組作圖；100,000或更多的SNPs能夠在更大的群體中進(jìn)行有效的遺傳作圖研究。因此，需要發(fā)展進(jìn)行大量SNP分析的廉價(jià)高效技術(shù)，包括DNA芯片技術(shù)，MALDI-TOF質(zhì)譜等。

SNPs是人類(lèi)遺傳多樣性最豐富的形式，可用做復(fù)雜遺傳性狀作圖。通過(guò)高通量的測(cè)序項(xiàng)目的得到的大量數(shù)據(jù)是豐富的大部分沒(méi)接上的SNP來(lái)源。這里介紹一種認(rèn)一DNA來(lái)源的遺傳序列數(shù)據(jù)變異發(fā)現(xiàn)的整體途徑。計(jì)劃用迅速出現(xiàn)的基因組序列作為模板放置沒(méi)有作圖片段化的序列數(shù)據(jù)，并用堿基質(zhì)量數(shù)值區(qū)別真正的等位基因變異與測(cè)序錯(cuò)誤。

[ Last edited by BlueGuy on 2005-6-7 at 17:21 ]

贊一下(5人)

回復(fù)此樓

8樓2005-06-07 17:14:23

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

查看全部 88 個(gè)回答

BlueGuy

榮譽(yù)版主 (正式寫(xiě)手)

懶懶的小蟲(chóng)蟲(chóng)

應(yīng)助: 0 (幼兒園)
貴賓: 4.4
金幣: 2908.4
紅花: 3
帖子: 796
在線: 6.5小時(shí)
蟲(chóng)號(hào): 50895
注冊(cè): 2004-07-15
性別: GG
專(zhuān)業(yè): 細(xì)胞增殖、生長(zhǎng)與分化

★
miRNA(金幣+1):謝謝！！

不錯(cuò)的高通量表達(dá)譜分析講座（轉(zhuǎn)自dxy）

贊一下(5人)

回復(fù)此樓

2樓2005-06-07 16:23:53

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

BlueGuy

榮譽(yù)版主 (正式寫(xiě)手)

懶懶的小蟲(chóng)蟲(chóng)

應(yīng)助: 0 (幼兒園)
貴賓: 4.4
金幣: 2908.4
紅花: 3
帖子: 796
在線: 6.5小時(shí)
蟲(chóng)號(hào): 50895
注冊(cè): 2004-07-15
性別: GG
專(zhuān)業(yè): 細(xì)胞增殖、生長(zhǎng)與分化

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ...
miRNA(金幣+2):謝謝��！
liubird(金幣+50):支持斑竹開(kāi)展有意義的活動(dòng)！

概述

當(dāng)前人類(lèi)基因組研究已進(jìn)入一個(gè)重要時(shí)期，2004年已獲得人類(lèi)基因組的全部序列，這是基因組研究的轉(zhuǎn)折點(diǎn)和關(guān)鍵時(shí)刻，意味著人類(lèi)基因組的研究將全面進(jìn)入信息提取和數(shù)據(jù)分析階段，即生物信息學(xué)發(fā)揮重要作用的階段。到1999年12月15日發(fā)布的第115版為止，GenBank中的DNA堿基數(shù)目已達(dá)46億5千萬(wàn)，DNA序列數(shù)目達(dá)到535萬(wàn)；其中EST序列超過(guò)339萬(wàn)條； UniGene的數(shù)目已達(dá)到7萬(wàn)個(gè)；已有25個(gè)模式生物的完整基因組被測(cè)序完成，另外的70個(gè)模式生物基因組正在測(cè)序當(dāng)中；到2005年初為止，人類(lèi)基因組的序列完成測(cè)定；同時(shí)功能基因組和蛋白質(zhì)組的大量數(shù)據(jù)已開(kāi)始涌現(xiàn)。如何分析這些數(shù)據(jù)，從中獲得生物結(jié)構(gòu)、功能的相關(guān)信息是基因組研究取得成果的決定性步驟。

生物信息學(xué)是在此背景下發(fā)展起來(lái)的綜合運(yùn)用生物學(xué)、數(shù)學(xué)、物理學(xué)、信息科學(xué)以及計(jì)算機(jī)科學(xué)等諸多學(xué)科的理論方法的嶄新交叉學(xué)科。生物信息學(xué)是內(nèi)涵非常豐富的學(xué)科，其核心是基因組信息學(xué)，包括基因組信息的獲取、處理、存儲(chǔ)、分配和解釋�；蚪M信息學(xué)的關(guān)鍵是“讀懂”基因組的核苷酸順序，即全部基因在染色體上的確切位置以及各DNA片段的功能；同時(shí)在發(fā)現(xiàn)了新基因信息之后進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測(cè)，然后依據(jù)特定蛋白質(zhì)的功能進(jìn)行藥物設(shè)計(jì)。了解基因表達(dá)的調(diào)控機(jī)理也是生物信息學(xué)的重要內(nèi)容，根據(jù)生物分子在基因調(diào)控中的作用，描述人類(lèi)疾病的診斷、治療內(nèi)在規(guī)律。它的研究目標(biāo)是揭示"基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語(yǔ)言的根本規(guī)律"，解釋生命的遺傳語(yǔ)言。生物信息學(xué)已成為整個(gè)生命科學(xué)發(fā)展的重要組成部分，成為生命科學(xué)研究的前沿。

近來(lái)的研究表明，基因組不僅是基因的簡(jiǎn)單排列，它有其特有的組織結(jié)構(gòu)和信息結(jié)構(gòu)，這種結(jié)構(gòu)是在長(zhǎng)期的演化過(guò)程中產(chǎn)生的，也是基因發(fā)揮其功能所必須的。弄清楚生物體基因組特有的組織結(jié)構(gòu)和信息結(jié)構(gòu)，解譯生命的遺傳語(yǔ)言的關(guān)鍵。

目前在數(shù)據(jù)庫(kù)中已經(jīng)有越來(lái)越多的模式生物全基因組序列，第一個(gè)人類(lèi)染色體全序列--第22號(hào)染色體的測(cè)序工作已經(jīng)在1999年12月完成，整個(gè)人類(lèi)基因組計(jì)劃工作草圖將在最近完成。這無(wú)疑給基因組組織結(jié)構(gòu)和信息結(jié)構(gòu)的研究工作提供了大量的第一手材料，同時(shí)也為基因組研究取得突破性進(jìn)展提供了可能。人類(lèi)對(duì)基因的認(rèn)識(shí)，將從以往的對(duì)單個(gè)基因的了解，上升到在整個(gè)基因組水平上考察基因的組織結(jié)構(gòu)和信息結(jié)構(gòu)，考察基因之間在位置、結(jié)構(gòu)和功能上的相互關(guān)系。

從目前生物信息學(xué)的研究情況來(lái)看，國(guó)際上公認(rèn)的生物信息學(xué)的研究?jī)?nèi)容，大致包括以下幾個(gè)方面：

生物信息的收集、存儲(chǔ)、管理與提供。包括建立國(guó)際基本生物信息庫(kù)和生物信息傳輸?shù)膰?guó)際聯(lián)網(wǎng)系統(tǒng)；建立生物信息數(shù)據(jù)質(zhì)量的評(píng)估與檢測(cè)系統(tǒng)；生物信息的在線服務(wù)；生物信息可視化和專(zhuān)家系統(tǒng)。
基因組序列信息的提取和分析。包括基因的發(fā)現(xiàn)與鑒定，如利用國(guó)際EST 數(shù)據(jù)庫(kù) (dbEST) 和各自實(shí)驗(yàn)室測(cè)定的相應(yīng)數(shù)據(jù)，經(jīng)過(guò)大規(guī)模并行計(jì)算發(fā)現(xiàn)新基因和新SNPs以及各種功能位點(diǎn)；基因組中非編碼區(qū)的信息結(jié)構(gòu)分析，提出理論模型，闡明該區(qū)域的重要生物學(xué)功能；進(jìn)行模式生物完整基因組的信息結(jié)構(gòu)分析和比較研究；利用生物信息研究遺傳密碼起源、基因組結(jié)構(gòu)的演化、基因組空間結(jié)構(gòu)與DNA折疊的關(guān)系以及基因組信息與生物進(jìn)化關(guān)系等生物學(xué)的重大問(wèn)題。
功能基因組相關(guān)信息分析。包括與大規(guī)模基因表達(dá)譜分析相關(guān)的算法、軟件研究，基因表達(dá)調(diào)控網(wǎng)絡(luò)的研究；與基因組信息相關(guān)的核酸、蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測(cè)和模擬，以及蛋白質(zhì)功能預(yù)測(cè)的研究。
生物大分子結(jié)構(gòu)模擬和藥物設(shè)計(jì)。包括RNA(核糖核酸)的結(jié)構(gòu)模擬和反義RNA的分子設(shè)計(jì)；蛋白質(zhì)空間結(jié)構(gòu)模擬和分子設(shè)計(jì)；具有不同功能域的復(fù)合蛋白質(zhì)以及連接肽的設(shè)計(jì)；生物活性分子的電子結(jié)構(gòu)計(jì)算和設(shè)計(jì)；納米生物材料的模擬與設(shè)計(jì)；基于酶和功能蛋白質(zhì)結(jié)構(gòu)、細(xì)胞表面受體結(jié)構(gòu)的藥物設(shè)計(jì)；基于DNA結(jié)構(gòu)的藥物設(shè)計(jì)等。
生物信息分析的技術(shù)與方法研究。包括發(fā)展有效的能支持大尺度作圖與測(cè)序需要的軟件、數(shù)據(jù)庫(kù)以及若干數(shù)據(jù)庫(kù)工具，諸如電子網(wǎng)絡(luò)等遠(yuǎn)程通訊工具；改進(jìn)現(xiàn)有的理論分析方法，如統(tǒng)計(jì)方法、模式識(shí)別方法、隱馬爾科夫過(guò)程方法、分維方法、神經(jīng)網(wǎng)絡(luò)方法、復(fù)雜性分析方法、密碼學(xué)方法、多序列比較方法等；創(chuàng)建一切適用于基因組信息分析的新方法、新技術(shù)。包括引入復(fù)雜系統(tǒng)分析技術(shù)、信息系統(tǒng)分析技術(shù)等；建立嚴(yán)格的多序列比較方法；發(fā)展與應(yīng)用密碼學(xué)方法以及其他算法和分析技術(shù)，用于解釋基因組的信息，探索DNA序列及其空間結(jié)構(gòu)信息的新表征；發(fā)展研究基因組完整信息結(jié)構(gòu)和信息網(wǎng)絡(luò)的研究方法等；發(fā)展生物大分子空間結(jié)構(gòu)模擬、電子結(jié)構(gòu)模擬和藥物設(shè)計(jì)的新方法與新技術(shù)。
應(yīng)用與發(fā)展研究。匯集與疾病相關(guān)的人類(lèi)基因信息，發(fā)展患者樣品序列信息檢測(cè)技術(shù)和基于序列信息選擇表達(dá)載體、引物的技術(shù)，建立與動(dòng)植物良種繁育相關(guān)的數(shù)據(jù)庫(kù)以及與大分子設(shè)計(jì)和藥物設(shè)計(jì)相關(guān)的數(shù)據(jù)庫(kù)。
利用生物信息學(xué)方法進(jìn)行結(jié)構(gòu)功能預(yù)測(cè)要注意的是同一問(wèn)題采用不同算法，可能產(chǎn)生相同或不同的結(jié)果。因此，必要弄清楚某種方法的基本原理，而不是僅把算法當(dāng)作一個(gè)“黑箱”。因?yàn)橐环N方法可能對(duì)特定實(shí)例很合適，而對(duì)另一個(gè)則完全不對(duì)。因此，本章采用原理和實(shí)用方法并重的原則進(jìn)行介紹。因生物信息學(xué)覆蓋面廣，限于篇幅，本章并未將生物信息學(xué)的全部?jī)?nèi)容詳細(xì)加以講述，僅針對(duì)與目前分子生物學(xué)實(shí)驗(yàn)數(shù)據(jù)分析密切相關(guān)的生物信息學(xué)策略及實(shí)用工具進(jìn)行扼要介紹，文中涉及問(wèn)題的更詳細(xì)信息可參考相關(guān)網(wǎng)站。

[ Last edited by BlueGuy on 2005-6-7 at 16:47 ]

贊一下(15人)

回復(fù)此樓

3樓2005-06-07 16:44:41

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

BlueGuy

榮譽(yù)版主 (正式寫(xiě)手)

懶懶的小蟲(chóng)蟲(chóng)

應(yīng)助: 0 (幼兒園)
貴賓: 4.4
金幣: 2908.4
紅花: 3
帖子: 796
在線: 6.5小時(shí)
蟲(chóng)號(hào): 50895
注冊(cè): 2004-07-15
性別: GG
專(zhuān)業(yè): 細(xì)胞增殖、生長(zhǎng)與分化

★ ★
miRNA(金幣+1):謝謝�。�
zhlpower(金幣+1):繼續(xù)加油

2 生物信息數(shù)據(jù)庫(kù)與查詢

近年來(lái)大量生物學(xué)實(shí)驗(yàn)的數(shù)據(jù)積累，形成了當(dāng)前數(shù)以百計(jì)的生物信息數(shù)據(jù)庫(kù)。它們各自按一定的目標(biāo)收集和整理生物學(xué)實(shí)驗(yàn)數(shù)據(jù)，并提供相關(guān)的數(shù)據(jù)查詢、數(shù)據(jù)處理的服務(wù)。隨著因特網(wǎng)的普及，這些數(shù)據(jù)庫(kù)大多可以通過(guò)網(wǎng)絡(luò)來(lái)訪問(wèn)，或者通過(guò)網(wǎng)絡(luò)下載。

一般而言，這些生物信息數(shù)據(jù)庫(kù)可以分為一級(jí)數(shù)據(jù)庫(kù)和二級(jí)數(shù)據(jù)庫(kù)。一級(jí)數(shù)據(jù)庫(kù)的數(shù)據(jù)都直接來(lái)源于實(shí)驗(yàn)獲得的原始數(shù)據(jù)，只經(jīng)過(guò)簡(jiǎn)單的歸類(lèi)整理和注釋?zhuān)欢?jí)數(shù)據(jù)庫(kù)是在一級(jí)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定目標(biāo)衍生而來(lái)，是對(duì)生物學(xué)知識(shí)和信息的進(jìn)一步整理。國(guó)際上著名的一級(jí)核酸數(shù)據(jù)庫(kù)有Genbank數(shù)據(jù)庫(kù)、EMBL核酸庫(kù)和DDBJ庫(kù)等；蛋白質(zhì)序列數(shù)據(jù)庫(kù)有SWISS-PROT、PIR等；蛋白質(zhì)結(jié)構(gòu)庫(kù)有PDB等。國(guó)際上二級(jí)生物學(xué)數(shù)據(jù)庫(kù)非常多，它們因針對(duì)不同的研究?jī)?nèi)容和需要而各具特色，如人類(lèi)基因組圖譜庫(kù)GDB、轉(zhuǎn)錄因子和結(jié)合位點(diǎn)庫(kù)TRANSFAC、蛋白質(zhì)結(jié)構(gòu)家族分類(lèi)庫(kù)SCOP等等。

下面將順序簡(jiǎn)要介紹一些著名和有特色的生物信息數(shù)據(jù)庫(kù)。

2.1 基因和基因組數(shù)據(jù)庫(kù)

1. Genbank

Genbank庫(kù)包含了所有已知的核酸序列和蛋白質(zhì)序列，以及與它們相關(guān)的文獻(xiàn)著作和生物學(xué)注釋。它是由美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)建立和維護(hù)的。它的數(shù)據(jù)直接來(lái)源于測(cè)序工作者提交的序列；由測(cè)序中心提交的大量EST序列和其它測(cè)序數(shù)據(jù)；以及與其它數(shù)據(jù)機(jī)構(gòu)協(xié)作交換數(shù)據(jù)而來(lái)。Genbank每天都會(huì)與歐洲分子生物學(xué)實(shí)驗(yàn)室(EMBL)的數(shù)據(jù)庫(kù)，和日本的DNA數(shù)據(jù)庫(kù)(DDBJ)交換數(shù)據(jù)，使這三個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)同步。到1999年8月，Genbank中收集的序列數(shù)量達(dá)到460萬(wàn)條，34億個(gè)堿基，而且數(shù)據(jù)增長(zhǎng)的速度還在不斷加快。Genbank的數(shù)據(jù)可以從NCBI的FTP服務(wù)器上免費(fèi)下載完整的庫(kù)，或下載積累的新數(shù)據(jù)。NCBI還提供廣泛的數(shù)據(jù)查詢、序列相似性搜索以及其它分析服務(wù)，用戶可以從NCBI的主頁(yè)上找到這些服務(wù)。

Genbank庫(kù)里的數(shù)據(jù)按來(lái)源于約55,000個(gè)物種，其中56%是人類(lèi)的基因組序列(所有序列中的34%是人類(lèi)的EST序列)。每條Genbank數(shù)據(jù)記錄包含了對(duì)序列的簡(jiǎn)要描述，它的科學(xué)命名，物種分類(lèi)名稱，參考文獻(xiàn)，序列特征表，以及序列本身。序列特征表里包含對(duì)序列生物學(xué)特征注釋如：編碼區(qū)、轉(zhuǎn)錄單元、重復(fù)區(qū)域、突變位點(diǎn)或修飾位點(diǎn)等。所有數(shù)據(jù)記錄被劃分在若干個(gè)文件里，如細(xì)菌類(lèi)、病毒類(lèi)、靈長(zhǎng)類(lèi)、嚙齒類(lèi)，以及EST數(shù)據(jù)、基因組測(cè)序數(shù)據(jù)、大規(guī)�；蚪M序列數(shù)據(jù)等16類(lèi)，其中EST數(shù)據(jù)等又被各自分成若干個(gè)文件。

(1)Genbank數(shù)據(jù)檢索

NCBI的數(shù)據(jù)庫(kù)檢索查詢系統(tǒng)是Entrez。Entrez是基于Web界面的綜合生物信息數(shù)據(jù)庫(kù)檢索系統(tǒng)。利用Entrez系統(tǒng)，用戶不僅可以方便地檢索Genbank的核酸數(shù)據(jù)，還可以檢索來(lái)自Genbank和其它數(shù)據(jù)庫(kù)的蛋白質(zhì)序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、來(lái)自分子模型數(shù)據(jù)庫(kù)(MMDB)的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群序列數(shù)據(jù)集、以及由PubMed獲得Medline的文獻(xiàn)數(shù)據(jù)。

Entrez提供了方便實(shí)用的檢索服務(wù)，所有操作都可以在網(wǎng)絡(luò)瀏覽器上完成。用戶可以利用Entrez界面上提供的限制條件(Limits)、索引(Index)、檢索歷史(History)和剪貼板(Clipboard)等功能來(lái)實(shí)現(xiàn)復(fù)雜的檢索查詢工作。對(duì)于檢索獲得的記錄，用戶可以選擇需要顯示的數(shù)據(jù)，保存查詢結(jié)果，甚至以圖形方式觀看檢索獲得的序列。更詳細(xì)的Entrez使用說(shuō)明可以在該主頁(yè)上獲得。

(2)向Genbank提交序列數(shù)據(jù)

測(cè)序工作者可以把自己工作中獲得的新序列提交給NCBI，添加到Genbank數(shù)據(jù)庫(kù)。這個(gè)任務(wù)可以由基于Web界面的BankIt或獨(dú)立程序Sequin來(lái)完成。

BankIt是一系列表單，包括聯(lián)絡(luò)信息、發(fā)布要求、引用參考信息、序列來(lái)源信息、以及序列本身的信息等。用戶提交序列后，會(huì)從電子郵件收到自動(dòng)生成的數(shù)據(jù)條目，Genbank的新序列編號(hào)，以及完成注釋后的完整的數(shù)據(jù)記錄。用戶還可以在BankIt頁(yè)面下修改已經(jīng)發(fā)布序列的信息。BankIt適合于獨(dú)立測(cè)序工作者提交少量序列，而不適合大量序列的提交，也不適合提交很長(zhǎng)的序列，EST序列和GSS序列也不應(yīng)用BankIt提交。BankIt使用說(shuō)明和對(duì)序列的要求可詳見(jiàn)其主頁(yè)面。

大量的序列提交可以由Sequin程序完成。Sequin程序能方便的編輯和處理復(fù)雜注釋?zhuān)幌盗袃?nèi)建的檢查函數(shù)來(lái)提高序列的質(zhì)量保證。它還被設(shè)計(jì)用于提交來(lái)自系統(tǒng)進(jìn)化、種群和突變研究的序列，可以加入比對(duì)的數(shù)據(jù)。Sequin除了用于編輯和修改序列數(shù)據(jù)記錄，還可以用于序列的分析，任何以FASTA或ASN.1格式序列為輸入數(shù)據(jù)的序列分析程序都可以整合到Sequin程序下。在不同操作系統(tǒng)下運(yùn)行的Sequin程序都可以在ftp://ncbi.nlm.nih.gov/sequin/下找到，Sequin的使用說(shuō)明可詳見(jiàn)其網(wǎng)頁(yè)。

NCBI的網(wǎng)址是：http://www.ncbi.nlm.nih.gov。

Entrez的網(wǎng)址是：http://www.ncbi.nlm.nih.gov/entrez/。

BankIt的網(wǎng)址是：http://www.ncbi.nlm.nih.gov/BankIt。

Sequin的相關(guān)網(wǎng)址是：http://www.ncbi.nlm.nih.gov/Sequin/。

2. EMBL核酸序列數(shù)據(jù)庫(kù)

EMBL核酸序列數(shù)據(jù)庫(kù)由歐洲生物信息學(xué)研究所(EBI)維護(hù)的核酸序列數(shù)據(jù)構(gòu)成，由于與Genbank和DDBJ的數(shù)據(jù)合作交換，它也是一個(gè)全面的核酸序列數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)由Oracal數(shù)據(jù)庫(kù)系統(tǒng)管理維護(hù)，查詢檢索可以通過(guò)通過(guò)因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務(wù)完成。向EMBL核酸序列數(shù)據(jù)庫(kù)提交序列可以通過(guò)基于Web的WEBIN工具，也可以用Sequin軟件來(lái)完成。

數(shù)據(jù)庫(kù)網(wǎng)址是：http://www.ebi.ac.uk/embl/。

SRS的網(wǎng)址是：http://srs.ebi.ac.uk/。

WEBIN的網(wǎng)址是：http://www.ebi.ac.uk/embl/Submission/webin.html。

3. DDBJ數(shù)據(jù)庫(kù)

日本DNA數(shù)據(jù)倉(cāng)庫(kù)(DDBJ)也是一個(gè)全面的核酸序列數(shù)據(jù)庫(kù)，與Genbank和EMBL核酸庫(kù)合作交換數(shù)據(jù)�？梢允褂闷渲黜�(yè)上提供的SRS工具進(jìn)行數(shù)據(jù)檢索和序列分析。可以用Sequin軟件向該數(shù)據(jù)庫(kù)提交序列。

DDBJ的網(wǎng)址是：http://www.ddbj.nig.ac.jp/。

4. GDB

基因組數(shù)據(jù)庫(kù)(GDB)為人類(lèi)基因組計(jì)劃(HGP)保存和處理基因組圖譜數(shù)據(jù)。GDB的目標(biāo)是構(gòu)建關(guān)于人類(lèi)基因組的百科全書(shū)，除了構(gòu)建基因組圖譜之外，還開(kāi)發(fā)了描述序列水平的基因組內(nèi)容的方法，包括序列變異和其它對(duì)功能和表型的描述。目前GDB中有：人類(lèi)基因組區(qū)域(包括基因、克隆、amplimers PCR 標(biāo)記、斷點(diǎn)breakpoints、細(xì)胞遺傳標(biāo)記cytogenetic markers、易碎位點(diǎn)fragile sites、EST序列、綜合區(qū)域syndromic regions、contigs和重復(fù)序列)；人類(lèi)基因組圖譜(包括細(xì)胞遺傳圖譜、連接圖譜、放射性雜交圖譜、content contig圖譜和綜合圖譜等)；人類(lèi)基因組內(nèi)的變異(包括突變和多態(tài)性，加上等位基因頻率數(shù)據(jù))。GDB數(shù)據(jù)庫(kù)以對(duì)象模型來(lái)保存數(shù)據(jù)，提供基于Web的數(shù)據(jù)對(duì)象檢索服務(wù)，用戶可以搜索各種類(lèi)型的對(duì)象，并以圖形方式觀看基因組圖譜。

GDB的網(wǎng)址是：http://www.gdb.org。

GDB的國(guó)內(nèi)鏡像是：http://gdb.pku.edu.cn/gdb/。

2.2 蛋白質(zhì)數(shù)據(jù)庫(kù)

1. PIR和PSD

PIR國(guó)際蛋白質(zhì)序列數(shù)據(jù)庫(kù)(PSD)是由蛋白質(zhì)信息資源(PIR)、慕尼黑蛋白質(zhì)序列信息中心(MIPS)和日本國(guó)際蛋白質(zhì)序列數(shù)據(jù)庫(kù)(JIPID)共同維護(hù)的國(guó)際上最大的公共蛋白質(zhì)序列數(shù)據(jù)庫(kù)。這是一個(gè)全面的、經(jīng)過(guò)注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫(kù)，包含超過(guò)142,000條蛋白質(zhì)序列(至99年9月)，其中包括來(lái)自幾十個(gè)完整基因組的蛋白質(zhì)序列。所有序列數(shù)據(jù)都經(jīng)過(guò)整理，超過(guò)99%的序列已按蛋白質(zhì)家族分類(lèi)，一半以上還按蛋白質(zhì)超家族進(jìn)行了分類(lèi)。PSD的注釋中還包括對(duì)許多序列、結(jié)構(gòu)、基因組和文獻(xiàn)數(shù)據(jù)庫(kù)的交叉索引，以及數(shù)據(jù)庫(kù)內(nèi)部條目之間的索引，這些內(nèi)部索引幫助用戶在包括復(fù)合物、酶－底物相互作用、活化和調(diào)控級(jí)聯(lián)和具有共同特征的條目之間方便的檢索。每季度都發(fā)行一次完整的數(shù)據(jù)庫(kù)，每周可以得到更新部分。

PSD數(shù)據(jù)庫(kù)有幾個(gè)輔助數(shù)據(jù)庫(kù)，如基于超家族的非冗余庫(kù)等。PIR提供三類(lèi)序列搜索服務(wù)：基于文本的交互式檢索；標(biāo)準(zhǔn)的序列相似性搜索，包括BLAST、FASTA等；結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級(jí)搜索，包括按注釋分類(lèi)的相似性搜索、結(jié)構(gòu)域搜索GeneFIND等。

PIR和PSD的網(wǎng)址是：http://pir.georgetown.edu/。

數(shù)據(jù)庫(kù)下載地址是：ftp://nbrfa.georgetown.edu/pir/。

2. SWISS-PROT

SWISS-PROT是經(jīng)過(guò)注釋的蛋白質(zhì)序列數(shù)據(jù)庫(kù)，由歐洲生物信息學(xué)研究所(EBI)維護(hù)。數(shù)據(jù)庫(kù)由蛋白質(zhì)序列條目構(gòu)成，每個(gè)條目包含蛋白質(zhì)序列、引用文獻(xiàn)信息、分類(lèi)學(xué)信息、注釋等，注釋中包括蛋白質(zhì)的功能、轉(zhuǎn)錄后修飾、特殊位點(diǎn)和區(qū)域、二級(jí)結(jié)構(gòu)、四級(jí)結(jié)構(gòu)、與其它序列的相似性、序列殘缺與疾病的關(guān)系、序列變異體和沖突等信息。SWISS-PROT中盡可能減少了冗余序列，并與其它30多個(gè)數(shù)據(jù)建立了交叉引用，其中包括核酸序列庫(kù)、蛋白質(zhì)序列庫(kù)和蛋白質(zhì)結(jié)構(gòu)庫(kù)等。

利用序列提取系統(tǒng)(SRS)可以方便地檢索SWISS-PROT和其它EBI的數(shù)據(jù)庫(kù)。

SWISS-PROT只接受直接測(cè)序獲得的蛋白質(zhì)序列，序列提交可以在其Web頁(yè)面上完成。

SWISS-PROT的網(wǎng)址是：http://www.ebi.ac.uk/swissprot/。

3. PROSITE

PROSITE數(shù)據(jù)庫(kù)收集了生物學(xué)有顯著意義的蛋白質(zhì)位點(diǎn)和序列模式，并能根據(jù)這些位點(diǎn)和模式快速和可靠地鑒別一個(gè)未知功能的蛋白質(zhì)序列應(yīng)該屬于哪一個(gè)蛋白質(zhì)家族。有的情況下，某個(gè)蛋白質(zhì)與已知功能蛋白質(zhì)的整體序列相似性很低，但由于功能的需要保留了與功能密切相關(guān)的序列模式，這樣就可能通過(guò)PROSITE的搜索找到隱含的功能motif，因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點(diǎn)、配體結(jié)合位點(diǎn)、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等；除了序列模式之外，PROSITE還包括由多序列比對(duì)構(gòu)建的profile，能更敏感地發(fā)現(xiàn)序列與profile的相似性。PROSITE的主頁(yè)上提供各種相關(guān)檢索服務(wù)。

PROSITE的網(wǎng)址是：http://www.expasy.ch/prosite/。

4. PDB

蛋白質(zhì)數(shù)據(jù)倉(cāng)庫(kù)(PDB)是國(guó)際上唯一的生物大分子結(jié)構(gòu)數(shù)據(jù)檔案庫(kù)，由美國(guó)Brookhaven國(guó)家實(shí)驗(yàn)室建立。PDB收集的數(shù)據(jù)來(lái)源于X光晶體衍射和核磁共振(NMR)的數(shù)據(jù)，經(jīng)過(guò)整理和確認(rèn)后存檔而成。目前PDB數(shù)據(jù)庫(kù)的維護(hù)由結(jié)構(gòu)生物信息學(xué)研究合作組織(RCSB)負(fù)責(zé)。RCSB的主服務(wù)器和世界各地的鏡像服務(wù)器提供數(shù)據(jù)庫(kù)的檢索和下載服務(wù)，以及關(guān)于PDB數(shù)據(jù)文件格式和其它文檔的說(shuō)明，PDB數(shù)據(jù)還可以從發(fā)行的光盤(pán)獲得。使用Rasmol等軟件可以在計(jì)算機(jī)上按PDB文件顯示生物大分子的三維結(jié)構(gòu)。

RCSB的PDB數(shù)據(jù)庫(kù)網(wǎng)址是：http://www.rcsb.org/pdb/。

5. SCOP

蛋白質(zhì)結(jié)構(gòu)分類(lèi)(SCOP)數(shù)據(jù)庫(kù)詳細(xì)描述了已知的蛋白質(zhì)結(jié)構(gòu)之間的關(guān)系。分類(lèi)基于若干層次：家族，描述相近的進(jìn)化關(guān)系；超家族，描述遠(yuǎn)源的進(jìn)化關(guān)系；折疊子(fold)，描述空間幾何結(jié)構(gòu)的關(guān)系；折疊類(lèi)，所有折疊子被歸于全α、全β、α/β、α＋β和多結(jié)構(gòu)域等幾個(gè)大類(lèi)。SCOP還提供一個(gè)非冗余的ASTRAIL序列庫(kù)，這個(gè)庫(kù)通常被用來(lái)評(píng)估各種序列比對(duì)算法。此外，SCOP還提供一個(gè)PDB-ISL中介序列庫(kù)，通過(guò)與這個(gè)庫(kù)中序列的兩兩比對(duì)，可以找到與未知結(jié)構(gòu)序列遠(yuǎn)緣的已知結(jié)構(gòu)序列。

SCOP的網(wǎng)址是：http://scop.mrc-lmb.cam.ac.uk/scop/。

6. COG

蛋白質(zhì)直系同源簇(COGs)數(shù)據(jù)庫(kù)是對(duì)細(xì)菌、藻類(lèi)和真核生物的21個(gè)完整基因組的編碼蛋白，根據(jù)系統(tǒng)進(jìn)化關(guān)系分類(lèi)構(gòu)建而成。COG庫(kù)對(duì)于預(yù)測(cè)單個(gè)蛋白質(zhì)的功能和整個(gè)新基因組中蛋白質(zhì)的功能都很有用。利用COGNITOR程序，可以把某個(gè)蛋白質(zhì)與所有COGs中的蛋白質(zhì)進(jìn)行比對(duì)，并把它歸入適當(dāng)?shù)腃OG簇。COG庫(kù)提供了對(duì)COG分類(lèi)數(shù)據(jù)的檢索和查詢，基于Web的COGNITOR服務(wù)，系統(tǒng)進(jìn)化模式的查詢服務(wù)等。

COG庫(kù)的網(wǎng)址是：http://www.ncbi.nlm.nih.gov/COG。

下載COG庫(kù)和COGNITOR程序在：ftp://ncbi.nlm.nih.gov/pub/COG。

2.3 功能數(shù)據(jù)庫(kù)

1. KEGG

京都基因和基因組百科全書(shū)(KEGG)是系統(tǒng)分析基因功能，聯(lián)系基因組信息和功能信息的知識(shí)庫(kù)。基因組信息存儲(chǔ)在GENES數(shù)據(jù)庫(kù)里，包括完整和部分測(cè)序的基因組序列；更高級(jí)的功能信息存儲(chǔ)在PATHWAY數(shù)據(jù)庫(kù)里，包括圖解的細(xì)胞生化過(guò)程如代謝、膜轉(zhuǎn)運(yùn)、信號(hào)傳遞、細(xì)胞周期，還包括同系保守的子通路等信息；KEGG的另一個(gè)數(shù)據(jù)庫(kù)是LIGAND，包含關(guān)于化學(xué)物質(zhì)、酶分子、酶反應(yīng)等信息。KEGG提供了Java的圖形工具來(lái)訪問(wèn)基因組圖譜，比較基因組圖譜和操作表達(dá)圖譜，以及其它序列比較、圖形比較和通路計(jì)算的工具，可以免費(fèi)獲取。

KEGG的網(wǎng)址是：。

2. DIP

相互作用的蛋白質(zhì)數(shù)據(jù)庫(kù)(DIP)收集了由實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)－蛋白質(zhì)相互作用。數(shù)據(jù)庫(kù)包括蛋白質(zhì)的信息、相互作用的信息和檢測(cè)相互作用的實(shí)驗(yàn)技術(shù)三個(gè)部分。用戶可以根據(jù)蛋白質(zhì)、生物物種、蛋白質(zhì)超家族、關(guān)鍵詞、實(shí)驗(yàn)技術(shù)或引用文獻(xiàn)來(lái)查詢DIP數(shù)據(jù)庫(kù)。

DIP的網(wǎng)址是：http://dip.doe-mbi.ucla.edu/。

3. ASDB

可變剪接數(shù)據(jù)庫(kù)(ASDB)包括蛋白質(zhì)庫(kù)和核酸庫(kù)兩部分。ASDB(蛋白質(zhì))部分來(lái)源于SWISS-PROT蛋白質(zhì)序列庫(kù)，通過(guò)選取有可變剪接注釋的序列，搜索相關(guān)可變剪接的序列，經(jīng)過(guò)序列比對(duì)、篩選和分類(lèi)構(gòu)建而成。ASDB(核酸)部分來(lái)自Genbank中提及和注釋的可變剪接的完整基因構(gòu)成。數(shù)據(jù)庫(kù)提供了方便的搜索服務(wù)。

ASDB的網(wǎng)址是：http://cbcg.nersc.gov/asdb。

4. TRRD

轉(zhuǎn)錄調(diào)控區(qū)數(shù)據(jù)庫(kù)(TRRD)是在不斷積累的真核生物基因調(diào)控區(qū)結(jié)構(gòu)－功能特性信息基礎(chǔ)上構(gòu)建的。每一個(gè)TRRD的條目里包含特定基因各種結(jié)構(gòu)－功能特性：轉(zhuǎn)錄因子結(jié)合位點(diǎn)、啟動(dòng)子、增強(qiáng)子、靜默子、以及基因表達(dá)調(diào)控模式等。TRRD包括五個(gè)相關(guān)的數(shù)據(jù)表：TRRDGENES(包含所有TRRD庫(kù)基因的基本信息和調(diào)控單元信息)；TRRDSITES(包括調(diào)控因子結(jié)合位點(diǎn)的具體信息)；TRRDFACTORS(包括TRRD中與各個(gè)位點(diǎn)結(jié)合的調(diào)控因子的具體信息)；TRRDEXP(包括對(duì)基因表達(dá)模式的具體描述)；TRRDBIB(包括所有注釋涉及的參考文獻(xiàn))。TRRD主頁(yè)提供了對(duì)這幾個(gè)數(shù)據(jù)表的檢索服務(wù)。

TRRD的網(wǎng)址是：http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/。

5. TRANSFAC

TRANSFAC數(shù)據(jù)庫(kù)是關(guān)于轉(zhuǎn)錄因子、它們?cè)诨蚪M上的結(jié)合位點(diǎn)和與DNA結(jié)合的profiles的數(shù)據(jù)庫(kù)。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等數(shù)據(jù)表構(gòu)成。此外，還有幾個(gè)與TRANSFAC密切相關(guān)的擴(kuò)展庫(kù)：PATHODB庫(kù)收集了可能導(dǎo)致病態(tài)的突變的轉(zhuǎn)錄因子和結(jié)合位點(diǎn)；S/MART DB收集了與染色體結(jié)構(gòu)變化相關(guān)的蛋白因子和位點(diǎn)的信息；TRANSPATH庫(kù)用于描述與轉(zhuǎn)錄因子調(diào)控相關(guān)的信號(hào)傳遞的網(wǎng)絡(luò)；CYTOMER庫(kù)表現(xiàn)了人類(lèi)轉(zhuǎn)錄因子在各個(gè)器官、細(xì)胞類(lèi)型、生理系統(tǒng)和發(fā)育時(shí)期的表達(dá)狀況。TRANSFAC及其相關(guān)數(shù)據(jù)庫(kù)可以免費(fèi)下載，也可以通過(guò)Web進(jìn)行檢索和查詢。

TRANSFAC的網(wǎng)址是：http://transfac.gbf.de/TRANSFAC/。

2.4 其它數(shù)據(jù)庫(kù)資源

1. DBCat

DBCat是生物信息數(shù)據(jù)庫(kù)的目錄數(shù)據(jù)庫(kù)，它收集了500多個(gè)生物信息學(xué)數(shù)據(jù)庫(kù)的信息，并根據(jù)它們的應(yīng)用領(lǐng)域進(jìn)行了分類(lèi)。包括DNA、RNA、蛋白質(zhì)、基因組、圖譜、蛋白質(zhì)結(jié)構(gòu)、文獻(xiàn)著作等基本類(lèi)型。數(shù)據(jù)庫(kù)可以免費(fèi)下載或在網(wǎng)絡(luò)上檢索查詢。

DBCat的網(wǎng)址是：http://www.infobiogen.fr/services/dbcat/。

下載DBCat在：ftp://ftp.infobiogen.fr/pub/db/dbcat。

2. PubMed

PubMed是NCBI維護(hù)的文獻(xiàn)引用數(shù)據(jù)庫(kù)，提供對(duì)MEDLINE、Pre-MEDLINE等文獻(xiàn)數(shù)據(jù)庫(kù)的引用查詢和對(duì)大量網(wǎng)絡(luò)科學(xué)類(lèi)電子期刊的鏈接。利用Entrez系統(tǒng)可以對(duì)PubMed進(jìn)行方便的查詢檢索。

PubMed的網(wǎng)址是：http://www.ncbi.nlm.nih.gov/。

除了以上提及的數(shù)據(jù)之外，還有許許多多的專(zhuān)門(mén)生物信息數(shù)據(jù)庫(kù)，涉及了目前生物學(xué)研究的各個(gè)層面和領(lǐng)域，由于篇幅所限無(wú)法一一詳述。國(guó)內(nèi)也有一些大數(shù)據(jù)庫(kù)的鏡像站點(diǎn)和自己開(kāi)發(fā)的有特色的數(shù)據(jù)庫(kù)，如歐洲分子生物學(xué)網(wǎng)絡(luò)組織EMBNet中國(guó)節(jié)點(diǎn)北京大學(xué)分子生物信息鏡像系統(tǒng)，上海博容基因公司與上海嘉瑞軟件公司合作開(kāi)發(fā)的國(guó)產(chǎn)漢化基因數(shù)據(jù)庫(kù)及分析管理系統(tǒng)，同時(shí)國(guó)家級(jí)的生物信息學(xué)中心也在籌建之中。我們期待國(guó)內(nèi)能有更多高質(zhì)量和使用便利的數(shù)據(jù)庫(kù)資源，推動(dòng)我國(guó)生物信息學(xué)和整個(gè)生命科學(xué)的發(fā)展。

清華大學(xué)生物信息學(xué)研究所網(wǎng)址：http://bioinfo.tsinghua.edu.cn

北京大學(xué)生物信息鏡像系統(tǒng)網(wǎng)址：http://cbi.pku.edu.cn

贊一下(10人)

回復(fù)此樓

4樓2005-06-07 16:46:06

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

查看全部 88 個(gè)回答

普通表情龍兔虎貓高級(jí)回復(fù) (可上傳附件)

最具人氣熱帖推薦 [查看全部]		作者	回/看	最后發(fā)表

[考研] 工科0856求調(diào)劑 +5	沐析汀汀 2026-03-21	5/250	2026-03-23 17:56 by 海瑟薇-
[考研] 一志愿211 初試270分求調(diào)劑 +3	谷雨上岸 2026-03-23	4/200	2026-03-23 15:53 by ACS Nano——
[考研] 350求調(diào)劑 +6	weudhdk 2026-03-19	6/300	2026-03-23 15:47 by tangyuan0840221
[考研] 284求調(diào)劑 +6	Zhao anqi 2026-03-22	6/300	2026-03-23 09:23 by king123！
[考研] 0854電子信息求調(diào)劑 +3	α____ 2026-03-22	3/150	2026-03-22 21:28 by zhq0425
[考研] 環(huán)境學(xué)碩288求調(diào)劑 +6	皮皮皮123456 2026-03-22	6/300	2026-03-22 16:52 by i_cooler
[考研] 初試 317 +7	半拉月丙 2026-03-20	7/350	2026-03-21 22:26 by peike
[考研] 0703化學(xué)調(diào)劑 +4	妮妮ninicgb 2026-03-21	4/200	2026-03-21 18:39 by 學(xué)員8dgXkO
[考研] 297求調(diào)劑 +3	喜歡還是不甘心 2026-03-20	3/150	2026-03-21 18:33 by 學(xué)員8dgXkO
[考研] 311求調(diào)劑 +3	勇敢的小吳 2026-03-20	3/150	2026-03-21 17:40 by ColorlessPI
[考研] 299求調(diào)劑 +5	shxchem 2026-03-20	7/350	2026-03-21 17:09 by ColorlessPI
[考研] 299求調(diào)劑 +4	某某某某位 2026-03-21	4/200	2026-03-21 16:30 by barlinike
[考研] 求調(diào)劑 +6	Mqqqqqq 2026-03-19	6/300	2026-03-21 08:04 by JourneyLucky
[考研] 304求調(diào)劑 +6	曼殊2266 2026-03-18	6/300	2026-03-21 00:32 by JourneyLucky
[考研] 一志愿西南交大，求調(diào)劑 +5	材化逐夢(mèng)人 2026-03-18	5/250	2026-03-21 00:26 by JourneyLucky
[考研] 一志愿武漢理工材料工程專(zhuān)碩調(diào)劑 +9	Doleres 2026-03-19	9/450	2026-03-20 22:36 by JourneyLucky
[考研] 317求調(diào)劑 +5	申子申申 2026-03-19	9/450	2026-03-20 22:26 by JourneyLucky
[考研] 0856調(diào)劑，是學(xué)校就去 +8	sllhht 2026-03-19	9/450	2026-03-20 14:25 by 無(wú)懈可擊111
[考研] 0703化學(xué)調(diào)劑 +5	pupcoco 2026-03-17	8/400	2026-03-19 13:58 by houyaoxu
[考研] 0703化學(xué)調(diào)劑 +3	妮妮ninicgb 2026-03-17	3/150	2026-03-18 10:29 by macy2011