| 3 | 1/1 | 返回列表 |
| 查看: 2500 | 回復: 2 | |||
[交流]
Bioinformatics
|
|
生物信息學 概論 1.1 什么是生物信息學? 什么是生物信息學?生物信息學(Bioinformatics)是一門新興的交叉學科。很多人會認為:生物信息學既涉及生物又涉及物理,一定是一個內(nèi)容十分廣泛的學科領(lǐng)域。其實它的內(nèi)涵十分具體,范圍非常明確。生物信息學是伴隨基因組研究而產(chǎn)生的,因此它的研究內(nèi)容就緊隨著基因組研究而發(fā)展。 廣義地說,生物信息學從事對基因組研究相關(guān)生物信息的獲取、加工、儲存、分配、分析和解釋。這一定義包括了兩層含義,一是對海量數(shù)據(jù)的收集、整理與服務(wù),也就是管好這些數(shù)據(jù);另一個是從中發(fā)現(xiàn)新的規(guī)律,也就是用好這些數(shù)據(jù)。 具體地說,生物信息學是把基因組DNA序列信息分析作為源頭,找到基因組序列中代表蛋白質(zhì)和RNA基因的編碼區(qū);同時,闡明基因組中大量存在的非編碼區(qū)的信息實質(zhì),破譯隱藏在DNA序列中的遺傳語言規(guī)律;在此基礎(chǔ)上,歸納、整理與基因組遺傳信息釋放及其調(diào)控相關(guān)的轉(zhuǎn)錄譜和蛋白質(zhì)譜的數(shù)據(jù),從而認識代謝、發(fā)育、分化、進化的規(guī)律。 生物信息學還利用基因組中編碼區(qū)的信息進行蛋白質(zhì)空間結(jié)構(gòu)的模擬和蛋白質(zhì)功能的預測,并將此類信息與生物體和生命過程的生理生化信息相結(jié)合,闡明其分子機理,最終進行蛋白質(zhì)、核酸的分子設(shè)計、藥物設(shè)計和個體化的醫(yī)療保健設(shè)計。 以核酸、蛋白質(zhì)等生物大分子數(shù)據(jù)庫為主要對象,以數(shù)學、信息學、計算機科學為主要手段,以計算機硬件、軟件和計算機網(wǎng)絡(luò)為主要工具,對浩如煙海的原始數(shù)據(jù)進行存儲、管理、注釋、加工,使之成為具有明確生物意義的生物信息。并通過對生物信息的查詢、搜索、比較、分析,從中獲取基因編碼、基因調(diào)控、核酸和蛋白質(zhì)結(jié)構(gòu)功能及其相互關(guān)系等理性知識。在大量信息和知識的基礎(chǔ)上,探索生命起源、生物進化以及細胞、器官和個體的發(fā)生、發(fā)育、病變、衰亡等生命科學中重大問題,搞清它們的基本規(guī)律和時空聯(lián)系,建立" 生物學周期表"。 1.2 生物信息學研究、開發(fā)的主要內(nèi)容 構(gòu)成和維持一個生活有機體所必備的基本信息包含于它的基因組之中,由細胞內(nèi)進行的多種分子生物學反應將這些信息轉(zhuǎn)化為真正的生命現(xiàn)象;蚪M的一部分翻譯成蛋白和R NA,其它部分調(diào)控這些大分子的表達。翻譯出來的蛋白及RNA折疊成高度專一的三維結(jié)構(gòu),在體內(nèi)的特定位置上實現(xiàn)它的功能。這些過程的大量細節(jié)都是在分子生物學研究的實驗室里揭示出來的,所形成的大量數(shù)據(jù),存儲于數(shù)據(jù)庫中。生物信息學試圖從這些數(shù)據(jù)中提取新的生物學信息和知識,是一門深深植根于全面深入的實驗事實和數(shù)據(jù)的理論生物學。它的研究范圍十分廣泛,大體包括以下方面:基因組序列分析和解釋、藥物設(shè)計、基因多態(tài)性分析、基因表達調(diào)控、疾病相關(guān)基因鑒定、基因產(chǎn)物結(jié)構(gòu)與功能預報、基因進化、基于遺傳的流行病學等。 (1)基因組序列的分析(序列比對和結(jié)構(gòu)比對) 在基因組測序的原始數(shù)據(jù)發(fā)表后,仍有許多信息研究需要開展,比如 注釋、同源性分析、基因分類、基因結(jié)構(gòu)分析等,這方面的研究需要建立較優(yōu)化的數(shù)理統(tǒng)計模型,大規(guī)模的數(shù)據(jù)庫檢索,模式識別和可視化等。 。2)基因進化(同源性判斷,進化樹的的構(gòu)建) 根據(jù)多種生物的基因組數(shù)據(jù)及對垂直進化和平行演化的研究,可以對生命至關(guān)重要的基因結(jié)構(gòu)及它的調(diào)控進行研究,對此需要建立較完整的生物進化模型,用基因組的數(shù)據(jù)來鑒別出環(huán)境因素對其進化的影響。這次研究成果應對生態(tài)環(huán)境,環(huán)境衛(wèi)生提出指導性影響,對研究生命起源也有科學意義。 (3)藥物設(shè)計 生物信息學所提供的數(shù)據(jù)資料,可以指導對藥物作用靶位的選定和藥物分子的設(shè)計。這種方法有快速高效的特點,它的研究包括大分子結(jié)構(gòu)功能的模擬和預報,藥物分子與大分子結(jié)合的模擬,關(guān)鍵性基因的致病機制,及生物分子同源性的分析,生物分子在指定細胞的分布和位點等。 (4)基因多態(tài)性分析 即使一個基因的序列已經(jīng)確定,它只是有代表性的序列之一。在群體的分布中,仍存在有基因的多態(tài)性。由于多態(tài)性的存在,生物表型及對環(huán)境、外源物和藥物的反應即不同。研究基因多態(tài)性可以對群體的基因共性及其中的基因個性( SNPs)都有明確的認識。 。5)基于遺傳的流行病學研究 流行病學研究是醫(yī)學信息學的重要課題之一。將流行病學的遺傳和非遺傳性的研究與分子基因信息結(jié)合起來,會導致對疾病的機理、個體對某種疾病的易感性和疾病在群體中的分布有更明確的認識,對疾病的預防和治療有極大的指導意義。 。6)關(guān)鍵性基因簽定(基因識別) 通過基因與生物表型、致病機制和其它生命現(xiàn)象之間的關(guān)聯(lián),可以發(fā)現(xiàn)一些至關(guān)重要的基因,結(jié)合定向的生物實驗,可以確認新的關(guān)鍵性基因。 。7)基因產(chǎn)物功能預報 在確認了基因的基礎(chǔ)上,通過與已知的基因產(chǎn)物的結(jié)構(gòu)和功能、代謝途徑和其它生物功能對照,可以實現(xiàn)新基因產(chǎn)物功能的預報,結(jié)合定向的生物實驗,可以證實預報的功能。 。8)完整基因組的比較基因組學 在后基因組時代,生物信息學家不僅有大量的序列和基因而且有越來越多的完整基因組。有了這些資料人們就能對若干重大生物學問題進行分析。有的科學家估計不同人種間基因組的差別僅為 0.1%;人猿間差別約為1%。但他們表型間的差異十分顯著。因此其表型差異不僅應從基因、DNA 序列找原因,也應考慮到整個基因組、考慮染色體組織上的差異。 1.3 生物信息學----基因組研究的有力工具 基因組信息學、蛋白質(zhì)的結(jié)構(gòu)計算與模擬以及藥物設(shè)計,這三者緊密地圍繞著遺傳信息傳遞的中心法則,因而必然有機地連接在一起。 為什么基因組研究需要依賴生物信息學呢?首先伴隨著基因組研究,相關(guān)信息出現(xiàn)了爆炸性增長,迫切需要對海量生物信息進行處理。自1995年科學家破譯了全長為180萬核苷酸的嗜血流感桿菌基因組以來,到目前已有大約60個微生物和若干真核生物,如:酵母、線蟲、果蠅、擬南芥的完整基因組完成測序。至2001年的春天,科學家又公布了人類基因組的絕大部分序列,即:人類基因組的工作草圖。這些成就意味著基因組的研究將全面進入信息提取和數(shù)據(jù)分析的嶄新階段。根據(jù)國際數(shù)據(jù)庫的統(tǒng)計,1999年12月DNA堿基數(shù)目為30億,2000年4月DNA堿基數(shù)目是60億,現(xiàn)在這一數(shù)目已達140億,大約每14個月翻一番。同時,電子計算機芯片對于數(shù)字處理能力的增長也相當于每18個月翻一番。因此,計算機能夠有效地管理和運行海量數(shù)據(jù)。 但是,更為本質(zhì)的原因是基因組數(shù)據(jù)的復雜性。所謂某種生物的基因組就是指該生物所有遺傳物質(zhì)的總和。生物的遺傳物質(zhì)是一類稱為脫氧核糖核酸(DNA)的生物大分子,它是由4種核苷酸串接起來組成的,通常用字符A、T、G、C代表。通俗地說,生物的遺傳密碼就是這4個字符連接起來的線狀長鏈。這種鏈往往很長,比如:人的遺傳密碼就含有32億個字符,將它們堆起來就構(gòu)成了一部100多萬頁、每頁有3000字符的"天書"。這本"天書"包含了人體的結(jié)構(gòu)和功能以及生命活動過程的大量信息,卻僅僅由4個字符組成,既無詞法,又無句法,還沒有標點符號,看起來每一頁都是相似的。如何讀懂它是個極大的難題。基因組研究最終是要把生物學問題轉(zhuǎn)化成對數(shù)字符號的處理問題。要解決這樣的問題就必須發(fā)展新的分析理論、方法、技術(shù)、工具,就必須依賴計算機的信息處理。 從事生物信息學研究應具備多方面的科學基礎(chǔ)。首先,它需要一定的計算能力,包括相應的軟、硬設(shè)備。要有各種數(shù)據(jù)庫或者能與國際、國內(nèi)的數(shù)據(jù)庫系統(tǒng)進行有效的交流。要有發(fā)達、穩(wěn)定的互聯(lián)網(wǎng)絡(luò)系統(tǒng);同時,生物信息學需要強有力的創(chuàng)新算法和軟件。沒有算法創(chuàng)新,生物信息學就無法獲得持續(xù)的發(fā)展。最后,它要與實驗科學,特別是與自動化的大規(guī)模高通量的生物學研究方法與平臺技術(shù)建立廣泛、緊密的聯(lián)系。這些技術(shù),既是產(chǎn)生生物信息數(shù)據(jù)的主要方法,又是驗證生物信息學研究結(jié)果的關(guān)鍵手段。因此,從事生物信息學研究的人員也必須具備多學科交叉的知識。 我國生物信息學的研究和應用有一定的基礎(chǔ),因而有望取得突破性成果,這對于增強我國在基礎(chǔ)研究領(lǐng)域的實力,在某些方面占據(jù)國際領(lǐng)先地位是十分重要的。生物信息學成果的應用也會產(chǎn)生巨大的社會效益和經(jīng)濟效益。 基因組研究的主要研究內(nèi)容 一.獲取人和各種生物的完整基因組 基因組研究的首要目標是獲得人的整套遺傳密碼。人的遺傳密碼有32億個堿基,而現(xiàn)在的DNA測序儀每個反應只能讀取幾百到上千個堿基。也就是說,要得到人的全部遺傳密碼首先要把人的基因組打碎,測完一個個小段的序列后再把它們重新拼接起來。 但是,我們很容易想象:如果把一本書撕成大小一樣的碎片,就再也無法把它們重新正確地拼接起來,這是因為撕的同時丟失了書的上下文聯(lián)系。這該如何辦呢?我們可以取兩本一樣的書,按照不同的撕法把它們分頭打碎。通過不同碎片互相參照,找到相同的單詞,就可以部分恢復書的上下文聯(lián)系。撕的書越多,恢復的上下文聯(lián)系也越多。因此要獲得人的整套遺傳密碼就不能把人的32億堿基只測一遍,往往要測很多遍。比如,今年初在《自然》、《科學》兩雜志上公布的人類基因組工作草圖報道,它含有約29億堿基,其物理圖譜覆蓋率為96%,序列覆蓋率為94%。有大于90%的連續(xù)序列群已大于10萬堿基;有約25%的連續(xù)序列群已等于或大于千萬堿基。在這些序列中發(fā)現(xiàn)了3-4萬個編碼蛋白質(zhì)的基因。得到這樣的圖就是相當于把人類基因組測了大約5遍才實現(xiàn)的。要作到這一點就需要把幾千萬個小片段通過比對再連接起來,這就是常說的基因組序列數(shù)據(jù)的拼接和組裝。 在基因組大規(guī)模測序的每一個環(huán)節(jié)都與信息分析緊密相關(guān)。從測序儀的光密度采樣與分析、堿基讀出、載體標識與去除、拼接、填補序列間隙,到重復序列標識、讀框預測和基因標注,每一步都是緊密依賴生物信息學的軟件和數(shù)據(jù)庫的。其中,序列拼接和填補序列間隙是最為關(guān)鍵的首要難題。其困難不僅來自它巨大的海量數(shù)據(jù),而且在于它含有高度重復的序列。為此,這一過程特別需要把實驗設(shè)計和信息分析時刻聯(lián)系在一起。另一方面,必須按照不同步驟的要求,發(fā)展適當?shù)乃惴跋鄳能浖,以應對各種復雜的問題。國際上很多著名的基因組研究中心,都有自己的拼接和組裝策略,并且這樣的工作都是在超級計算機上完成的。 有了完整基因組,人類對自身的認識就更為細致、更為精確。比如:發(fā)現(xiàn)在我們的基因組中真正編碼蛋白質(zhì)(稱為外顯子)等的部分很少,只占1.1%;外顯子與外顯子之間的區(qū)域(稱為內(nèi)含子)占了24%;而基因與基因之間的間隔序列卻占了75%,也就是說在人類基因組中不編碼蛋白質(zhì)的區(qū)域占了絕大部分。發(fā)現(xiàn)人類編碼蛋白的基因較之其它生物體的基因更為復雜,有更為豐富的剪接方式。發(fā)現(xiàn)基因組中片段重復現(xiàn)象很普遍,這反映了人類復雜的進化歷史。發(fā)現(xiàn)人的第13號染色體比較穩(wěn)定,而男性的第12號染色體和女性的第16號染色體是易變的,等等。 二.發(fā)現(xiàn)新基因和新的單核苷酸多態(tài)性 發(fā)現(xiàn)新基因是當前國際上基因組研究的熱點,使用生物信息學的方法是發(fā)現(xiàn)新基因的重要手段。比如:啤酒酵母完整基因組所包含的約6000個基因,大約60%是通過信息分析得到的。 (1)基因的電腦克隆 利用EST數(shù)據(jù)庫發(fā)現(xiàn)新基因也被稱為基因的電腦克隆。EST序列是基因表達的短cDNA序列,它們攜帶著完整基因的某些片段的信息。到2001年10月,GenBank的EST數(shù)據(jù)庫中人類EST序列已超過380萬條,它大約覆蓋了人類基因的90%以上。 我國早在1996年就開始了通過電腦克隆尋找新基因的研究。它的原理非常簡單,就是找到屬于同一基因的所有EST片段,再把它們連接起來。由于EST序列是全世界很多實驗室隨機產(chǎn)生的,所以屬于同一基因的很多EST序列間必然有大量重復小片段,利用這些小片段作為標志就可以把不同的EST連起來,直到發(fā)現(xiàn)了它們的全長,這樣我們就可以說通過電腦克隆找到了一個基因。如果這個基因以前未曾發(fā)現(xiàn)過,那我們就找到了一個新基因。但是進行電腦克隆程序設(shè)計是復雜的,計算量是巨大的。 。2)從基因組DNA序列中預測新基因 從基因組序列預測新基因,本質(zhì)上是把基因組上編碼蛋白質(zhì)的區(qū)域和非編碼蛋白質(zhì)的區(qū)域區(qū)分開來。對于理論方法來講就是要找到在編碼區(qū)和非編碼區(qū)哪些數(shù)學、物理學特征是不一樣的。將這些序列與已知基因數(shù)據(jù)庫進行比較,就可以發(fā)現(xiàn)新的基因了。 發(fā)現(xiàn)了新基因就會使我們對生命活動的認識加深一步。據(jù)1999年12月2日《自然》雜志,人的第22號染色體數(shù)據(jù)已鑒定出679個基因,其中55%的基因是未知的。有35種疾病與該染色體突變相關(guān),像免疫系統(tǒng)疾病、先天性心臟病和精神分裂癥。但是,要將人類的所有基因及其相應的蛋白質(zhì)以及與它們相關(guān)的功能完整而正確地整合到一個索引中,依然是一個十分重要、十分艱巨的任務(wù)。國際人類基因組協(xié)作組正著手建立完整的"整合基因索引"及與之相關(guān)的"整合蛋白索引"。 。3)發(fā)現(xiàn)單核苷酸多態(tài)(SNP) 有的人吸煙喝酒卻長壽,也有人自幼就病痛纏身;同一種治療腫瘤的藥物對一些人非常有效,對另一些人則完全無效。這是為什么?答案是他們基因組中存在的差異。這種差異很多表現(xiàn)為單個堿基上的變異,也就是單核苷酸的多態(tài)性(SNP)。 現(xiàn)在普遍認為SNP研究是人類基因組計劃走向應用的重要步驟。這主要是因為SNP將提供一個強有力的工具,用于高危群體的發(fā)現(xiàn)、疾病相關(guān)基因的鑒定、藥物的設(shè)計和測試以及生物學的基礎(chǔ)研究等。SNP在基因組中分布相當廣泛,近來的研究表明在人類基因組中每300堿基對就出現(xiàn)一次。大量存在的SNP位點,使人們有機會發(fā)現(xiàn)與各種疾病,包括腫瘤相關(guān)的基因組突變;從實驗操作來看,通過SNP發(fā)現(xiàn)疾病相關(guān)基因突變要比通過家系來得容易;有些SNP并不直接導致疾病基因的表達,但由于它與某些疾病基因相鄰,而成為重要的標記。SNP在基礎(chǔ)研究中也發(fā)揮了巨大的作用,近年來對Y染色體SNP的分析,使得在人類進化、人類種群的演化和遷徙領(lǐng)域取得了一系列重要成果。 |
金蟲 (正式寫手)
![]() ![]() ![]() |
| 3 | 1/1 | 返回列表 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 341求調(diào)劑 +5 | 搗蛋豬豬 2026-03-11 | 7/350 |
|
|---|---|---|---|---|
|
[考研] 本人考085602 化學工程 專碩 +16 | 不知道叫什么! 2026-03-15 | 18/900 |
|
|
[考研] 梁成偉老師課題組歡迎你的加入 +8 | 一鴨鴨喲 2026-03-14 | 10/500 |
|
|
[考研] 一志愿蘇州大學材料工程(085601)專碩有科研經(jīng)歷三項國獎兩個實用型專利一項省級立項 +6 | 大火山小火山 2026-03-16 | 8/400 |
|
|
[考研] 08工科 320總分 求調(diào)劑 +4 | 梨花珞晚風 2026-03-17 | 4/200 |
|
|
[考研] 267一志愿南京工業(yè)大學0817化工求調(diào)劑 +6 | SUICHILD 2026-03-12 | 6/300 |
|
|
[考研] 0854控制工程 359求調(diào)劑 可跨專業(yè) +3 | 626776879 2026-03-14 | 9/450 |
|
|
[考研] 318求調(diào)劑 +3 | Yanyali 2026-03-15 | 3/150 |
|
|
[考研] 321求調(diào)劑 +5 | 大米飯! 2026-03-15 | 5/250 |
|
|
[考研] 283求調(diào)劑 +10 | 小樓。 2026-03-12 | 14/700 |
|
|
[考研] 中科院材料273求調(diào)劑 +4 | yzydy 2026-03-15 | 4/200 |
|
|
[考研] 085600材料與化工 求調(diào)劑 +13 | enenenhui 2026-03-13 | 14/700 |
|
|
[考研] 求老師收留調(diào)劑 +4 | jiang姜66 2026-03-14 | 5/250 |
|
|
[考研] 26考研一志愿中國石油大學(華東)305分求調(diào)劑 +3 | 嘉年新程 2026-03-15 | 3/150 |
|
|
[考研] 22408總分284求調(diào)劑 +3 | InAspic 2026-03-13 | 3/150 |
|
|
[考研] 求材料調(diào)劑 +5 | 隔壁陳先生 2026-03-12 | 5/250 |
|
|
[考研] 0703化學一志愿211 總分320求調(diào)劑 +5 | 瑪卡巴卡啊哈 2026-03-11 | 5/250 |
|
|
[考研] 307求調(diào)劑 +5 | 超級伊昂大王 2026-03-12 | 5/250 |
|
|
[考研] 土木第一志愿276求調(diào)劑,科研和技能十分豐富,求新興方向的導師收留 +3 | 土木小天才 2026-03-12 | 3/150 |
|
|
[考研] 270求調(diào)劑 085600材料與化工專碩 +3 | YXCT 2026-03-11 | 3/150 |
|