| 24小時熱門版塊排行榜 |
| 3 | 1/1 | 返回列表 |
| 查看: 2497 | 回復(fù): 2 | |||
[交流]
Bioinformatics
|
|
生物信息學(xué) 概論 1.1 什么是生物信息學(xué)? 什么是生物信息學(xué)?生物信息學(xué)(Bioinformatics)是一門新興的交叉學(xué)科。很多人會認(rèn)為:生物信息學(xué)既涉及生物又涉及物理,一定是一個內(nèi)容十分廣泛的學(xué)科領(lǐng)域。其實它的內(nèi)涵十分具體,范圍非常明確。生物信息學(xué)是伴隨基因組研究而產(chǎn)生的,因此它的研究內(nèi)容就緊隨著基因組研究而發(fā)展。 廣義地說,生物信息學(xué)從事對基因組研究相關(guān)生物信息的獲取、加工、儲存、分配、分析和解釋。這一定義包括了兩層含義,一是對海量數(shù)據(jù)的收集、整理與服務(wù),也就是管好這些數(shù)據(jù);另一個是從中發(fā)現(xiàn)新的規(guī)律,也就是用好這些數(shù)據(jù)。 具體地說,生物信息學(xué)是把基因組DNA序列信息分析作為源頭,找到基因組序列中代表蛋白質(zhì)和RNA基因的編碼區(qū);同時,闡明基因組中大量存在的非編碼區(qū)的信息實質(zhì),破譯隱藏在DNA序列中的遺傳語言規(guī)律;在此基礎(chǔ)上,歸納、整理與基因組遺傳信息釋放及其調(diào)控相關(guān)的轉(zhuǎn)錄譜和蛋白質(zhì)譜的數(shù)據(jù),從而認(rèn)識代謝、發(fā)育、分化、進(jìn)化的規(guī)律。 生物信息學(xué)還利用基因組中編碼區(qū)的信息進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)的模擬和蛋白質(zhì)功能的預(yù)測,并將此類信息與生物體和生命過程的生理生化信息相結(jié)合,闡明其分子機(jī)理,最終進(jìn)行蛋白質(zhì)、核酸的分子設(shè)計、藥物設(shè)計和個體化的醫(yī)療保健設(shè)計。 以核酸、蛋白質(zhì)等生物大分子數(shù)據(jù)庫為主要對象,以數(shù)學(xué)、信息學(xué)、計算機(jī)科學(xué)為主要手段,以計算機(jī)硬件、軟件和計算機(jī)網(wǎng)絡(luò)為主要工具,對浩如煙海的原始數(shù)據(jù)進(jìn)行存儲、管理、注釋、加工,使之成為具有明確生物意義的生物信息。并通過對生物信息的查詢、搜索、比較、分析,從中獲取基因編碼、基因調(diào)控、核酸和蛋白質(zhì)結(jié)構(gòu)功能及其相互關(guān)系等理性知識。在大量信息和知識的基礎(chǔ)上,探索生命起源、生物進(jìn)化以及細(xì)胞、器官和個體的發(fā)生、發(fā)育、病變、衰亡等生命科學(xué)中重大問題,搞清它們的基本規(guī)律和時空聯(lián)系,建立" 生物學(xué)周期表"。 1.2 生物信息學(xué)研究、開發(fā)的主要內(nèi)容 構(gòu)成和維持一個生活有機(jī)體所必備的基本信息包含于它的基因組之中,由細(xì)胞內(nèi)進(jìn)行的多種分子生物學(xué)反應(yīng)將這些信息轉(zhuǎn)化為真正的生命現(xiàn)象。基因組的一部分翻譯成蛋白和R NA,其它部分調(diào)控這些大分子的表達(dá)。翻譯出來的蛋白及RNA折疊成高度專一的三維結(jié)構(gòu),在體內(nèi)的特定位置上實現(xiàn)它的功能。這些過程的大量細(xì)節(jié)都是在分子生物學(xué)研究的實驗室里揭示出來的,所形成的大量數(shù)據(jù),存儲于數(shù)據(jù)庫中。生物信息學(xué)試圖從這些數(shù)據(jù)中提取新的生物學(xué)信息和知識,是一門深深植根于全面深入的實驗事實和數(shù)據(jù)的理論生物學(xué)。它的研究范圍十分廣泛,大體包括以下方面:基因組序列分析和解釋、藥物設(shè)計、基因多態(tài)性分析、基因表達(dá)調(diào)控、疾病相關(guān)基因鑒定、基因產(chǎn)物結(jié)構(gòu)與功能預(yù)報、基因進(jìn)化、基于遺傳的流行病學(xué)等。 (1)基因組序列的分析(序列比對和結(jié)構(gòu)比對) 在基因組測序的原始數(shù)據(jù)發(fā)表后,仍有許多信息研究需要開展,比如 注釋、同源性分析、基因分類、基因結(jié)構(gòu)分析等,這方面的研究需要建立較優(yōu)化的數(shù)理統(tǒng)計模型,大規(guī)模的數(shù)據(jù)庫檢索,模式識別和可視化等。 。2)基因進(jìn)化(同源性判斷,進(jìn)化樹的的構(gòu)建) 根據(jù)多種生物的基因組數(shù)據(jù)及對垂直進(jìn)化和平行演化的研究,可以對生命至關(guān)重要的基因結(jié)構(gòu)及它的調(diào)控進(jìn)行研究,對此需要建立較完整的生物進(jìn)化模型,用基因組的數(shù)據(jù)來鑒別出環(huán)境因素對其進(jìn)化的影響。這次研究成果應(yīng)對生態(tài)環(huán)境,環(huán)境衛(wèi)生提出指導(dǎo)性影響,對研究生命起源也有科學(xué)意義。 (3)藥物設(shè)計 生物信息學(xué)所提供的數(shù)據(jù)資料,可以指導(dǎo)對藥物作用靶位的選定和藥物分子的設(shè)計。這種方法有快速高效的特點,它的研究包括大分子結(jié)構(gòu)功能的模擬和預(yù)報,藥物分子與大分子結(jié)合的模擬,關(guān)鍵性基因的致病機(jī)制,及生物分子同源性的分析,生物分子在指定細(xì)胞的分布和位點等。 (4)基因多態(tài)性分析 即使一個基因的序列已經(jīng)確定,它只是有代表性的序列之一。在群體的分布中,仍存在有基因的多態(tài)性。由于多態(tài)性的存在,生物表型及對環(huán)境、外源物和藥物的反應(yīng)即不同。研究基因多態(tài)性可以對群體的基因共性及其中的基因個性( SNPs)都有明確的認(rèn)識。 。5)基于遺傳的流行病學(xué)研究 流行病學(xué)研究是醫(yī)學(xué)信息學(xué)的重要課題之一。將流行病學(xué)的遺傳和非遺傳性的研究與分子基因信息結(jié)合起來,會導(dǎo)致對疾病的機(jī)理、個體對某種疾病的易感性和疾病在群體中的分布有更明確的認(rèn)識,對疾病的預(yù)防和治療有極大的指導(dǎo)意義。 (6)關(guān)鍵性基因簽定(基因識別) 通過基因與生物表型、致病機(jī)制和其它生命現(xiàn)象之間的關(guān)聯(lián),可以發(fā)現(xiàn)一些至關(guān)重要的基因,結(jié)合定向的生物實驗,可以確認(rèn)新的關(guān)鍵性基因。 。7)基因產(chǎn)物功能預(yù)報 在確認(rèn)了基因的基礎(chǔ)上,通過與已知的基因產(chǎn)物的結(jié)構(gòu)和功能、代謝途徑和其它生物功能對照,可以實現(xiàn)新基因產(chǎn)物功能的預(yù)報,結(jié)合定向的生物實驗,可以證實預(yù)報的功能。 。8)完整基因組的比較基因組學(xué) 在后基因組時代,生物信息學(xué)家不僅有大量的序列和基因而且有越來越多的完整基因組。有了這些資料人們就能對若干重大生物學(xué)問題進(jìn)行分析。有的科學(xué)家估計不同人種間基因組的差別僅為 0.1%;人猿間差別約為1%。但他們表型間的差異十分顯著。因此其表型差異不僅應(yīng)從基因、DNA 序列找原因,也應(yīng)考慮到整個基因組、考慮染色體組織上的差異。 1.3 生物信息學(xué)----基因組研究的有力工具 基因組信息學(xué)、蛋白質(zhì)的結(jié)構(gòu)計算與模擬以及藥物設(shè)計,這三者緊密地圍繞著遺傳信息傳遞的中心法則,因而必然有機(jī)地連接在一起。 為什么基因組研究需要依賴生物信息學(xué)呢?首先伴隨著基因組研究,相關(guān)信息出現(xiàn)了爆炸性增長,迫切需要對海量生物信息進(jìn)行處理。自1995年科學(xué)家破譯了全長為180萬核苷酸的嗜血流感桿菌基因組以來,到目前已有大約60個微生物和若干真核生物,如:酵母、線蟲、果蠅、擬南芥的完整基因組完成測序。至2001年的春天,科學(xué)家又公布了人類基因組的絕大部分序列,即:人類基因組的工作草圖。這些成就意味著基因組的研究將全面進(jìn)入信息提取和數(shù)據(jù)分析的嶄新階段。根據(jù)國際數(shù)據(jù)庫的統(tǒng)計,1999年12月DNA堿基數(shù)目為30億,2000年4月DNA堿基數(shù)目是60億,現(xiàn)在這一數(shù)目已達(dá)140億,大約每14個月翻一番。同時,電子計算機(jī)芯片對于數(shù)字處理能力的增長也相當(dāng)于每18個月翻一番。因此,計算機(jī)能夠有效地管理和運行海量數(shù)據(jù)。 但是,更為本質(zhì)的原因是基因組數(shù)據(jù)的復(fù)雜性。所謂某種生物的基因組就是指該生物所有遺傳物質(zhì)的總和。生物的遺傳物質(zhì)是一類稱為脫氧核糖核酸(DNA)的生物大分子,它是由4種核苷酸串接起來組成的,通常用字符A、T、G、C代表。通俗地說,生物的遺傳密碼就是這4個字符連接起來的線狀長鏈。這種鏈往往很長,比如:人的遺傳密碼就含有32億個字符,將它們堆起來就構(gòu)成了一部100多萬頁、每頁有3000字符的"天書"。這本"天書"包含了人體的結(jié)構(gòu)和功能以及生命活動過程的大量信息,卻僅僅由4個字符組成,既無詞法,又無句法,還沒有標(biāo)點符號,看起來每一頁都是相似的。如何讀懂它是個極大的難題。基因組研究最終是要把生物學(xué)問題轉(zhuǎn)化成對數(shù)字符號的處理問題。要解決這樣的問題就必須發(fā)展新的分析理論、方法、技術(shù)、工具,就必須依賴計算機(jī)的信息處理。 從事生物信息學(xué)研究應(yīng)具備多方面的科學(xué)基礎(chǔ)。首先,它需要一定的計算能力,包括相應(yīng)的軟、硬設(shè)備。要有各種數(shù)據(jù)庫或者能與國際、國內(nèi)的數(shù)據(jù)庫系統(tǒng)進(jìn)行有效的交流。要有發(fā)達(dá)、穩(wěn)定的互聯(lián)網(wǎng)絡(luò)系統(tǒng);同時,生物信息學(xué)需要強有力的創(chuàng)新算法和軟件。沒有算法創(chuàng)新,生物信息學(xué)就無法獲得持續(xù)的發(fā)展。最后,它要與實驗科學(xué),特別是與自動化的大規(guī)模高通量的生物學(xué)研究方法與平臺技術(shù)建立廣泛、緊密的聯(lián)系。這些技術(shù),既是產(chǎn)生生物信息數(shù)據(jù)的主要方法,又是驗證生物信息學(xué)研究結(jié)果的關(guān)鍵手段。因此,從事生物信息學(xué)研究的人員也必須具備多學(xué)科交叉的知識。 我國生物信息學(xué)的研究和應(yīng)用有一定的基礎(chǔ),因而有望取得突破性成果,這對于增強我國在基礎(chǔ)研究領(lǐng)域的實力,在某些方面占據(jù)國際領(lǐng)先地位是十分重要的。生物信息學(xué)成果的應(yīng)用也會產(chǎn)生巨大的社會效益和經(jīng)濟(jì)效益。 基因組研究的主要研究內(nèi)容 一.獲取人和各種生物的完整基因組 基因組研究的首要目標(biāo)是獲得人的整套遺傳密碼。人的遺傳密碼有32億個堿基,而現(xiàn)在的DNA測序儀每個反應(yīng)只能讀取幾百到上千個堿基。也就是說,要得到人的全部遺傳密碼首先要把人的基因組打碎,測完一個個小段的序列后再把它們重新拼接起來。 但是,我們很容易想象:如果把一本書撕成大小一樣的碎片,就再也無法把它們重新正確地拼接起來,這是因為撕的同時丟失了書的上下文聯(lián)系。這該如何辦呢?我們可以取兩本一樣的書,按照不同的撕法把它們分頭打碎。通過不同碎片互相參照,找到相同的單詞,就可以部分恢復(fù)書的上下文聯(lián)系。撕的書越多,恢復(fù)的上下文聯(lián)系也越多。因此要獲得人的整套遺傳密碼就不能把人的32億堿基只測一遍,往往要測很多遍。比如,今年初在《自然》、《科學(xué)》兩雜志上公布的人類基因組工作草圖報道,它含有約29億堿基,其物理圖譜覆蓋率為96%,序列覆蓋率為94%。有大于90%的連續(xù)序列群已大于10萬堿基;有約25%的連續(xù)序列群已等于或大于千萬堿基。在這些序列中發(fā)現(xiàn)了3-4萬個編碼蛋白質(zhì)的基因。得到這樣的圖就是相當(dāng)于把人類基因組測了大約5遍才實現(xiàn)的。要作到這一點就需要把幾千萬個小片段通過比對再連接起來,這就是常說的基因組序列數(shù)據(jù)的拼接和組裝。 在基因組大規(guī)模測序的每一個環(huán)節(jié)都與信息分析緊密相關(guān)。從測序儀的光密度采樣與分析、堿基讀出、載體標(biāo)識與去除、拼接、填補序列間隙,到重復(fù)序列標(biāo)識、讀框預(yù)測和基因標(biāo)注,每一步都是緊密依賴生物信息學(xué)的軟件和數(shù)據(jù)庫的。其中,序列拼接和填補序列間隙是最為關(guān)鍵的首要難題。其困難不僅來自它巨大的海量數(shù)據(jù),而且在于它含有高度重復(fù)的序列。為此,這一過程特別需要把實驗設(shè)計和信息分析時刻聯(lián)系在一起。另一方面,必須按照不同步驟的要求,發(fā)展適當(dāng)?shù)乃惴跋鄳?yīng)的軟件,以應(yīng)對各種復(fù)雜的問題。國際上很多著名的基因組研究中心,都有自己的拼接和組裝策略,并且這樣的工作都是在超級計算機(jī)上完成的。 有了完整基因組,人類對自身的認(rèn)識就更為細(xì)致、更為精確。比如:發(fā)現(xiàn)在我們的基因組中真正編碼蛋白質(zhì)(稱為外顯子)等的部分很少,只占1.1%;外顯子與外顯子之間的區(qū)域(稱為內(nèi)含子)占了24%;而基因與基因之間的間隔序列卻占了75%,也就是說在人類基因組中不編碼蛋白質(zhì)的區(qū)域占了絕大部分。發(fā)現(xiàn)人類編碼蛋白的基因較之其它生物體的基因更為復(fù)雜,有更為豐富的剪接方式。發(fā)現(xiàn)基因組中片段重復(fù)現(xiàn)象很普遍,這反映了人類復(fù)雜的進(jìn)化歷史。發(fā)現(xiàn)人的第13號染色體比較穩(wěn)定,而男性的第12號染色體和女性的第16號染色體是易變的,等等。 二.發(fā)現(xiàn)新基因和新的單核苷酸多態(tài)性 發(fā)現(xiàn)新基因是當(dāng)前國際上基因組研究的熱點,使用生物信息學(xué)的方法是發(fā)現(xiàn)新基因的重要手段。比如:啤酒酵母完整基因組所包含的約6000個基因,大約60%是通過信息分析得到的。 。1)基因的電腦克隆 利用EST數(shù)據(jù)庫發(fā)現(xiàn)新基因也被稱為基因的電腦克隆。EST序列是基因表達(dá)的短cDNA序列,它們攜帶著完整基因的某些片段的信息。到2001年10月,GenBank的EST數(shù)據(jù)庫中人類EST序列已超過380萬條,它大約覆蓋了人類基因的90%以上。 我國早在1996年就開始了通過電腦克隆尋找新基因的研究。它的原理非常簡單,就是找到屬于同一基因的所有EST片段,再把它們連接起來。由于EST序列是全世界很多實驗室隨機(jī)產(chǎn)生的,所以屬于同一基因的很多EST序列間必然有大量重復(fù)小片段,利用這些小片段作為標(biāo)志就可以把不同的EST連起來,直到發(fā)現(xiàn)了它們的全長,這樣我們就可以說通過電腦克隆找到了一個基因。如果這個基因以前未曾發(fā)現(xiàn)過,那我們就找到了一個新基因。但是進(jìn)行電腦克隆程序設(shè)計是復(fù)雜的,計算量是巨大的。 。2)從基因組DNA序列中預(yù)測新基因 從基因組序列預(yù)測新基因,本質(zhì)上是把基因組上編碼蛋白質(zhì)的區(qū)域和非編碼蛋白質(zhì)的區(qū)域區(qū)分開來。對于理論方法來講就是要找到在編碼區(qū)和非編碼區(qū)哪些數(shù)學(xué)、物理學(xué)特征是不一樣的。將這些序列與已知基因數(shù)據(jù)庫進(jìn)行比較,就可以發(fā)現(xiàn)新的基因了。 發(fā)現(xiàn)了新基因就會使我們對生命活動的認(rèn)識加深一步。據(jù)1999年12月2日《自然》雜志,人的第22號染色體數(shù)據(jù)已鑒定出679個基因,其中55%的基因是未知的。有35種疾病與該染色體突變相關(guān),像免疫系統(tǒng)疾病、先天性心臟病和精神分裂癥。但是,要將人類的所有基因及其相應(yīng)的蛋白質(zhì)以及與它們相關(guān)的功能完整而正確地整合到一個索引中,依然是一個十分重要、十分艱巨的任務(wù)。國際人類基因組協(xié)作組正著手建立完整的"整合基因索引"及與之相關(guān)的"整合蛋白索引"。 。3)發(fā)現(xiàn)單核苷酸多態(tài)(SNP) 有的人吸煙喝酒卻長壽,也有人自幼就病痛纏身;同一種治療腫瘤的藥物對一些人非常有效,對另一些人則完全無效。這是為什么?答案是他們基因組中存在的差異。這種差異很多表現(xiàn)為單個堿基上的變異,也就是單核苷酸的多態(tài)性(SNP)。 現(xiàn)在普遍認(rèn)為SNP研究是人類基因組計劃走向應(yīng)用的重要步驟。這主要是因為SNP將提供一個強有力的工具,用于高危群體的發(fā)現(xiàn)、疾病相關(guān)基因的鑒定、藥物的設(shè)計和測試以及生物學(xué)的基礎(chǔ)研究等。SNP在基因組中分布相當(dāng)廣泛,近來的研究表明在人類基因組中每300堿基對就出現(xiàn)一次。大量存在的SNP位點,使人們有機(jī)會發(fā)現(xiàn)與各種疾病,包括腫瘤相關(guān)的基因組突變;從實驗操作來看,通過SNP發(fā)現(xiàn)疾病相關(guān)基因突變要比通過家系來得容易;有些SNP并不直接導(dǎo)致疾病基因的表達(dá),但由于它與某些疾病基因相鄰,而成為重要的標(biāo)記。SNP在基礎(chǔ)研究中也發(fā)揮了巨大的作用,近年來對Y染色體SNP的分析,使得在人類進(jìn)化、人類種群的演化和遷徙領(lǐng)域取得了一系列重要成果。 |
金蟲 (正式寫手)
![]() ![]() ![]() |
| 3 | 1/1 | 返回列表 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 296求調(diào)劑 +5 | 大口吃飯 身體健 2026-03-13 | 5/250 |
|
|---|---|---|---|---|
|
[考研] 268求調(diào)劑 +7 | 好運連綿不絕 2026-03-12 | 8/400 |
|
|
[考研] 材料專碩306英一數(shù)二 +7 | z1z2z3879 2026-03-16 | 9/450 |
|
|
[考研] 344求調(diào)劑 +4 | knight344 2026-03-16 | 4/200 |
|
|
[考研] 312求調(diào)劑 +4 | 陌宸希 2026-03-16 | 5/250 |
|
|
[考研] 本人考085602 化學(xué)工程 專碩 +16 | 不知道叫什么! 2026-03-15 | 18/900 |
|
|
[考研] 工科材料085601 279求調(diào)劑 +3 | 困于星晨 2026-03-17 | 3/150 |
|
|
[考研] 211本,11408一志愿中科院277分,曾在中科院自動化所實習(xí) +6 | Losir 2026-03-12 | 7/350 |
|
|
[考研] 275求調(diào)劑 +4 | 太陽花天天開心 2026-03-16 | 4/200 |
|
|
[考研] 283求調(diào)劑 +3 | 聽風(fēng)就是雨; 2026-03-16 | 3/150 |
|
|
[考研] 東南大學(xué)364求調(diào)劑 +5 | JasonYuiui 2026-03-15 | 5/250 |
|
|
[考研] 333求調(diào)劑 +3 | 文思客 2026-03-16 | 7/350 |
|
|
[考研] 070300化學(xué)學(xué)碩求調(diào)劑 +6 | 太想進(jìn)步了0608 2026-03-16 | 6/300 |
|
|
[考研] 070303 總分349求調(diào)劑 +3 | LJY9966 2026-03-15 | 5/250 |
|
|
[考研] 0856求調(diào)劑 +3 | 劉夢微 2026-03-15 | 3/150 |
|
|
[考研] 材料371求調(diào)劑 +9 | 鱷魚? 2026-03-11 | 11/550 |
|
|
[考研] (081700)化學(xué)工程與技術(shù)-298分求調(diào)劑 +12 | 11啦啦啦 2026-03-11 | 35/1750 |
|
|
[考研] 26調(diào)劑/材料科學(xué)與工程/總分295/求收留 +9 | 2026調(diào)劑俠 2026-03-12 | 9/450 |
|
|
[考研] 314求調(diào)劑 +7 | 無懈可擊的巨人 2026-03-12 | 7/350 |
|
|
[考研] 328化工專碩求調(diào)劑 +4 | 。,。,。,。i 2026-03-12 | 4/200 |
|