|
|
[交流]
阻礙基因測(cè)序產(chǎn)業(yè)從二代技術(shù)升級(jí)到三代技術(shù)最大的技術(shù)障礙:組裝算法 已有1人參與
“第三代測(cè)序技術(shù)”的研發(fā)已有近十年時(shí)間,商業(yè)化的第三代測(cè)序儀上市也有三年。但目前測(cè)序市場(chǎng)仍為二代測(cè)序技術(shù)所壟斷。三代測(cè)序技術(shù)產(chǎn)生的讀段更長(zhǎng),測(cè)序成本更低,其取代二代技術(shù)是測(cè)序技術(shù)發(fā)展的必然趨勢(shì)。然而由于三代測(cè)序技術(shù)錯(cuò)誤率高,現(xiàn)有的組裝軟件多是對(duì)第二代測(cè)序數(shù)據(jù)組裝軟件的“修補(bǔ)”而并沒有充分考慮到三代測(cè)序技術(shù)的數(shù)據(jù)特征。事實(shí)上,基因組裝算法問題被廣泛認(rèn)為是計(jì)算生物學(xué)和生物信息學(xué)領(lǐng)域最復(fù)雜的計(jì)算難題之一,也是目前阻礙基因測(cè)序產(chǎn)業(yè)從二代技術(shù)升級(jí)到三代技術(shù)最大的技術(shù)障礙。
最近,Chengxi Ye等人發(fā)表了一篇題為DBG2OLC: Efficient Assembly of Large Genomes Using the Compressed Overlap Graph 的文章,引入了一種新的針對(duì)三代測(cè)序技術(shù)的基因組裝算法,開發(fā)出一款軟件(DBG2OLC)。
與目前用于三代測(cè)序最優(yōu)秀的一些基因組裝軟件(例如PacBio2CA, HGAP, ECTools)相比,DBG2OLC在計(jì)算時(shí)間和內(nèi)存空間的消耗通常僅為其它算法的1/10。理論上,DBG2OLC在時(shí)間和空間的使用上相對(duì)其它同類軟件可減少達(dá)1000倍。例如組裝關(guān)鍵步驟之一的“兩兩比對(duì)”計(jì)算,采用一組由 PacBio提供的人類基因組數(shù)據(jù),DBG2OLC 使用一臺(tái)普通PC僅用了6小時(shí)完成。而同樣計(jì)算,Pacific Biosciences所報(bào)道的時(shí)間為 405000 CPU小時(shí),而且是在Google的計(jì)算集群上完成。因此,DBG2OLC 算法基本解決了目前三代測(cè)序技術(shù)所面臨的計(jì)算技術(shù)挑戰(zhàn),從而為推進(jìn)基因測(cè)序技術(shù)的產(chǎn)業(yè)升級(jí)奠定了良好的技術(shù)基礎(chǔ)。
軟件鏈接:http://sites.google.com/site/dbg2olc/.
DBG2OLC: Efficient Assembly of Large Genomes Using the Compressed Overlap Graph
Chengxi Ye, Chris Hill, Sergey Koren, Jue Ruan, Zhanshan (Sam)Ma, James A. Yorke, Aleksey Zimin
(Submitted on 10 Oct 2014)
關(guān)注我:
在微信中,“發(fā)現(xiàn)”->“掃一掃”,掃描我的二維碼,加關(guān)注。
在微信中,“通訊錄”-> “添加”-> “查找公眾號(hào)”,找到“生物信息庫(kù)”,加關(guān)注。
![阻礙基因測(cè)序產(chǎn)業(yè)從二代技術(shù)升級(jí)到三代技術(shù)最大的技術(shù)障礙:組裝算法]()
微信二維碼.jpg |
» 猜你喜歡
» 本主題相關(guān)價(jià)值貼推薦,對(duì)您同樣有幫助:
|