| 7 | 1/1 | 返回列表 |
| 查看: 2265 | 回復(fù): 6 | |||
ldy2140金蟲 (小有名氣)
|
[交流]
討論下怎么通過gi號批量獲得物種的definition 已有4人參與
|
|
做生物信息學(xué)的大都避免不了要blast 有時盡管我們blast出來的結(jié)果很多很嚇人 但還是要將這些結(jié)果匯總成excel表格 最近就遇到了很讓我頭疼的事情 我做了很多轉(zhuǎn)運蛋白的微生物全庫的blast 但得到的table里只有匹配物種的gi號 在匯總結(jié)果的時候我想把gi號換成物種信息 比如像GBFF里的definition這種能說明物種遺傳背景的字符串 所以我考慮用perl的正則表達(dá)式替換 寫了如下的程序 但是運行起來速度很慢而且很浪費帶寬 因為用到的模塊是將gi號對應(yīng)的整個序列信息都下載下來 然后從中提取definition 所以效率很差 這是我花很短時間學(xué)習(xí)perl和bioperl編寫的急功近利的程序 期待高手拍磚 [ Last edited by ldy2140 on 2012-8-28 at 21:55 ] |

至尊木蟲 (著名寫手)
驃騎將軍

金蟲 (小有名氣)
|
sp|P23936|LACY_STRTR gi|169822596|gb|ABJK02000022.1| 61.65 631 241 1 5 634 344705 342813 0.0 714 sp|P23936|LACY_STRTR gi|223555729|gb|ACGH01000016.1| 57.01 628 260 1 2 619 65439 67322 0.0 692 替換后 sp|P23936|LACY_STRTR Streptococcus infantarius subsp. infantarius ATCC BAA-102 S_infantarius-2.0.1_Cont245, whole genome shotgun sequence. 61.65 631 241 1 5 634 344705 342813 0.0 714 sp|P23936|LACY_STRTR Lactobacillus buchneri ATCC 11577 contig00018, whole genome shotgun sequence. 57.01 628 260 1 2 619 65439 67322 0.0 692 |

至尊木蟲 (著名寫手)
驃騎將軍
|
你是不是有g(shù)i和description的對應(yīng)關(guān)系,如果有,直接正則替換gi那部分即可. 如果必須去網(wǎng)絡(luò)上查,查回來肯定gi序號和description同時有的,你處理完了再寫文件 生物不懂,不過有bioperl,搜了下,也有biopython,照著例子改改,可以直接打印gi號和對應(yīng)的description,可以看看. 準(zhǔn)備學(xué)個腳本語言的時候,看過perl和python的語法,果斷選了python,perl不懂啊 biopython教程: http://biopython.org/DIST/docs/tutorial/Tutorial.html 例子代碼,測試過了 結(jié)果,gi號和description可以分別提取打印: |

至尊木蟲 (著名寫手)
|
You know my comments on how to deal with high throughput data analysis: download the genbank flat file and parse the local file, which can improves the efficiency dramatically. About your code: 1. Use "use strict;" all the time 2. Regular expression is fine, but I would use $` $' (special variables containing the previous and next part of the matching part) instead of another s/// statement |
金蟲 (正式寫手)

金蟲 (正式寫手)
| 7 | 1/1 | 返回列表 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 本人考085602 化學(xué)工程 專碩 +19 | 不知道叫什么! 2026-03-15 | 21/1050 |
|
|---|---|---|---|---|
|
[考研] 287求調(diào)劑 +6 | 晨昏線與星海 2026-03-19 | 7/350 |
|
|
[考研] 295材料求調(diào)劑,一志愿武漢理工085601專碩 +5 | Charlieyq 2026-03-19 | 5/250 |
|
|
[考研] 289求調(diào)劑 +6 | 懷瑾握瑜l 2026-03-20 | 6/300 |
|
|
[考研] 298-一志愿中國農(nóng)業(yè)大學(xué)-求調(diào)劑 +9 | 手機(jī)用戶 2026-03-17 | 9/450 |
|
|
[考研] 286分人工智能專業(yè)請求調(diào)劑愿意跨考! +3 | lemonzzn 2026-03-17 | 4/200 |
|
|
[考研] 一志愿中國海洋大學(xué),生物學(xué),301分,求調(diào)劑 +5 | 1孫悟空 2026-03-17 | 6/300 |
|
|
[考研] 321求調(diào)劑 +8 | 何潤采123 2026-03-18 | 10/500 |
|
|
[考研] 求調(diào)劑,一志愿:南京航空航天大學(xué)大學(xué) ,080500材料科學(xué)與工程學(xué)碩,總分289分 +3 | @taotao 2026-03-19 | 3/150 |
|
|
[考研] 一志愿福大288有機(jī)化學(xué),求調(diào)劑 +3 | 小木蟲200408204 2026-03-18 | 3/150 |
|
|
[考研] 346求調(diào)劑[0856] +3 | WayneLim327 2026-03-16 | 6/300 |
|
|
[考研] 344求調(diào)劑 +6 | knight344 2026-03-16 | 7/350 |
|
|
[考研] 304求調(diào)劑 +12 | 小熊joy 2026-03-14 | 13/650 |
|
|
[考研] 303求調(diào)劑 +4 | 睿08 2026-03-17 | 6/300 |
|
|
[考研] 一志愿蘇州大學(xué)材料工程(085601)專碩有科研經(jīng)歷三項國獎兩個實用型專利一項省級立項 +6 | 大火山小火山 2026-03-16 | 8/400 |
|
|
[考研] 一志愿南京大學(xué),080500材料科學(xué)與工程,調(diào)劑 +4 | Jy? 2026-03-16 | 4/200 |
|
|
[考研] 302求調(diào)劑 +4 | 小賈同學(xué)123 2026-03-15 | 8/400 |
|
|
[考研] 考研調(diào)劑 +3 | 淇ya_~ 2026-03-17 | 5/250 |
|
|
[考研] 0703化學(xué)調(diào)劑 290分有科研經(jīng)歷,論文在投 +7 | 膩膩gk 2026-03-14 | 7/350 |
|
|
[考研] 一志愿哈工大材料324分求調(diào)劑 +5 | 閆旭東 2026-03-14 | 5/250 |
|