| 5 | 1/1 | 返回列表 |
| 查看: 2268 | 回復(fù): 6 | |||
| 當(dāng)前只顯示滿足指定條件的回帖,點擊這里查看本話題的所有回帖 | |||
ldy2140金蟲 (小有名氣)
|
[交流]
討論下怎么通過gi號批量獲得物種的definition 已有4人參與
|
||
|
做生物信息學(xué)的大都避免不了要blast 有時盡管我們blast出來的結(jié)果很多很嚇人 但還是要將這些結(jié)果匯總成excel表格 最近就遇到了很讓我頭疼的事情 我做了很多轉(zhuǎn)運蛋白的微生物全庫的blast 但得到的table里只有匹配物種的gi號 在匯總結(jié)果的時候我想把gi號換成物種信息 比如像GBFF里的definition這種能說明物種遺傳背景的字符串 所以我考慮用perl的正則表達式替換 寫了如下的程序 但是運行起來速度很慢而且很浪費帶寬 因為用到的模塊是將gi號對應(yīng)的整個序列信息都下載下來 然后從中提取definition 所以效率很差 這是我花很短時間學(xué)習(xí)perl和bioperl編寫的急功近利的程序 期待高手拍磚 [ Last edited by ldy2140 on 2012-8-28 at 21:55 ] |

至尊木蟲 (著名寫手)
|
You know my comments on how to deal with high throughput data analysis: download the genbank flat file and parse the local file, which can improves the efficiency dramatically. About your code: 1. Use "use strict;" all the time 2. Regular expression is fine, but I would use $` $' (special variables containing the previous and next part of the matching part) instead of another s/// statement |
至尊木蟲 (著名寫手)
驃騎將軍

金蟲 (小有名氣)
|
sp|P23936|LACY_STRTR gi|169822596|gb|ABJK02000022.1| 61.65 631 241 1 5 634 344705 342813 0.0 714 sp|P23936|LACY_STRTR gi|223555729|gb|ACGH01000016.1| 57.01 628 260 1 2 619 65439 67322 0.0 692 替換后 sp|P23936|LACY_STRTR Streptococcus infantarius subsp. infantarius ATCC BAA-102 S_infantarius-2.0.1_Cont245, whole genome shotgun sequence. 61.65 631 241 1 5 634 344705 342813 0.0 714 sp|P23936|LACY_STRTR Lactobacillus buchneri ATCC 11577 contig00018, whole genome shotgun sequence. 57.01 628 260 1 2 619 65439 67322 0.0 692 |

至尊木蟲 (著名寫手)
驃騎將軍
|
你是不是有g(shù)i和description的對應(yīng)關(guān)系,如果有,直接正則替換gi那部分即可. 如果必須去網(wǎng)絡(luò)上查,查回來肯定gi序號和description同時有的,你處理完了再寫文件 生物不懂,不過有bioperl,搜了下,也有biopython,照著例子改改,可以直接打印gi號和對應(yīng)的description,可以看看. 準(zhǔn)備學(xué)個腳本語言的時候,看過perl和python的語法,果斷選了python,perl不懂啊 biopython教程: http://biopython.org/DIST/docs/tutorial/Tutorial.html 例子代碼,測試過了 結(jié)果,gi號和description可以分別提取打印: |

| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 307求調(diào)劑 +3 | wyyyqx 2026-03-17 | 3/150 |
|
|---|---|---|---|---|
|
[考研] 303求調(diào)劑 +5 | 睿08 2026-03-17 | 7/350 |
|
|
[考研] 307求調(diào)劑 +10 | 冷笙123 2026-03-17 | 10/500 |
|
|
[考研] 324分 085600材料化工求調(diào)劑 +4 | llllkkkhh 2026-03-18 | 4/200 |
|
|
[考研] 354求調(diào)劑 +5 | Tyoumou 2026-03-18 | 8/400 |
|
|
[考研] 299求調(diào)劑 +4 | shxchem 2026-03-20 | 5/250 |
|
|
[考研] 一志愿南京理工大學(xué)085701資源與環(huán)境302分求調(diào)劑 +4 | 葵梓衛(wèi)隊 2026-03-18 | 6/300 |
|
|
[考研] 329求調(diào)劑 +9 | 想上學(xué)吖吖 2026-03-19 | 9/450 |
|
|
[考研] 265求調(diào)劑 +12 | 梁梁校校 2026-03-19 | 13/650 |
|
|
[考研] 0817 化學(xué)工程 299分求調(diào)劑 有科研經(jīng)歷 有二區(qū)文章 +22 | rare12345 2026-03-18 | 22/1100 |
|
|
[考研] 0703化學(xué)調(diào)劑 ,六級已過,有科研經(jīng)歷 +13 | 曦熙兮 2026-03-15 | 13/650 |
|
|
[考研] 一志愿南理工085701環(huán)境302求調(diào)劑院校 +3 | 葵梓衛(wèi)隊 2026-03-20 | 3/150 |
|
|
[基金申請]
學(xué)校已經(jīng)提交到NSFC,還能修改嗎?
40+4
|
babangida 2026-03-19 | 8/400 |
|
|
[考研] 328求調(diào)劑,英語六級551,有科研經(jīng)歷 +4 | 生物工程調(diào)劑 2026-03-16 | 12/600 |
|
|
[考研] 本科鄭州大學(xué)物理學(xué)院,一志愿華科070200學(xué)碩,346求調(diào)劑 +4 | 我不是一根蔥 2026-03-18 | 4/200 |
|
|
[考研] 材料專碩306英一數(shù)二 +10 | z1z2z3879 2026-03-16 | 13/650 |
|
|
[考研] 333求調(diào)劑 +3 | 文思客 2026-03-16 | 7/350 |
|
|
[考研] 277材料科學(xué)與工程080500求調(diào)劑 +3 | 自由煎餅果子 2026-03-16 | 3/150 |
|
|
[考研] 327求調(diào)劑 +6 | 拾光任染 2026-03-15 | 11/550 |
|
|
[考研] 一志愿哈工大材料324分求調(diào)劑 +5 | 閆旭東 2026-03-14 | 5/250 |
|