| 24小時熱門版塊排行榜 |
| 5 | 1/1 | 返回列表 |
| 查看: 3634 | 回復(fù): 13 | |||
| 當(dāng)前只顯示滿足指定條件的回帖,點擊這里查看本話題的所有回帖 | |||
xp198766鐵桿木蟲 (著名寫手)
小木蟲職業(yè)打醬油滴~~!
|
[交流]
【求助/交流】請問,有沒有誰知道,如何從NCBI上批量下載一類gene的核苷酸序列? 已有7人參與
|
||
|
如題,我在NCBI上面搜索一個gene,得到一千多個結(jié)果,我想把這些結(jié)果的序列下載下來,可是,有些序列的ID號里面是基因組的ID號,就是說,我下載下來的是基因組序列,而我只想要里面相應(yīng)基因的序列,NCBI里面搜索結(jié)果里,有對相關(guān)基因的定位,說是從哪個位點到哪個位點,有什么軟件可以達到我的要求呢! 請了解相關(guān)知識的高手解答下,不勝感激! |
木蟲 (著名寫手)
|
上面這個兩個問題,如果大家稍微分析一下,其實很簡單,就是批量下載, 哈哈,我經(jīng)常批量下個大數(shù)據(jù)庫的海量數(shù)據(jù),也就是3-10G 左右,關(guān)鍵是如何確定你要的信息。 笨方法:MEGA 軟件,你可以直接將你的基因通過該軟件進行blast,然后手工選擇下載每一個基因。 如果你稍微懂一點perl, 那么就非常容易了:下面一個關(guān)于蛋白序列批量下載的例子: 已經(jīng)批量下載了帶有注釋的Genbank文件,大概有500M,每條信息中的內(nèi)容既包含蛋白序列也包含核酸序列,使用SeqVerter 等軟件只能導(dǎo)出核酸序列的的fasta文件。 現(xiàn)在想把其中的氨基酸序列也批量導(dǎo)出來,園子里倒是查到有高手編的perl模塊可以實現(xiàn)這樣的功能,但是我對編程語言一竅不通,linux也不會用,不知有什么現(xiàn)成的windows軟件可以直接導(dǎo)出蛋白序列的fasta文件。以前寫的,試試,在windows的doc下應(yīng)該也差不多, #! /usr/local/bin/perl # name: gb2pep.pl # genbank input to pep sequences. # Vi.n. #usage: cat yourfile|perl gb2pep.pl # 2006-5-16. use strict; use warnings; my $pep_tag = 0; my $pep = ''; my $name = ''; my $name_tag = 0; while ( $name = $1 if /^LOCUS\s+(\S+)\s+/; $name_tag = 1 && $name.= $1 if /^DEFINITION(.*)/; $name_tag = 0 if /^ACCESSION\s+/; $name.= " $1" if /^\s{12}(.*)/ && $name_tag; $pep_tag = 1 && $pep = $1 if /^\s{21}\/translation="(\w+)/; $pep.=$1 if /^\s{21}(\w+)/ && $pep_tag; if (/^\s{21}\w+"$/ && $pep_tag) { print ">$name\n"; for (my $i = 0; $i*60 <= length $pep; $i++) { print substr($pep, $i*60, 60), "\n"; } $pep_tag = 0; } } 能編譯成在windows下使用的程序嗎?得益于高手“等天光的硬幣”指點,實現(xiàn)在windows下從genbank數(shù)據(jù)包中輕松導(dǎo)出fasta格式的蛋白序列,非常感謝“等天光的硬幣”的熱心幫助! 寫下這一過程與新手共享。(呵呵,未經(jīng)“等天光的硬幣”允許,不知會不會侵犯知識產(chǎn)權(quán)......) 開始: 1. 安裝ActivePerl(perl for windows版本) http://downloads.activestate.com ... in32-x86-287188.msi 2. 把以下橫線之間的字符粘貼到記事本中,“另存為”并選擇保存類型為“所有文件”,命名為gb2pep.pl,放到一個目錄下(比如C:\) ______________________________________________________________________ # 2006-5-16. use strict; use warnings; my $pep_tag = 0; my $pep = ''; my $name = ''; my $name_tag = 0; open(IN,$ARGV[0]); while ( $name = $1 if /^LOCUS\s+(\S+)\s+/; $name_tag = 1 && $name.= $1 if /^DEFINITION(.*)/; $name_tag = 0 if /^ACCESSION\s+/; $name.= " $1" if /^\s{12}(.*)/ && $name_tag; $pep_tag = 1 && $pep = $1 if /^\s{21}\/translation="(\w+)/; $pep.=$1 if /^\s{21}(\w+)/ && $pep_tag; if (/^\s{21}\w+"$/ && $pep_tag) { print ">$name\n"; for (my $i = 0; $i*60 <= length $pep; $i++) { print substr($pep, $i*60, 60), "\n"; } $pep_tag = 0; } } ______________________________________________________________________ 3. 將genbank文件(比如demo-genbank.gb)也拷貝到和gb2pep.pl相同的文件夾,比如C:\ 4. 點擊windows桌面工具欄“開始”——“運行”——“cmd”進入dos命令窗口,此時文件夾位置一般處于C:\Documents and Settings\當(dāng)前用戶名> 5. 鍵入"cd\" 回到C盤根目錄。輸入命令行:perl gb2pep.pl demo-genbank.gb >demo_out.fasta 回車。 6.等一會兒就會在C盤根目錄下出現(xiàn)名為 demo_out.fasta的文件,這就是我們處理得到的結(jié)果。 使用perl模塊處理文本文件十分高效,我下載的一個genbank文件包有五百多兆,使用這個perl模塊處理,只要幾分鐘的時間就得到了fasta格式的序列了,而且?guī)缀醪徽际裁聪到y(tǒng)資源。謝謝啦~上面的都不好。 用emboss包,基本的seqret操作: seqret -sequence a.gb -outseq a.fasta -osformat fasta 融合序列可以用cat指令: cat *.gb >a.gb 詳情請google EMBOSS如果用perl腳本,最好用bioperl直接搞。 use strict; use Bio::SeqIO; my $file_in = shift; my $file_out = shift; my $IN = Bio::SeqIO->new(-file=>$file_in); my $OUT = Bio::SeqIO->new(-file=>">$file_out",-format=>'fasta'); while (my $obj = $IN->next_seq) { $OUT->write_seq($obj); } $IN->close; $OUT->close; |

鐵桿木蟲 (職業(yè)作家)
鐵桿木蟲 (著名寫手)
小木蟲職業(yè)打醬油滴~~!
木蟲 (小有名氣)

| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 張芳銘-中國農(nóng)業(yè)大學(xué)-環(huán)境工程專碩-298 +3 | 手機用戶 2026-03-26 | 3/150 |
|
|---|---|---|---|---|
|
[考研] 化學(xué)調(diào)劑 +4 | 愛吃番茄的旭 2026-03-24 | 5/250 |
|
|
[考研] 求調(diào)劑推薦 材料 304 +14 | 荷包蛋hyj 2026-03-26 | 14/700 |
|
|
[考研] 339求調(diào)劑 +4 | 烤麥芽 2026-03-27 | 5/250 |
|
|
[考研] 314求調(diào)劑 +3 | 溪云珂 2026-03-26 | 3/150 |
|
|
[考研] 324求調(diào)劑 +8 | hanamiko 2026-03-26 | 10/500 |
|
|
[考研] 329求調(diào)劑 +5 | 1() 2026-03-22 | 5/250 |
|
|
[考研] 生物學(xué) 296 求調(diào)劑 +4 | 朵朵- 2026-03-26 | 6/300 |
|
|
[考研] 總分293求調(diào)劑 +6 | 加一一九 2026-03-25 | 8/400 |
|
|
[考研] 求調(diào)劑 +3 | QiMing7 2026-03-25 | 3/150 |
|
|
[考研] 各位老師您好:本人初試372分 +5 | jj涌77 2026-03-25 | 6/300 |
|
|
[考研] 293求調(diào)劑 +7 | 加一一九 2026-03-24 | 7/350 |
|
|
[考研] 318求調(diào)劑 +3 | plum李子 2026-03-23 | 3/150 |
|
|
[考研] 318求調(diào)劑 +5 | plum李子 2026-03-21 | 8/400 |
|
|
[考研] 0703化學(xué)調(diào)劑,求導(dǎo)師收 +7 | 天天好運來上岸?/a> 2026-03-24 | 7/350 |
|
|
[考研] 材料專碩331求調(diào)劑 +4 | 鮮當(dāng)牛 2026-03-24 | 4/200 |
|
|
[考研] 335求調(diào)劑 +4 | yuyu宇 2026-03-23 | 5/250 |
|
|
[考研] 接收2026碩士調(diào)劑(學(xué)碩+專碩) +4 | allen-yin 2026-03-23 | 6/300 |
|
|
[考研] 求調(diào)劑 +5 | Zhangbod 2026-03-21 | 7/350 |
|
|
[考研] 336求調(diào)劑 +5 | rmc8866 2026-03-21 | 5/250 |
|