| 查看: 3630 | 回復(fù): 13 | |||
xp198766鐵桿木蟲 (著名寫手)
小木蟲職業(yè)打醬油滴~~!
|
[交流]
【求助/交流】請(qǐng)問,有沒有誰(shuí)知道,如何從NCBI上批量下載一類gene的核苷酸序列? 已有7人參與
|
||
|
如題,我在NCBI上面搜索一個(gè)gene,得到一千多個(gè)結(jié)果,我想把這些結(jié)果的序列下載下來,可是,有些序列的ID號(hào)里面是基因組的ID號(hào),就是說,我下載下來的是基因組序列,而我只想要里面相應(yīng)基因的序列,NCBI里面搜索結(jié)果里,有對(duì)相關(guān)基因的定位,說是從哪個(gè)位點(diǎn)到哪個(gè)位點(diǎn),有什么軟件可以達(dá)到我的要求呢! 請(qǐng)了解相關(guān)知識(shí)的高手解答下,不勝感激! |
鐵桿木蟲 (著名寫手)
小木蟲職業(yè)打醬油滴~~!
|
可以啊,你在NCBI里面有一個(gè)下拉列表框,里面可以選基因的,還可以用關(guān)鍵詞搜基因呢,例如,用nitrogen搜索gene,可以找到與氮相關(guān)的基因,等等 例如這個(gè)是脂肪酶相關(guān)的基因 http://www.ncbi.nlm.nih.gov/gene/?term=Lipase [ Last edited by xp198766 on 2010-7-20 at 21:07 ] |
木蟲 (著名寫手)
|
上面這個(gè)兩個(gè)問題,如果大家稍微分析一下,其實(shí)很簡(jiǎn)單,就是批量下載, 哈哈,我經(jīng)常批量下個(gè)大數(shù)據(jù)庫(kù)的海量數(shù)據(jù),也就是3-10G 左右,關(guān)鍵是如何確定你要的信息。 笨方法:MEGA 軟件,你可以直接將你的基因通過該軟件進(jìn)行blast,然后手工選擇下載每一個(gè)基因。 如果你稍微懂一點(diǎn)perl, 那么就非常容易了:下面一個(gè)關(guān)于蛋白序列批量下載的例子: 已經(jīng)批量下載了帶有注釋的Genbank文件,大概有500M,每條信息中的內(nèi)容既包含蛋白序列也包含核酸序列,使用SeqVerter 等軟件只能導(dǎo)出核酸序列的的fasta文件。 現(xiàn)在想把其中的氨基酸序列也批量導(dǎo)出來,園子里倒是查到有高手編的perl模塊可以實(shí)現(xiàn)這樣的功能,但是我對(duì)編程語(yǔ)言一竅不通,linux也不會(huì)用,不知有什么現(xiàn)成的windows軟件可以直接導(dǎo)出蛋白序列的fasta文件。以前寫的,試試,在windows的doc下應(yīng)該也差不多, #! /usr/local/bin/perl # name: gb2pep.pl # genbank input to pep sequences. # Vi.n. #usage: cat yourfile|perl gb2pep.pl # 2006-5-16. use strict; use warnings; my $pep_tag = 0; my $pep = ''; my $name = ''; my $name_tag = 0; while ( $name = $1 if /^LOCUS\s+(\S+)\s+/; $name_tag = 1 && $name.= $1 if /^DEFINITION(.*)/; $name_tag = 0 if /^ACCESSION\s+/; $name.= " $1" if /^\s{12}(.*)/ && $name_tag; $pep_tag = 1 && $pep = $1 if /^\s{21}\/translation="(\w+)/; $pep.=$1 if /^\s{21}(\w+)/ && $pep_tag; if (/^\s{21}\w+"$/ && $pep_tag) { print ">$name\n"; for (my $i = 0; $i*60 <= length $pep; $i++) { print substr($pep, $i*60, 60), "\n"; } $pep_tag = 0; } } 能編譯成在windows下使用的程序嗎?得益于高手“等天光的硬幣”指點(diǎn),實(shí)現(xiàn)在windows下從genbank數(shù)據(jù)包中輕松導(dǎo)出fasta格式的蛋白序列,非常感謝“等天光的硬幣”的熱心幫助! 寫下這一過程與新手共享。(呵呵,未經(jīng)“等天光的硬幣”允許,不知會(huì)不會(huì)侵犯知識(shí)產(chǎn)權(quán)......) 開始: 1. 安裝ActivePerl(perl for windows版本) http://downloads.activestate.com ... in32-x86-287188.msi 2. 把以下橫線之間的字符粘貼到記事本中,“另存為”并選擇保存類型為“所有文件”,命名為gb2pep.pl,放到一個(gè)目錄下(比如C:\) ______________________________________________________________________ # 2006-5-16. use strict; use warnings; my $pep_tag = 0; my $pep = ''; my $name = ''; my $name_tag = 0; open(IN,$ARGV[0]); while ( $name = $1 if /^LOCUS\s+(\S+)\s+/; $name_tag = 1 && $name.= $1 if /^DEFINITION(.*)/; $name_tag = 0 if /^ACCESSION\s+/; $name.= " $1" if /^\s{12}(.*)/ && $name_tag; $pep_tag = 1 && $pep = $1 if /^\s{21}\/translation="(\w+)/; $pep.=$1 if /^\s{21}(\w+)/ && $pep_tag; if (/^\s{21}\w+"$/ && $pep_tag) { print ">$name\n"; for (my $i = 0; $i*60 <= length $pep; $i++) { print substr($pep, $i*60, 60), "\n"; } $pep_tag = 0; } } ______________________________________________________________________ 3. 將genbank文件(比如demo-genbank.gb)也拷貝到和gb2pep.pl相同的文件夾,比如C:\ 4. 點(diǎn)擊windows桌面工具欄“開始”——“運(yùn)行”——“cmd”進(jìn)入dos命令窗口,此時(shí)文件夾位置一般處于C:\Documents and Settings\當(dāng)前用戶名> 5. 鍵入"cd\" 回到C盤根目錄。輸入命令行:perl gb2pep.pl demo-genbank.gb >demo_out.fasta 回車。 6.等一會(huì)兒就會(huì)在C盤根目錄下出現(xiàn)名為 demo_out.fasta的文件,這就是我們處理得到的結(jié)果。 使用perl模塊處理文本文件十分高效,我下載的一個(gè)genbank文件包有五百多兆,使用這個(gè)perl模塊處理,只要幾分鐘的時(shí)間就得到了fasta格式的序列了,而且?guī)缀醪徽际裁聪到y(tǒng)資源。謝謝啦~上面的都不好。 用emboss包,基本的seqret操作: seqret -sequence a.gb -outseq a.fasta -osformat fasta 融合序列可以用cat指令: cat *.gb >a.gb 詳情請(qǐng)google EMBOSS如果用perl腳本,最好用bioperl直接搞。 use strict; use Bio::SeqIO; my $file_in = shift; my $file_out = shift; my $IN = Bio::SeqIO->new(-file=>$file_in); my $OUT = Bio::SeqIO->new(-file=>">$file_out",-format=>'fasta'); while (my $obj = $IN->next_seq) { $OUT->write_seq($obj); } $IN->close; $OUT->close; |

鐵桿木蟲 (職業(yè)作家)
鐵桿木蟲 (著名寫手)
小木蟲職業(yè)打醬油滴~~!
木蟲 (小有名氣)

鐵桿木蟲 (著名寫手)
小木蟲職業(yè)打醬油滴~~!
木蟲 (小有名氣)

木蟲 (小有名氣)
鐵桿木蟲 (著名寫手)
小木蟲職業(yè)打醬油滴~~!
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 一志愿北京化工大學(xué)材料與化工 264分各科過A區(qū)國(guó)家線 +3 | 哈哈157349 2026-03-21 | 3/150 |
|
|---|---|---|---|---|
|
[考研] 材料292調(diào)劑 +6 | 橘頌思美人 2026-03-23 | 6/300 |
|
|
[考研] 一志愿華東理工大學(xué)081700,初試分?jǐn)?shù)271 +5 | kotoko_ik 2026-03-23 | 6/300 |
|
|
[考研] 一志愿河北工業(yè)大學(xué)0817化工278分求調(diào)劑 +7 | jhybd 2026-03-23 | 12/600 |
|
|
[考研] 材料調(diào)劑 +5 | 匹克i 2026-03-23 | 5/250 |
|
|
[考研] 一志愿山東大學(xué)藥學(xué)學(xué)碩求調(diào)劑 +3 | 開開心心沒煩惱 2026-03-23 | 4/200 |
|
|
[考研] 303求調(diào)劑 +4 | 元夕元 2026-03-20 | 4/200 |
|
|
[考研] 求調(diào)劑一志愿武漢理工大學(xué)材料工程(085601) +3 | WW.' 2026-03-23 | 5/250 |
|
|
[考研] 招08考數(shù)學(xué) +6 | laoshidan 2026-03-20 | 14/700 |
|
|
[考研] 北科281學(xué)碩材料求調(diào)劑 +8 | tcxiaoxx 2026-03-20 | 9/450 |
|
|
[考研] 317求調(diào)劑 +12 | 申子申申 2026-03-19 | 18/900 |
|
|
[考研] 311求調(diào)劑 +6 | 冬十三 2026-03-18 | 6/300 |
|
|
[考研] 289求調(diào)劑 +7 | 懷瑾握瑜l 2026-03-20 | 7/350 |
|
|
[考研] 考研調(diào)劑 +4 | 來好運(yùn)來來來 2026-03-21 | 4/200 |
|
|
[考研] 化學(xué)調(diào)劑 +5 | yzysaa 2026-03-21 | 5/250 |
|
|
[考研] 求助 +5 | 夢(mèng)里的無(wú)言 2026-03-21 | 6/300 |
|
|
[考研] 材料與化工(0856)304求 B區(qū) 調(diào)劑 +3 | 邱gl 2026-03-21 | 3/150 |
|
|
[考研] 化學(xué)求調(diào)劑 +4 | 臨澤境llllll 2026-03-17 | 5/250 |
|
|
[考研] 一志愿西安交通大學(xué) 學(xué)碩 354求調(diào)劑211或者雙一流 +3 | 我想要讀研究生 2026-03-20 | 3/150 |
|
|
[考研] 288求調(diào)劑,一志愿華南理工大學(xué)071005 +5 | ioodiiij 2026-03-17 | 5/250 |
|