| 查看: 3631 | 回復(fù): 13 | |||
xp198766鐵桿木蟲 (著名寫手)
小木蟲職業(yè)打醬油滴~~!
|
[交流]
【求助/交流】請問,有沒有誰知道,如何從NCBI上批量下載一類gene的核苷酸序列? 已有7人參與
|
||
|
如題,我在NCBI上面搜索一個gene,得到一千多個結(jié)果,我想把這些結(jié)果的序列下載下來,可是,有些序列的ID號里面是基因組的ID號,就是說,我下載下來的是基因組序列,而我只想要里面相應(yīng)基因的序列,NCBI里面搜索結(jié)果里,有對相關(guān)基因的定位,說是從哪個位點到哪個位點,有什么軟件可以達(dá)到我的要求呢! 請了解相關(guān)知識的高手解答下,不勝感激! |
鐵桿木蟲 (著名寫手)
小木蟲職業(yè)打醬油滴~~!
|
可以啊,你在NCBI里面有一個下拉列表框,里面可以選基因的,還可以用關(guān)鍵詞搜基因呢,例如,用nitrogen搜索gene,可以找到與氮相關(guān)的基因,等等 例如這個是脂肪酶相關(guān)的基因 http://www.ncbi.nlm.nih.gov/gene/?term=Lipase [ Last edited by xp198766 on 2010-7-20 at 21:07 ] |
木蟲 (著名寫手)
|
上面這個兩個問題,如果大家稍微分析一下,其實很簡單,就是批量下載, 哈哈,我經(jīng)常批量下個大數(shù)據(jù)庫的海量數(shù)據(jù),也就是3-10G 左右,關(guān)鍵是如何確定你要的信息。 笨方法:MEGA 軟件,你可以直接將你的基因通過該軟件進(jìn)行blast,然后手工選擇下載每一個基因。 如果你稍微懂一點perl, 那么就非常容易了:下面一個關(guān)于蛋白序列批量下載的例子: 已經(jīng)批量下載了帶有注釋的Genbank文件,大概有500M,每條信息中的內(nèi)容既包含蛋白序列也包含核酸序列,使用SeqVerter 等軟件只能導(dǎo)出核酸序列的的fasta文件。 現(xiàn)在想把其中的氨基酸序列也批量導(dǎo)出來,園子里倒是查到有高手編的perl模塊可以實現(xiàn)這樣的功能,但是我對編程語言一竅不通,linux也不會用,不知有什么現(xiàn)成的windows軟件可以直接導(dǎo)出蛋白序列的fasta文件。以前寫的,試試,在windows的doc下應(yīng)該也差不多, #! /usr/local/bin/perl # name: gb2pep.pl # genbank input to pep sequences. # Vi.n. #usage: cat yourfile|perl gb2pep.pl # 2006-5-16. use strict; use warnings; my $pep_tag = 0; my $pep = ''; my $name = ''; my $name_tag = 0; while ( $name = $1 if /^LOCUS\s+(\S+)\s+/; $name_tag = 1 && $name.= $1 if /^DEFINITION(.*)/; $name_tag = 0 if /^ACCESSION\s+/; $name.= " $1" if /^\s{12}(.*)/ && $name_tag; $pep_tag = 1 && $pep = $1 if /^\s{21}\/translation="(\w+)/; $pep.=$1 if /^\s{21}(\w+)/ && $pep_tag; if (/^\s{21}\w+"$/ && $pep_tag) { print ">$name\n"; for (my $i = 0; $i*60 <= length $pep; $i++) { print substr($pep, $i*60, 60), "\n"; } $pep_tag = 0; } } 能編譯成在windows下使用的程序嗎?得益于高手“等天光的硬幣”指點,實現(xiàn)在windows下從genbank數(shù)據(jù)包中輕松導(dǎo)出fasta格式的蛋白序列,非常感謝“等天光的硬幣”的熱心幫助! 寫下這一過程與新手共享。(呵呵,未經(jīng)“等天光的硬幣”允許,不知會不會侵犯知識產(chǎn)權(quán)......) 開始: 1. 安裝ActivePerl(perl for windows版本) http://downloads.activestate.com ... in32-x86-287188.msi 2. 把以下橫線之間的字符粘貼到記事本中,“另存為”并選擇保存類型為“所有文件”,命名為gb2pep.pl,放到一個目錄下(比如C:\) ______________________________________________________________________ # 2006-5-16. use strict; use warnings; my $pep_tag = 0; my $pep = ''; my $name = ''; my $name_tag = 0; open(IN,$ARGV[0]); while ( $name = $1 if /^LOCUS\s+(\S+)\s+/; $name_tag = 1 && $name.= $1 if /^DEFINITION(.*)/; $name_tag = 0 if /^ACCESSION\s+/; $name.= " $1" if /^\s{12}(.*)/ && $name_tag; $pep_tag = 1 && $pep = $1 if /^\s{21}\/translation="(\w+)/; $pep.=$1 if /^\s{21}(\w+)/ && $pep_tag; if (/^\s{21}\w+"$/ && $pep_tag) { print ">$name\n"; for (my $i = 0; $i*60 <= length $pep; $i++) { print substr($pep, $i*60, 60), "\n"; } $pep_tag = 0; } } ______________________________________________________________________ 3. 將genbank文件(比如demo-genbank.gb)也拷貝到和gb2pep.pl相同的文件夾,比如C:\ 4. 點擊windows桌面工具欄“開始”——“運(yùn)行”——“cmd”進(jìn)入dos命令窗口,此時文件夾位置一般處于C:\Documents and Settings\當(dāng)前用戶名> 5. 鍵入"cd\" 回到C盤根目錄。輸入命令行:perl gb2pep.pl demo-genbank.gb >demo_out.fasta 回車。 6.等一會兒就會在C盤根目錄下出現(xiàn)名為 demo_out.fasta的文件,這就是我們處理得到的結(jié)果。 使用perl模塊處理文本文件十分高效,我下載的一個genbank文件包有五百多兆,使用這個perl模塊處理,只要幾分鐘的時間就得到了fasta格式的序列了,而且?guī)缀醪徽际裁聪到y(tǒng)資源。謝謝啦~上面的都不好。 用emboss包,基本的seqret操作: seqret -sequence a.gb -outseq a.fasta -osformat fasta 融合序列可以用cat指令: cat *.gb >a.gb 詳情請google EMBOSS如果用perl腳本,最好用bioperl直接搞。 use strict; use Bio::SeqIO; my $file_in = shift; my $file_out = shift; my $IN = Bio::SeqIO->new(-file=>$file_in); my $OUT = Bio::SeqIO->new(-file=>">$file_out",-format=>'fasta'); while (my $obj = $IN->next_seq) { $OUT->write_seq($obj); } $IN->close; $OUT->close; |

鐵桿木蟲 (職業(yè)作家)
鐵桿木蟲 (著名寫手)
小木蟲職業(yè)打醬油滴~~!
木蟲 (小有名氣)

鐵桿木蟲 (著名寫手)
小木蟲職業(yè)打醬油滴~~!
木蟲 (小有名氣)

木蟲 (小有名氣)
鐵桿木蟲 (著名寫手)
小木蟲職業(yè)打醬油滴~~!
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 調(diào)劑 +3 | 13853210211 2026-03-24 | 3/150 |
|
|---|---|---|---|---|
|
[考研] 0805 316求調(diào)劑 +4 | 大雪深藏 2026-03-18 | 4/200 |
|
|
[考研] 0703化學(xué)調(diào)劑,求導(dǎo)師收 +6 | 天天好運(yùn)來上岸?/a> 2026-03-24 | 6/300 |
|
|
[考研] 292求調(diào)劑 +4 | 鵝鵝鵝額額額額?/a> 2026-03-24 | 4/200 |
|
|
[考研] 一志愿華東理工大學(xué)081700,初試分?jǐn)?shù)271 +5 | kotoko_ik 2026-03-23 | 6/300 |
|
|
[考研] 一志愿山東大學(xué)藥學(xué)學(xué)碩求調(diào)劑 +3 | 開開心心沒煩惱 2026-03-23 | 4/200 |
|
|
[考研] 291求調(diào)劑 +8 | hhhhxn.. 2026-03-23 | 8/400 |
|
|
[考研] 384求調(diào)劑 +3 | 子系博 2026-03-22 | 6/300 |
|
|
[考研] 303求調(diào)劑 +4 | 元夕元 2026-03-20 | 4/200 |
|
|
[考研] 306求調(diào)劑 +9 | chuanzhu川燭 2026-03-18 | 9/450 |
|
|
[考研] 298求調(diào)劑 +8 | 上岸6666@ 2026-03-20 | 8/400 |
|
|
[考研] 一志愿中南化學(xué)(0703)總分337求調(diào)劑 +9 | niko- 2026-03-19 | 10/500 |
|
|
[考研] 求調(diào)劑 +4 | 要好好無聊 2026-03-21 | 4/200 |
|
|
[考研] 297求調(diào)劑 +3 | 喜歡還是不甘心 2026-03-20 | 3/150 |
|
|
[考研] 288求調(diào)劑 +16 | 于海海海海 2026-03-19 | 16/800 |
|
|
[考研] 一志愿 西北大學(xué) ,070300化學(xué)學(xué)碩,總分287,雙非一本,求調(diào)劑。 +4 | 晨昏線與星海 2026-03-19 | 4/200 |
|
|
[考研] 材料學(xué)碩297已過四六級求調(diào)劑推薦 +11 | adaie 2026-03-19 | 11/550 |
|
|
[考研] 086500 325 求調(diào)劑 +3 | 領(lǐng)帶小熊 2026-03-19 | 3/150 |
|
|
[考研] 招收調(diào)劑碩士 +4 | lidianxing 2026-03-19 | 12/600 |
|
|
[考研] 本科鄭州大學(xué)物理學(xué)院,一志愿華科070200學(xué)碩,346求調(diào)劑 +4 | 我不是一根蔥 2026-03-18 | 4/200 |
|