| 10 | 1/1 | 返回列表 |
| 查看: 4146 | 回復(fù): 9 | |||||
| 【獎勵】 本帖被評價3次,作者劉仕晨增加金幣 2.2 個 | |||||
[資源]
作業(yè)管理系統(tǒng)Torque 2.4.16在Linuxmint 13 / Ubuntu12.04工作站/單機(jī)上的安裝和使用
|
|||||
|
小弟前段時間在糾結(jié)如何在自己的工作站上安裝PBS任務(wù)管理軟件,因?yàn)槿绻亲约簩懩_本投,普通任何還可以,如果需要連續(xù)投好幾個任務(wù)那還是相當(dāng)麻煩的,就想起了集群的PBS,但是自己搗鼓了好久都沒搞定,后來自己的同學(xué)在網(wǎng)上找到了這篇教程,成功了,拿出來和大家分享,如果大家剛好需要,可以省去很多麻煩。 我自己的系統(tǒng):linuxmint14 一共裝了1臺工作站(E5-2440*2)2臺普通臺式機(jī)(i7-3770)一臺虛擬機(jī)(vmware)都成功了,沒有出現(xiàn)問題: 教程原鏈接:http://hi.baidu.com/xijunw/item/9a4e823959240af62684f426 正文:(原文這里有一張圖片,但是因?yàn)椴挥绊懴旅娴慕坛,所以我就不貼了) 注意:(自己安裝的時候出現(xiàn)的問題,所以一定要注意幾個地方) 1.計算節(jié)點(diǎn)教程是calnode1,千萬不要寫成calnodes1 2.下面的教程修正了原文中的一處標(biāo)點(diǎn)錯誤,如果參考原文,需要自行修改; Torque是作業(yè)隊列管理系統(tǒng),其前身是openPBS,但后來openPBS的那幫人開公司做商業(yè)PBS賺錢去了,openPBS改為Torque繼續(xù)為開源社區(qū)維護(hù)。 關(guān)于Torque的安裝,網(wǎng)上的教程很多。但是,這些教程大多是針對cluster集群的,有的是torque不同版本不同平臺的,所以給出的設(shè)置各不相同。一旦你按照一個不合適的教程去操作,就會導(dǎo)致諸如找不到服務(wù)器無法安裝,或者安裝后作業(yè)提交了不能運(yùn)行,或者能提交作業(yè)但立即結(jié)束退出,或者作業(yè)能正常運(yùn)行但不給出o文件等各種問題。針對各種問題的解決方案更是千奇百怪,讓人云里霧里,無所適從。 不幸的是,上面提到的問題我全部遇到了。各種國內(nèi)外網(wǎng)站給出的解決方案幾乎都折騰遍,才逐漸意識到,安裝Torque,必須搞清Torque的三個部分,pbs_server, pbs_mom, pbs_sched, 它們之間的關(guān)系和通信機(jī)制的關(guān)鍵。這一部分推薦去百度或道客上搜幾篇關(guān)于“作業(yè)調(diào)度系統(tǒng)PBS”介紹的ppt看看。簡單說, pbs_server是領(lǐng)導(dǎo),坐在總部服務(wù)器上負(fù)責(zé)接收任務(wù), pbs_sched是經(jīng)理,負(fù)責(zé)把工作排序并分配下去, pbs_mom是民工,在各個計算節(jié)點(diǎn)辛苦工作,并把情況匯報給總部。 三個部分的配置有2個關(guān)鍵, 關(guān)鍵設(shè)置A,你必須告訴server和sched每個節(jié)點(diǎn)的名字和核的數(shù)量,以便它們分配任務(wù); 關(guān)鍵設(shè)置B,是你必須告訴mom哪個節(jié)點(diǎn)是服務(wù)器節(jié)點(diǎn),以便其向總部匯報工作進(jìn)展。 具體來所,兩個關(guān)鍵設(shè)置涉及如下操作:(配置均在torque默認(rèn)安裝目錄下:/var/spool/torque) 關(guān)鍵設(shè)置A: 創(chuàng)建或修改server_priv/nodes文件,列出計算節(jié)點(diǎn)名稱和核心數(shù); 關(guān)鍵設(shè)置B: 創(chuàng)建或修改mom_priv/config文件列出主節(jié)點(diǎn)ip;創(chuàng)建server_name文件,列出主節(jié)點(diǎn)hostname 對于工作站來說,和cluster集群的唯一區(qū)別是它只有一個計算節(jié)點(diǎn),也就是其服務(wù)節(jié)點(diǎn),通常本機(jī)IP和主機(jī)名默認(rèn)分別為127.0.0.1和torqueserver。 但是你要再給它設(shè)置一個別名,比如calnode1,作為計算節(jié)點(diǎn)的名稱。如上面圖所示。這里搞不清,很容易出錯。 好了,明白了以上關(guān)鍵部分,下面就簡單了。在我的4核linuxmint工作站下,使用軟件源安裝的安裝流程如下: 1. 修改/etc/hosts第一行,使其為“127.0.0.1 localhost yourhostname torqueserver calnode1” (root權(quán)限) $ echo $HOSTNAME // find the hostname xxxxx // write this hostname into /etc/hosts $ sudo vi /etc/hosts 127.0.0.1 localhost xxxxx torqueserver calnode1 # 127.0.1.1 somename // 這一行要comment掉 后面有一些ipv6的東西,無需動。 2. 安裝torque的7個相關(guān)包 $ sudo apt-get install torque-common libtorque2 libtorque2-dev torque-server torque-scheduler torque-mom torque-client 安裝完成后server, sched會自動啟動 3. 初始化 $ sudo qterm // 先終止服務(wù) $ sudo bash /usr/share/doc/torque-common/torque.setup $USER torqueserver // 建立默認(rèn)服務(wù)器和隊列,并把自己列為管理員 $ qmgr -c 'print server' // 查看默認(rèn)配置的服務(wù)和隊列 # # Create queues and set their attributes. # # # Create and define queue batch # create queue batch set queue batch queue_type = Execution set queue batch resources_default.nodes = 1 set queue batch resources_default.walltime = 01:00:00 set queue batch enabled = True set queue batch started = True # # Set server attributes. # set server scheduling = True set server acl_hosts = torqueserver set server default_queue = batch set server log_events = 511 set server mail_from = adm set server scheduler_iteration = 600 set server node_check_rate = 150 set server tcp_timeout = 6 set server mom_job_sync = True set server keep_completed = 300 // 作業(yè)完成后會等待300秒才消失,這里需要改成1,見本文附錄。 4. 設(shè)置服務(wù)節(jié)點(diǎn) (1) 創(chuàng)建server_name文件,指明服務(wù)節(jié)點(diǎn)的名稱為torqueserver $ sudo echo "torqueserver" > /var/spool/torque/server_name // 此文件應(yīng)該是默認(rèn)已經(jīng)自動生成的 (2) 添加計算節(jié)點(diǎn) 創(chuàng)建server_priv/nodes文件,指定利用名為calnode的節(jié)點(diǎn)的4個核做計算 $ sudo echo "calnode1 np=4" > /var/spool/torque/server_priv/nodes 5. 去計算節(jié)點(diǎn)配置。 由于我們是工作站,所以實(shí)際上就只是在本機(jī)上操作 創(chuàng)建mom_priv/config文件,告訴mom向IP為127.0.0.1的服務(wù)節(jié)點(diǎn)匯報 $ sudo echo "$pbs_server = 127.0.0.1" > /var/spool/torque/mom_priv/config 6. 結(jié)束配置,重啟服務(wù) 先啟動計算節(jié)點(diǎn)服務(wù): $ sudo pbs_mom 然后是服務(wù)節(jié)點(diǎn) $ sudo qterm -t quick // 或者 $ sudo killall -r "pbs_*" $ sudo pbs_server // 啟動server $ pbsnodes -a // 查看所有計算節(jié)點(diǎn),free為正常 7. 配置服務(wù)的開機(jī)啟動 $ sudo vi /etc/rc.local 增加三列分別是pbs_server pbs_sched pbs_mom 8. 測試 $ echo 'sleep 20' | qsub 9. 出錯后根據(jù)作業(yè)號追查作業(yè)詳情 $ tracejob xx 典型作業(yè)提交腳本: #!/bin/bash #PBS -N test // job list顯示的作業(yè)名稱。通常無需指定,將顯示腳本文件名 #PBS -l ncpus=2 // 用2個核 #PBS -l walltime=24:00:00 // 運(yùn)行時間,通常在自己的工作站上無需指定 #PBS -j oe // 合并o文件和e文件為o文件,這個很有用 #PBS -q batch // 交到batch隊列,一般無需指定 #PBS -V // 使用.bashrc中設(shè)置的環(huán)境變量,非常重要 cd $PBS_O_WORKDIR // 進(jìn)入腳本提交的目錄為工作目錄,這一行很重要。 g09 input.gjf output.log // 作業(yè)行 附: 修改服務(wù)和隊列的常用命令 (1) 創(chuàng)建與修改作業(yè)隊列batch $ sudo qmgr -c 'create queue batch' // 創(chuàng)建名為batch的隊列 $ sudo qmgr -c 'set queue batch queue_type = Execution' // 類型為計算 $ sudo qmgr -c 'set queue batch enabled = True' // 激活 $ sudo qmgr -c 'set queue batch started = True' // 開啟 $ sudo qmgr -c 'set queue batch resources_default.walltime = 900:00:00' // 最長運(yùn)行時間900小時 $ sudo qmgr -c 'set queue batch resources_default.ncpus = 1' // 默認(rèn)只用1核 $ sudo qmgr -c 'set queue batch resources_default.nodes = 1' // 默認(rèn)使用1個節(jié)點(diǎn) $ sudo qmgr -c 'set queue batch resources_default.nodect = 1' // 只放開1個節(jié)點(diǎn) $ sudo qmgr -c 'set queue batch resources_max.ncpus = 4' // 最多使用4核 $ sudo qmgr -c 'set queue batch resources_min.ncpus = 1' $ sudo qmgr -c 'set queue batch resources_max.nodes = 1' // 只有1個節(jié)點(diǎn) $ sudo qmgr -c 'set queue batch max_running = 2' // 最多同時運(yùn)行2個作業(yè) (2) 配置與修改服務(wù)器server $ sudo qmgr -c 'set server scheduling = True' // 啟動排隊管理 $ sudo qmgr -c 'set server default_queue = batch' // 定義默認(rèn)隊列 $ sudo qmgr -c 'set server allow_node_submit = True' // 允許向服務(wù)節(jié)點(diǎn)提交作業(yè),這個必須設(shè)置 $ sudo qmgr -c 'set server query_other_jobs = True' // $ sudo qmgr -c 'set server acl_host_enable = True' $ sudo qmgr -c 'set server acl_hosts = calnode1' 1. 關(guān)于Unauthorized request問題: 可能是忘了使用管理員權(quán)限操作;也可能是操作順序不對,配置沖突。可殺掉所有pbs_*服務(wù),再開啟。不行重啟主機(jī)。 2. o文件中的“Command not found” 很多軟件的運(yùn)行環(huán)境是在.bashrc中設(shè)置,但是torque在qsub時默認(rèn)并不執(zhí)行.bashrc,就會導(dǎo)致作業(yè)提交后立即結(jié)束,o文件顯示command not found。解決此問題只需在作業(yè)腳本中增加一行 #PBS -V Job Checkpoint and Restart Create a checkpoint and stop: $ qhold Reboot server and restart job from the checkpoint: $ qrerun http://www.clusterresources.com/ ... jobcheckpoint.shtml |
VASP and MS | 好貼 | Linux學(xué)習(xí) |
| 忘了說了,這次買了服務(wù)器才知道,之前臺式機(jī)一直開著超線程跑任務(wù),裝了PBS才發(fā)現(xiàn),超線程會拖慢vasp,然后去我們組里的集群上看了下,所有的節(jié)點(diǎn)都是關(guān)閉了超線程和虛擬化,打開了睿頻。我也聯(lián)系了IBM的工程師,確實(shí)是這樣的,所以如果還有不知道的同學(xué),如果機(jī)器僅僅是裝了vasp,來跑任務(wù),建議關(guān)閉超線程和虛擬化。如果機(jī)器是雙系統(tǒng),還有一些其他任務(wù),那么久不要關(guān)閉了,但是在跑任務(wù)的時候使用的核數(shù)要等于你的物理核心數(shù),而不是你的線程數(shù),也就是CPU利用率50%,當(dāng)然集群就不用擔(dān)心了,因?yàn)楣こ處熆隙ň蛶湍闩玫,所有的這些都是針對自己的單機(jī)或者工作站。和大家共享。 |
| 10 | 1/1 | 返回列表 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 考研求調(diào)劑 +3 | 橘頌. 2026-03-17 | 4/200 |
|
|---|---|---|---|---|
|
[考研] 341求調(diào)劑 +5 | 搗蛋豬豬 2026-03-11 | 7/350 |
|
|
[考研] 301求調(diào)劑 +4 | A_JiXing 2026-03-16 | 4/200 |
|
|
[考研] 304求調(diào)劑 +8 | 小熊joy 2026-03-14 | 8/400 |
|
|
[考研] 302求調(diào)劑 +9 | 負(fù)心者當(dāng)誅 2026-03-11 | 9/450 |
|
|
[考研] 求調(diào)劑,總分315,考的生物醫(yī)藥,一志愿湖南師范大學(xué)。調(diào)劑到任何專業(yè)都可以 +4 | 小丁想進(jìn)步 2026-03-11 | 5/250 |
|
|
[考研] 一志愿,福州大學(xué)材料專碩339分求調(diào)劑 +3 | 木子momo青爭 2026-03-15 | 3/150 |
|
|
[基金申請] 國自科面上基金字體 +6 | iwuli 2026-03-12 | 7/350 |
|
|
[考研] 304求調(diào)劑 +5 | 素年祭語 2026-03-15 | 5/250 |
|
|
[考研] 318求調(diào)劑 +3 | Yanyali 2026-03-15 | 3/150 |
|
|
[考研] 中科院材料273求調(diào)劑 +4 | yzydy 2026-03-15 | 4/200 |
|
|
[考研] 求老師收留調(diào)劑 +4 | jiang姜66 2026-03-14 | 5/250 |
|
|
[考研] 材料與化工 323 英一+數(shù)二+物化,一志愿:哈工大 本人本科雙一流 +4 | 自由的_飛翔 2026-03-13 | 5/250 |
|
|
[基金申請] 現(xiàn)在如何回避去年的某一個專家,不知道名字 +3 | zk200107 2026-03-12 | 6/300 |
|
|
[考研] 255求調(diào)劑 +3 | 李嘉慧, 2026-03-12 | 4/200 |
|
|
[考研] 308 085701 四六級已過求調(diào)劑 +7 | 溫喬喬喬喬 2026-03-12 | 14/700 |
|
|
[考研] 求調(diào)劑(材料與化工327) +4 | 愛吃香菜啦 2026-03-11 | 4/200 |
|
|
[考研] 求材料調(diào)劑 +5 | 隔壁陳先生 2026-03-12 | 5/250 |
|
|
[考研] (081700)化學(xué)工程與技術(shù)-298分求調(diào)劑 +12 | 11啦啦啦 2026-03-11 | 35/1750 |
|
|
[考研] 321求調(diào)劑(食品/專碩) +3 | xc321 2026-03-12 | 6/300 |
|