| 5 | 1/1 | 返回列表 |
| 查看: 2142 | 回復(fù): 7 | |||
| 當(dāng)前只顯示滿足指定條件的回帖,點擊這里查看本話題的所有回帖 | |||
ride138新蟲 (初入文壇)
|
[求助]
CENTOS上安裝Torque4.0.3找不到計算節(jié)點
|
||
|
給老板五臺服務(wù)器弄成一個集群,打算用網(wǎng)上說的Torque+maui弄一個。 安裝就是按照《曙光機群配置筆記》里說的配置,除了NFS、QUOTOA和NIS沒弄以外,SSH和MPI都配置好了。 我在兩臺筆記本hp6531s 和hp4436s上測試,6531是服務(wù)節(jié)點,4436是計算節(jié)點。版本是torque4.0.3和maui3.3.1 配置過程如下: #################### 5.Torque 和 maui 的安裝 5.1Torquer 在管理節(jié)點 node00 上的安裝 使用 root 權(quán)限 tar zxvf torque-2.4.6.tar.gz cd torque-2.4.6 ./configure -prefix=/usr/local/software/torque-2.4.6 -with-rcp=scp make make install 安裝完畢,但是需要 make packages 產(chǎn)生到計算節(jié)點安裝的文件,其中產(chǎn)生的幾個 sh 文件中最重要的是 torque-package-mom-linux-x86_64.sh 和 torque-package-clients-linux-x86_64.sh 5.2Torque 在管理節(jié)點上的配置 5.2.1 在/etc/profilie 中追加 export TORQUE=/usr/local/software/torque-2.4.6 export MAUI=/usr/local/software/maui-3.3.1 if [ "`id -u`" -eq 0 ]; then PATH=$PATH:$TORQUE/bin:$TORQUE/sbin:$MAUI/bin:$MAUI/sbin else PATH=$PATH:$TORQUE/bin:$MAUI/bin fi 這樣使得 Torque 成為每一個用戶的默認(rèn)配置 其中/usr/local/software/ maui-3.3.1 是下面將要裝的 maui 的安裝目錄 5.2.2 source /etc/profile 使環(huán)境變量生效 5.2.3 為 torque 設(shè)置一個管理員,必須是普通的賬戶 在編譯安裝 Torque 的目錄里面執(zhí)行: ./torque.setup test 這樣 test 就成了 Torque 的管理員,如果不設(shè)置管理員,沒法運行 torque 5.2.4 在/var/spool/torque/server_priv/nodes 中添加計算節(jié)點的機器名, 其中 np 表示節(jié)點上可用的處 理單元數(shù),類似: node01 np=12 node02 np=12 node03 np=12 node04 np=12 node05 np=12 node06 np=12 node07 np=12 node08 np=12 node09 np=12 node10 np=12 node11 np=12 node12 np=12 5.2.5 創(chuàng)建作業(yè)隊列 設(shè)置默認(rèn)隊列為 lab206 依次在命令行輸入 qmgr -c "set server scheduling=true" 確定服務(wù)器使用排隊策略 qmgr -c "create queue lab206 queue_type=execution" 創(chuàng)建隊列 lab206 qmgr -c "set queue lab206 started=true" 使 lab206 隊列中的任務(wù)可以執(zhí)行 qmgr -c "set queue lab206 enabled=true" 使 lab206 隊列能夠接受新的任務(wù) qmgr -c " set server default_queue= lab206 " 使 lab206 隊列成為服務(wù)器的默認(rèn)隊列 如果不設(shè)置默認(rèn)隊列可以用: qmgr -c " set server default_queue= NONE " 5.2.6 設(shè)定 pbs_mom 服務(wù)器:/var/spool/torque/server_name 為 node00 5.2.7 設(shè)定 mom config:/var/spool/torque/mom_priv/config 為 node00 (新建立文件) 5.2.8 啟用 mom: pbs_mom 5.2.9 重新 pbs 服務(wù)器: qterm -t quick pbs_server 5.2.10 檢驗配置參數(shù) 查看隊列 qstat -q 該選項能看到剛剛創(chuàng)建的隊列,應(yīng)該是一個空隊列,因為沒有任務(wù)提交 查看服務(wù)節(jié)點配置 qmgr -c 'p s' 查看計算節(jié)點 pbsnodes -a 看到 nodes 文件里面寫的節(jié)點的信息,但都處于 down 的狀態(tài),因為還沒有配置計算節(jié)點。 5.3 Torque 在計算節(jié)點上的配置 5.3.1 在/etc/profilie 中追加 export TORQUE=/usr/local/software/torque-2.4.6 if [ "`id -u`" -eq 0 ]; then PATH=$PATH:$TORQUE/bin:$TORQUE/sbin else PATH=$PATH:$TORQUE/bin fi 5.3.2 source /etc/profile 使環(huán)境變量生效 5.4 在管理節(jié)點上安裝 maui 5.4.1 安裝 tar zxvf maui-3.3.1.tar.gz cd maui-3.3.1 ./configure -prefix=/usr/local/software/maui-3.3.1 -with-pbs=/usr/local/software/torque-2.4.6 make make install 5.4.2 配置 修改/usr/local/maui/maui.cfg 文件 ADMIN1 root 5.4.3 啟動 maui: source /etc/profile 使剛才的設(shè)置重新生效 maui maui 只需在服務(wù)節(jié)點上安裝,計算節(jié)點上不必安裝 5.5 計算節(jié)點上安裝 torque 利用剛才生成的那兩個重要的 sh 文件, 將這兩個文件拷貝到 /home 下,然后,到各個計算節(jié)點上執(zhí)行 torque-package-clients-linux-x86_64.sh --install torque-package-mom-linux-x86_64.sh --install 5.6 計算節(jié)點上的配置 在各個計算節(jié)點創(chuàng)建文件/var/spool/torque/mom_priv/config,內(nèi)容如下: $pbsserver node00 $logevent 255 $usecp node00: /home /home 并且在各個計算節(jié)點上將 /usr/local/software/torque-2.4.6/sbin/pbs_mom 寫入/etc/init.d/after.local (新建) 并且修改權(quán)限 chmod 755 /etc/init.d/after.local 然后運行 /usr/local/software/torque-2.4.6/sbin/pbs_mom 這個時候到 node00 上運行 pbsnodes 就會看到所有的機器都啟動了 這個時候回到 node00 上將下列內(nèi)容添加到/etc/init.d/after.local /usr/local/software/torque-2.4.6/sbin/pbs_server /usr/local/software/maui-3.3.1/sbin/maui chmod 755 /etc/init.d/after.local ######################## 現(xiàn)在問題來了, 但是按照《曙》一文配置好了以后,pbsnodes命令顯示計算節(jié)點stat:down。但是ssh可以無密碼鏈接,也能ping通。 我又在計算節(jié)點上重新整體安裝了torque以后,只啟動pbs_mom,按照《曙》一文配置以后pbsnodes依然找不到計算節(jié)點。 并且主機上的提交的任務(wù),沒有進行排序,而是直接被掛了起來,qstat -a 顯示 stat: Q。必須qrun強制執(zhí)行才能跑,不能進行排隊。這是因為還需要進行額外設(shè)置嗎? 已經(jīng)被折磨了一星期了,求解! |
寶貝 |
新蟲 (初入文壇)
木蟲 (著名寫手)
|
在管理節(jié)點檢查: ps -A |grep pbs 看是否能夠出來一個pbs_server的進程 ps -A |grep maui 看是否能夠出來一個maui的進程 然后到計算節(jié)點 ps -A |grep pbs 看能否出來一個叫pbs_mom的進程 如果都有的話,在你安裝都沒有出錯的前提下,那應(yīng)該就是Torque和Maui沒有交流。不清楚是不是這兩個版本匹配不好。 |

新蟲 (初入文壇)
金蟲 (小有名氣)
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 332求調(diào)劑 +6 | Lyy930824@ 2026-03-29 | 6/300 |
|
|---|---|---|---|---|
|
[考研] 348求調(diào)劑 +6 | 小懶蟲不懶了 2026-03-28 | 6/300 |
|
|
[考研] 295求調(diào)劑 +5 | wei-5 2026-03-26 | 5/250 |
|
|
[考研] 材料科學(xué)與工程求調(diào)劑 +6 | 深V宿舍吧 2026-03-29 | 6/300 |
|
|
[考研] 總分293求調(diào)劑 +8 | 加一一九 2026-03-25 | 11/550 |
|
|
[考研] 081200-11408-276學(xué)碩求調(diào)劑 +6 | 崔wj 2026-03-26 | 6/300 |
|
|
[考研] 一志愿太原理工安全工程300分,求調(diào)劑 +5 | 0857求調(diào)劑. 2026-03-24 | 6/300 |
|
|
[考研] 復(fù)試調(diào)劑 +3 | raojunqi0129 2026-03-28 | 3/150 |
|
|
[考研]
|
y7czhao 2026-03-26 | 10/500 |
|
|
[考研] 085701環(huán)境工程,267求調(diào)劑 +16 | minht 2026-03-26 | 16/800 |
|
|
[考研] 081200-314 +3 | LILIQQ 2026-03-27 | 4/200 |
|
|
[考研] 材料求調(diào)劑 一志愿哈工大總分298分,前三科223分 +5 | dongfang59 2026-03-27 | 5/250 |
|
|
[考研] 一志愿211院校 344分 東北農(nóng)業(yè)大學(xué)生物學(xué)學(xué)碩,求調(diào)劑 +5 | 丶風(fēng)雪夜歸人丶 2026-03-26 | 8/400 |
|
|
[考研] 求調(diào)劑 +4 | 零八# 2026-03-27 | 4/200 |
|
|
[考研] 材料考研求調(diào)劑 +3 | Dendel 2026-03-23 | 6/300 |
|
|
[考研] 【2026考研調(diào)劑】制藥工程 284分 求相關(guān)專業(yè)調(diào)劑名額 +4 | 袁奐奐 2026-03-25 | 8/400 |
|
|
[考研] 086003食品工程求調(diào)劑 +6 | 淼淼111 2026-03-24 | 6/300 |
|
|
[考研] 化工專碩求調(diào)劑 +3 | question挽風(fēng) 2026-03-24 | 3/150 |
|
|
[考研] 求調(diào)劑 +6 | 研研,接電話 2026-03-24 | 7/350 |
|
|
[考研] 292求調(diào)劑 +4 | 鵝鵝鵝額額額額?/a> 2026-03-24 | 4/200 |
|