| 5 | 1/1 | 返回列表 |
| 查看: 2144 | 回復(fù): 7 | |||
| 當(dāng)前只顯示滿(mǎn)足指定條件的回帖,點(diǎn)擊這里查看本話題的所有回帖 | |||
ride138新蟲(chóng) (初入文壇)
|
[求助]
CENTOS上安裝Torque4.0.3找不到計(jì)算節(jié)點(diǎn)
|
||
|
給老板五臺(tái)服務(wù)器弄成一個(gè)集群,打算用網(wǎng)上說(shuō)的Torque+maui弄一個(gè)。 安裝就是按照《曙光機(jī)群配置筆記》里說(shuō)的配置,除了NFS、QUOTOA和NIS沒(méi)弄以外,SSH和MPI都配置好了。 我在兩臺(tái)筆記本hp6531s 和hp4436s上測(cè)試,6531是服務(wù)節(jié)點(diǎn),4436是計(jì)算節(jié)點(diǎn)。版本是torque4.0.3和maui3.3.1 配置過(guò)程如下: #################### 5.Torque 和 maui 的安裝 5.1Torquer 在管理節(jié)點(diǎn) node00 上的安裝 使用 root 權(quán)限 tar zxvf torque-2.4.6.tar.gz cd torque-2.4.6 ./configure -prefix=/usr/local/software/torque-2.4.6 -with-rcp=scp make make install 安裝完畢,但是需要 make packages 產(chǎn)生到計(jì)算節(jié)點(diǎn)安裝的文件,其中產(chǎn)生的幾個(gè) sh 文件中最重要的是 torque-package-mom-linux-x86_64.sh 和 torque-package-clients-linux-x86_64.sh 5.2Torque 在管理節(jié)點(diǎn)上的配置 5.2.1 在/etc/profilie 中追加 export TORQUE=/usr/local/software/torque-2.4.6 export MAUI=/usr/local/software/maui-3.3.1 if [ "`id -u`" -eq 0 ]; then PATH=$PATH:$TORQUE/bin:$TORQUE/sbin:$MAUI/bin:$MAUI/sbin else PATH=$PATH:$TORQUE/bin:$MAUI/bin fi 這樣使得 Torque 成為每一個(gè)用戶(hù)的默認(rèn)配置 其中/usr/local/software/ maui-3.3.1 是下面將要裝的 maui 的安裝目錄 5.2.2 source /etc/profile 使環(huán)境變量生效 5.2.3 為 torque 設(shè)置一個(gè)管理員,必須是普通的賬戶(hù) 在編譯安裝 Torque 的目錄里面執(zhí)行: ./torque.setup test 這樣 test 就成了 Torque 的管理員,如果不設(shè)置管理員,沒(méi)法運(yùn)行 torque 5.2.4 在/var/spool/torque/server_priv/nodes 中添加計(jì)算節(jié)點(diǎn)的機(jī)器名, 其中 np 表示節(jié)點(diǎn)上可用的處 理單元數(shù),類(lèi)似: node01 np=12 node02 np=12 node03 np=12 node04 np=12 node05 np=12 node06 np=12 node07 np=12 node08 np=12 node09 np=12 node10 np=12 node11 np=12 node12 np=12 5.2.5 創(chuàng)建作業(yè)隊(duì)列 設(shè)置默認(rèn)隊(duì)列為 lab206 依次在命令行輸入 qmgr -c "set server scheduling=true" 確定服務(wù)器使用排隊(duì)策略 qmgr -c "create queue lab206 queue_type=execution" 創(chuàng)建隊(duì)列 lab206 qmgr -c "set queue lab206 started=true" 使 lab206 隊(duì)列中的任務(wù)可以執(zhí)行 qmgr -c "set queue lab206 enabled=true" 使 lab206 隊(duì)列能夠接受新的任務(wù) qmgr -c " set server default_queue= lab206 " 使 lab206 隊(duì)列成為服務(wù)器的默認(rèn)隊(duì)列 如果不設(shè)置默認(rèn)隊(duì)列可以用: qmgr -c " set server default_queue= NONE " 5.2.6 設(shè)定 pbs_mom 服務(wù)器:/var/spool/torque/server_name 為 node00 5.2.7 設(shè)定 mom config:/var/spool/torque/mom_priv/config 為 node00 (新建立文件) 5.2.8 啟用 mom: pbs_mom 5.2.9 重新 pbs 服務(wù)器: qterm -t quick pbs_server 5.2.10 檢驗(yàn)配置參數(shù) 查看隊(duì)列 qstat -q 該選項(xiàng)能看到剛剛創(chuàng)建的隊(duì)列,應(yīng)該是一個(gè)空隊(duì)列,因?yàn)闆](méi)有任務(wù)提交 查看服務(wù)節(jié)點(diǎn)配置 qmgr -c 'p s' 查看計(jì)算節(jié)點(diǎn) pbsnodes -a 看到 nodes 文件里面寫(xiě)的節(jié)點(diǎn)的信息,但都處于 down 的狀態(tài),因?yàn)檫沒(méi)有配置計(jì)算節(jié)點(diǎn)。 5.3 Torque 在計(jì)算節(jié)點(diǎn)上的配置 5.3.1 在/etc/profilie 中追加 export TORQUE=/usr/local/software/torque-2.4.6 if [ "`id -u`" -eq 0 ]; then PATH=$PATH:$TORQUE/bin:$TORQUE/sbin else PATH=$PATH:$TORQUE/bin fi 5.3.2 source /etc/profile 使環(huán)境變量生效 5.4 在管理節(jié)點(diǎn)上安裝 maui 5.4.1 安裝 tar zxvf maui-3.3.1.tar.gz cd maui-3.3.1 ./configure -prefix=/usr/local/software/maui-3.3.1 -with-pbs=/usr/local/software/torque-2.4.6 make make install 5.4.2 配置 修改/usr/local/maui/maui.cfg 文件 ADMIN1 root 5.4.3 啟動(dòng) maui: source /etc/profile 使剛才的設(shè)置重新生效 maui maui 只需在服務(wù)節(jié)點(diǎn)上安裝,計(jì)算節(jié)點(diǎn)上不必安裝 5.5 計(jì)算節(jié)點(diǎn)上安裝 torque 利用剛才生成的那兩個(gè)重要的 sh 文件, 將這兩個(gè)文件拷貝到 /home 下,然后,到各個(gè)計(jì)算節(jié)點(diǎn)上執(zhí)行 torque-package-clients-linux-x86_64.sh --install torque-package-mom-linux-x86_64.sh --install 5.6 計(jì)算節(jié)點(diǎn)上的配置 在各個(gè)計(jì)算節(jié)點(diǎn)創(chuàng)建文件/var/spool/torque/mom_priv/config,內(nèi)容如下: $pbsserver node00 $logevent 255 $usecp node00: /home /home 并且在各個(gè)計(jì)算節(jié)點(diǎn)上將 /usr/local/software/torque-2.4.6/sbin/pbs_mom 寫(xiě)入/etc/init.d/after.local (新建) 并且修改權(quán)限 chmod 755 /etc/init.d/after.local 然后運(yùn)行 /usr/local/software/torque-2.4.6/sbin/pbs_mom 這個(gè)時(shí)候到 node00 上運(yùn)行 pbsnodes 就會(huì)看到所有的機(jī)器都啟動(dòng)了 這個(gè)時(shí)候回到 node00 上將下列內(nèi)容添加到/etc/init.d/after.local /usr/local/software/torque-2.4.6/sbin/pbs_server /usr/local/software/maui-3.3.1/sbin/maui chmod 755 /etc/init.d/after.local ######################## 現(xiàn)在問(wèn)題來(lái)了, 但是按照《曙》一文配置好了以后,pbsnodes命令顯示計(jì)算節(jié)點(diǎn)stat:down。但是ssh可以無(wú)密碼鏈接,也能ping通。 我又在計(jì)算節(jié)點(diǎn)上重新整體安裝了torque以后,只啟動(dòng)pbs_mom,按照《曙》一文配置以后pbsnodes依然找不到計(jì)算節(jié)點(diǎn)。 并且主機(jī)上的提交的任務(wù),沒(méi)有進(jìn)行排序,而是直接被掛了起來(lái),qstat -a 顯示 stat: Q。必須qrun強(qiáng)制執(zhí)行才能跑,不能進(jìn)行排隊(duì)。這是因?yàn)檫需要進(jìn)行額外設(shè)置嗎? 已經(jīng)被折磨了一星期了,求解! |
寶貝 |
金蟲(chóng) (小有名氣)
|
首先確定所有機(jī)器的防火墻都是關(guān)閉的 很重要! 如果感覺(jué)不安全 等調(diào)試好之后把相關(guān)端口加進(jìn)許可列表 還有沒(méi)有看到你配置HOSTS文件(/etc/hosts)例如 192.168.1.10 node001 192.168.1.11 node002 192.168.1.12 node003 192.168.1.13 node004 這樣保證了機(jī)器間通過(guò)名字可以互相訪問(wèn) 可以ping node001或者ssh node001 |
木蟲(chóng) (著名寫(xiě)手)
|
在管理節(jié)點(diǎn)檢查: ps -A |grep pbs 看是否能夠出來(lái)一個(gè)pbs_server的進(jìn)程 ps -A |grep maui 看是否能夠出來(lái)一個(gè)maui的進(jìn)程 然后到計(jì)算節(jié)點(diǎn) ps -A |grep pbs 看能否出來(lái)一個(gè)叫pbs_mom的進(jìn)程 如果都有的話,在你安裝都沒(méi)有出錯(cuò)的前提下,那應(yīng)該就是Torque和Maui沒(méi)有交流。不清楚是不是這兩個(gè)版本匹配不好。 |

新蟲(chóng) (初入文壇)
新蟲(chóng) (初入文壇)
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 0703化學(xué) +14 | 妮妮ninicgb 2026-03-27 | 14/700 |
|
|---|---|---|---|---|
|
[考研] 一志愿哈爾濱工業(yè)大學(xué)材料與化工方向336分 +11 | 辰沐5211314 2026-03-26 | 11/550 |
|
|
[考研] 290求調(diào)劑 +3 | dfffsar 2026-03-29 | 3/150 |
|
|
[考研]
|
nnnnnnn5 2026-03-25 | 11/550 |
|
|
[考研] 本科雙非材料,跨考一志愿華電085801電氣,283求調(diào)劑,任何專(zhuān)業(yè)都可以 +6 | 芝士雪baoo 2026-03-28 | 8/400 |
|
|
[考研] 0856求調(diào)劑 +13 | zhn03 2026-03-25 | 14/700 |
|
|
[考研] 315求調(diào)劑 +4 | akie... 2026-03-28 | 5/250 |
|
|
[考研] 291求調(diào)劑 +6 | HanBeiNingZC 2026-03-24 | 6/300 |
|
|
[考研] 086000調(diào)劑 +3 | 7901117076 2026-03-26 | 3/150 |
|
|
[考研] 一志愿上海理工能源動(dòng)力(085800)310分求調(diào)劑 +3 | zhangmingc 2026-03-27 | 4/200 |
|
|
[考博] 26申博 +3 | 加油沖! 2026-03-26 | 3/150 |
|
|
[考研] 085600材料與化工調(diào)劑 +10 | A-哆啦Z夢(mèng) 2026-03-23 | 16/800 |
|
|
[考研] 一志愿河工大 081700 276求調(diào)劑 +4 | 地球繞著太陽(yáng)轉(zhuǎn) 2026-03-23 | 4/200 |
|
|
[考研] 環(huán)境專(zhuān)碩324分求調(diào)劑推薦 +5 | 軒小寧—— 2026-03-26 | 5/250 |
|
|
[考研] 309求調(diào)劑 +4 | gajsj 2026-03-25 | 5/250 |
|
|
[考研] 材料與化工304求B區(qū)調(diào)劑 +3 | 邱gl 2026-03-25 | 3/150 |
|
|
[考研] 296求調(diào)劑 +4 | 汪?! 2026-03-25 | 7/350 |
|
|
[考研] 302求調(diào)劑 +4 | 錦衣衛(wèi)藤椒 2026-03-25 | 4/200 |
|
|
[考研] 340求調(diào)劑 +5 | 話梅糖111 2026-03-24 | 5/250 |
|
|
[考研] 生物學(xué)學(xué)碩求調(diào)劑 +7 | 小羊睡著了? 2026-03-23 | 10/500 |
|