| 5 | 1/1 | 返回列表 |
| 查看: 2149 | 回復(fù): 7 | |||
| 當(dāng)前只顯示滿足指定條件的回帖,點(diǎn)擊這里查看本話題的所有回帖 | |||
ride138新蟲 (初入文壇)
|
[求助]
CENTOS上安裝Torque4.0.3找不到計(jì)算節(jié)點(diǎn)
|
||
|
給老板五臺(tái)服務(wù)器弄成一個(gè)集群,打算用網(wǎng)上說的Torque+maui弄一個(gè)。 安裝就是按照《曙光機(jī)群配置筆記》里說的配置,除了NFS、QUOTOA和NIS沒弄以外,SSH和MPI都配置好了。 我在兩臺(tái)筆記本hp6531s 和hp4436s上測試,6531是服務(wù)節(jié)點(diǎn),4436是計(jì)算節(jié)點(diǎn)。版本是torque4.0.3和maui3.3.1 配置過程如下: #################### 5.Torque 和 maui 的安裝 5.1Torquer 在管理節(jié)點(diǎn) node00 上的安裝 使用 root 權(quán)限 tar zxvf torque-2.4.6.tar.gz cd torque-2.4.6 ./configure -prefix=/usr/local/software/torque-2.4.6 -with-rcp=scp make make install 安裝完畢,但是需要 make packages 產(chǎn)生到計(jì)算節(jié)點(diǎn)安裝的文件,其中產(chǎn)生的幾個(gè) sh 文件中最重要的是 torque-package-mom-linux-x86_64.sh 和 torque-package-clients-linux-x86_64.sh 5.2Torque 在管理節(jié)點(diǎn)上的配置 5.2.1 在/etc/profilie 中追加 export TORQUE=/usr/local/software/torque-2.4.6 export MAUI=/usr/local/software/maui-3.3.1 if [ "`id -u`" -eq 0 ]; then PATH=$PATH:$TORQUE/bin:$TORQUE/sbin:$MAUI/bin:$MAUI/sbin else PATH=$PATH:$TORQUE/bin:$MAUI/bin fi 這樣使得 Torque 成為每一個(gè)用戶的默認(rèn)配置 其中/usr/local/software/ maui-3.3.1 是下面將要裝的 maui 的安裝目錄 5.2.2 source /etc/profile 使環(huán)境變量生效 5.2.3 為 torque 設(shè)置一個(gè)管理員,必須是普通的賬戶 在編譯安裝 Torque 的目錄里面執(zhí)行: ./torque.setup test 這樣 test 就成了 Torque 的管理員,如果不設(shè)置管理員,沒法運(yùn)行 torque 5.2.4 在/var/spool/torque/server_priv/nodes 中添加計(jì)算節(jié)點(diǎn)的機(jī)器名, 其中 np 表示節(jié)點(diǎn)上可用的處 理單元數(shù),類似: node01 np=12 node02 np=12 node03 np=12 node04 np=12 node05 np=12 node06 np=12 node07 np=12 node08 np=12 node09 np=12 node10 np=12 node11 np=12 node12 np=12 5.2.5 創(chuàng)建作業(yè)隊(duì)列 設(shè)置默認(rèn)隊(duì)列為 lab206 依次在命令行輸入 qmgr -c "set server scheduling=true" 確定服務(wù)器使用排隊(duì)策略 qmgr -c "create queue lab206 queue_type=execution" 創(chuàng)建隊(duì)列 lab206 qmgr -c "set queue lab206 started=true" 使 lab206 隊(duì)列中的任務(wù)可以執(zhí)行 qmgr -c "set queue lab206 enabled=true" 使 lab206 隊(duì)列能夠接受新的任務(wù) qmgr -c " set server default_queue= lab206 " 使 lab206 隊(duì)列成為服務(wù)器的默認(rèn)隊(duì)列 如果不設(shè)置默認(rèn)隊(duì)列可以用: qmgr -c " set server default_queue= NONE " 5.2.6 設(shè)定 pbs_mom 服務(wù)器:/var/spool/torque/server_name 為 node00 5.2.7 設(shè)定 mom config:/var/spool/torque/mom_priv/config 為 node00 (新建立文件) 5.2.8 啟用 mom: pbs_mom 5.2.9 重新 pbs 服務(wù)器: qterm -t quick pbs_server 5.2.10 檢驗(yàn)配置參數(shù) 查看隊(duì)列 qstat -q 該選項(xiàng)能看到剛剛創(chuàng)建的隊(duì)列,應(yīng)該是一個(gè)空隊(duì)列,因?yàn)闆]有任務(wù)提交 查看服務(wù)節(jié)點(diǎn)配置 qmgr -c 'p s' 查看計(jì)算節(jié)點(diǎn) pbsnodes -a 看到 nodes 文件里面寫的節(jié)點(diǎn)的信息,但都處于 down 的狀態(tài),因?yàn)檫沒有配置計(jì)算節(jié)點(diǎn)。 5.3 Torque 在計(jì)算節(jié)點(diǎn)上的配置 5.3.1 在/etc/profilie 中追加 export TORQUE=/usr/local/software/torque-2.4.6 if [ "`id -u`" -eq 0 ]; then PATH=$PATH:$TORQUE/bin:$TORQUE/sbin else PATH=$PATH:$TORQUE/bin fi 5.3.2 source /etc/profile 使環(huán)境變量生效 5.4 在管理節(jié)點(diǎn)上安裝 maui 5.4.1 安裝 tar zxvf maui-3.3.1.tar.gz cd maui-3.3.1 ./configure -prefix=/usr/local/software/maui-3.3.1 -with-pbs=/usr/local/software/torque-2.4.6 make make install 5.4.2 配置 修改/usr/local/maui/maui.cfg 文件 ADMIN1 root 5.4.3 啟動(dòng) maui: source /etc/profile 使剛才的設(shè)置重新生效 maui maui 只需在服務(wù)節(jié)點(diǎn)上安裝,計(jì)算節(jié)點(diǎn)上不必安裝 5.5 計(jì)算節(jié)點(diǎn)上安裝 torque 利用剛才生成的那兩個(gè)重要的 sh 文件, 將這兩個(gè)文件拷貝到 /home 下,然后,到各個(gè)計(jì)算節(jié)點(diǎn)上執(zhí)行 torque-package-clients-linux-x86_64.sh --install torque-package-mom-linux-x86_64.sh --install 5.6 計(jì)算節(jié)點(diǎn)上的配置 在各個(gè)計(jì)算節(jié)點(diǎn)創(chuàng)建文件/var/spool/torque/mom_priv/config,內(nèi)容如下: $pbsserver node00 $logevent 255 $usecp node00: /home /home 并且在各個(gè)計(jì)算節(jié)點(diǎn)上將 /usr/local/software/torque-2.4.6/sbin/pbs_mom 寫入/etc/init.d/after.local (新建) 并且修改權(quán)限 chmod 755 /etc/init.d/after.local 然后運(yùn)行 /usr/local/software/torque-2.4.6/sbin/pbs_mom 這個(gè)時(shí)候到 node00 上運(yùn)行 pbsnodes 就會(huì)看到所有的機(jī)器都啟動(dòng)了 這個(gè)時(shí)候回到 node00 上將下列內(nèi)容添加到/etc/init.d/after.local /usr/local/software/torque-2.4.6/sbin/pbs_server /usr/local/software/maui-3.3.1/sbin/maui chmod 755 /etc/init.d/after.local ######################## 現(xiàn)在問題來了, 但是按照《曙》一文配置好了以后,pbsnodes命令顯示計(jì)算節(jié)點(diǎn)stat:down。但是ssh可以無密碼鏈接,也能ping通。 我又在計(jì)算節(jié)點(diǎn)上重新整體安裝了torque以后,只啟動(dòng)pbs_mom,按照《曙》一文配置以后pbsnodes依然找不到計(jì)算節(jié)點(diǎn)。 并且主機(jī)上的提交的任務(wù),沒有進(jìn)行排序,而是直接被掛了起來,qstat -a 顯示 stat: Q。必須qrun強(qiáng)制執(zhí)行才能跑,不能進(jìn)行排隊(duì)。這是因?yàn)檫需要進(jìn)行額外設(shè)置嗎? 已經(jīng)被折磨了一星期了,求解啊! |
寶貝 |
新蟲 (正式寫手)
木蟲 (著名寫手)
|
在管理節(jié)點(diǎn)檢查: ps -A |grep pbs 看是否能夠出來一個(gè)pbs_server的進(jìn)程 ps -A |grep maui 看是否能夠出來一個(gè)maui的進(jìn)程 然后到計(jì)算節(jié)點(diǎn) ps -A |grep pbs 看能否出來一個(gè)叫pbs_mom的進(jìn)程 如果都有的話,在你安裝都沒有出錯(cuò)的前提下,那應(yīng)該就是Torque和Maui沒有交流。不清楚是不是這兩個(gè)版本匹配不好。 |

新蟲 (初入文壇)
新蟲 (初入文壇)
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 298求調(diào)劑 +3 | zzz,,r 2026-04-02 | 3/150 |
|
|---|---|---|---|---|
|
[考研] 材料求調(diào)劑 一志愿哈工大總分298分,前三科223分 +12 | dongfang59 2026-03-27 | 12/600 |
|
|
[考研] 085900土木水利336分求調(diào)劑 +4 | Zhangjiangj 2026-03-31 | 6/300 |
|
|
[考研] 271求調(diào)劑 +15 | 勒布朗@ 2026-03-31 | 20/1000 |
|
|
[考研] 085600,材料與化工321分,求調(diào)劑 +13 | 大饞小子 2026-03-27 | 13/650 |
|
|
[考研] 求調(diào)劑0703 +5 | 周嘉堯 2026-03-31 | 8/400 |
|
|
[碩博家園] 考研調(diào)劑 +5 | 駱駝男人 2026-04-01 | 5/250 |
|
|
[考研] 材料調(diào)劑 +10 | Eujd1 2026-03-31 | 11/550 |
|
|
[考研] 生物學(xué)296求調(diào)劑 +10 | 湯圓包 2026-03-29 | 14/700 |
|
|
[考研] 349求調(diào)劑 +6 | zwjjjjjj 2026-03-31 | 6/300 |
|
|
[考研] 【調(diào)劑】一志愿廈大生物與醫(yī)藥調(diào)劑 +3 | Echo蝦米 2026-03-31 | 3/150 |
|
|
[考研] 一志愿西交大080500材料學(xué)碩349 +6 | jqx1258 2026-03-31 | 7/350 |
|
|
[考研] 張芳銘-中國農(nóng)業(yè)大學(xué)-環(huán)境工程專碩-298 +9 | 手機(jī)用戶 2026-03-26 | 9/450 |
|
|
[考研] 調(diào)劑求院校招收 +7 | 鶴鯨鴿 2026-03-28 | 7/350 |
|
|
[考研] 293求調(diào)劑 +3 | 末未mm 2026-03-30 | 5/250 |
|
|
[考研] 一志愿中南大學(xué)化學(xué)0703總分337求調(diào)劑 +6 | niko- 2026-03-27 | 6/300 |
|
|
[考研] 340求調(diào)劑 +6 | Amber00 2026-03-26 | 6/300 |
|
|
[考研] 305求調(diào)劑 +5 | 哇盧卡庫 2026-03-26 | 5/250 |
|
|
[考研] 315調(diào)劑 +4 | 0860求調(diào)劑 2026-03-26 | 5/250 |
|
|
[考研] 341求調(diào)劑 +7 | 青檸檬1 2026-03-26 | 7/350 |
|