| 5 | 1/1 | 返回列表 |
| 查看: 2143 | 回復: 7 | |||
| 當前只顯示滿足指定條件的回帖,點擊這里查看本話題的所有回帖 | |||
[求助]
CENTOS上安裝Torque4.0.3找不到計算節(jié)點
|
|||
|
給老板五臺服務器弄成一個集群,打算用網(wǎng)上說的Torque+maui弄一個。 安裝就是按照《曙光機群配置筆記》里說的配置,除了NFS、QUOTOA和NIS沒弄以外,SSH和MPI都配置好了。 我在兩臺筆記本hp6531s 和hp4436s上測試,6531是服務節(jié)點,4436是計算節(jié)點。版本是torque4.0.3和maui3.3.1 配置過程如下: #################### 5.Torque 和 maui 的安裝 5.1Torquer 在管理節(jié)點 node00 上的安裝 使用 root 權(quán)限 tar zxvf torque-2.4.6.tar.gz cd torque-2.4.6 ./configure -prefix=/usr/local/software/torque-2.4.6 -with-rcp=scp make make install 安裝完畢,但是需要 make packages 產(chǎn)生到計算節(jié)點安裝的文件,其中產(chǎn)生的幾個 sh 文件中最重要的是 torque-package-mom-linux-x86_64.sh 和 torque-package-clients-linux-x86_64.sh 5.2Torque 在管理節(jié)點上的配置 5.2.1 在/etc/profilie 中追加 export TORQUE=/usr/local/software/torque-2.4.6 export MAUI=/usr/local/software/maui-3.3.1 if [ "`id -u`" -eq 0 ]; then PATH=$PATH:$TORQUE/bin:$TORQUE/sbin:$MAUI/bin:$MAUI/sbin else PATH=$PATH:$TORQUE/bin:$MAUI/bin fi 這樣使得 Torque 成為每一個用戶的默認配置 其中/usr/local/software/ maui-3.3.1 是下面將要裝的 maui 的安裝目錄 5.2.2 source /etc/profile 使環(huán)境變量生效 5.2.3 為 torque 設置一個管理員,必須是普通的賬戶 在編譯安裝 Torque 的目錄里面執(zhí)行: ./torque.setup test 這樣 test 就成了 Torque 的管理員,如果不設置管理員,沒法運行 torque 5.2.4 在/var/spool/torque/server_priv/nodes 中添加計算節(jié)點的機器名, 其中 np 表示節(jié)點上可用的處 理單元數(shù),類似: node01 np=12 node02 np=12 node03 np=12 node04 np=12 node05 np=12 node06 np=12 node07 np=12 node08 np=12 node09 np=12 node10 np=12 node11 np=12 node12 np=12 5.2.5 創(chuàng)建作業(yè)隊列 設置默認隊列為 lab206 依次在命令行輸入 qmgr -c "set server scheduling=true" 確定服務器使用排隊策略 qmgr -c "create queue lab206 queue_type=execution" 創(chuàng)建隊列 lab206 qmgr -c "set queue lab206 started=true" 使 lab206 隊列中的任務可以執(zhí)行 qmgr -c "set queue lab206 enabled=true" 使 lab206 隊列能夠接受新的任務 qmgr -c " set server default_queue= lab206 " 使 lab206 隊列成為服務器的默認隊列 如果不設置默認隊列可以用: qmgr -c " set server default_queue= NONE " 5.2.6 設定 pbs_mom 服務器:/var/spool/torque/server_name 為 node00 5.2.7 設定 mom config:/var/spool/torque/mom_priv/config 為 node00 (新建立文件) 5.2.8 啟用 mom: pbs_mom 5.2.9 重新 pbs 服務器: qterm -t quick pbs_server 5.2.10 檢驗配置參數(shù) 查看隊列 qstat -q 該選項能看到剛剛創(chuàng)建的隊列,應該是一個空隊列,因為沒有任務提交 查看服務節(jié)點配置 qmgr -c 'p s' 查看計算節(jié)點 pbsnodes -a 看到 nodes 文件里面寫的節(jié)點的信息,但都處于 down 的狀態(tài),因為還沒有配置計算節(jié)點。 5.3 Torque 在計算節(jié)點上的配置 5.3.1 在/etc/profilie 中追加 export TORQUE=/usr/local/software/torque-2.4.6 if [ "`id -u`" -eq 0 ]; then PATH=$PATH:$TORQUE/bin:$TORQUE/sbin else PATH=$PATH:$TORQUE/bin fi 5.3.2 source /etc/profile 使環(huán)境變量生效 5.4 在管理節(jié)點上安裝 maui 5.4.1 安裝 tar zxvf maui-3.3.1.tar.gz cd maui-3.3.1 ./configure -prefix=/usr/local/software/maui-3.3.1 -with-pbs=/usr/local/software/torque-2.4.6 make make install 5.4.2 配置 修改/usr/local/maui/maui.cfg 文件 ADMIN1 root 5.4.3 啟動 maui: source /etc/profile 使剛才的設置重新生效 maui maui 只需在服務節(jié)點上安裝,計算節(jié)點上不必安裝 5.5 計算節(jié)點上安裝 torque 利用剛才生成的那兩個重要的 sh 文件, 將這兩個文件拷貝到 /home 下,然后,到各個計算節(jié)點上執(zhí)行 torque-package-clients-linux-x86_64.sh --install torque-package-mom-linux-x86_64.sh --install 5.6 計算節(jié)點上的配置 在各個計算節(jié)點創(chuàng)建文件/var/spool/torque/mom_priv/config,內(nèi)容如下: $pbsserver node00 $logevent 255 $usecp node00: /home /home 并且在各個計算節(jié)點上將 /usr/local/software/torque-2.4.6/sbin/pbs_mom 寫入/etc/init.d/after.local (新建) 并且修改權(quán)限 chmod 755 /etc/init.d/after.local 然后運行 /usr/local/software/torque-2.4.6/sbin/pbs_mom 這個時候到 node00 上運行 pbsnodes 就會看到所有的機器都啟動了 這個時候回到 node00 上將下列內(nèi)容添加到/etc/init.d/after.local /usr/local/software/torque-2.4.6/sbin/pbs_server /usr/local/software/maui-3.3.1/sbin/maui chmod 755 /etc/init.d/after.local ######################## 現(xiàn)在問題來了, 但是按照《曙》一文配置好了以后,pbsnodes命令顯示計算節(jié)點stat:down。但是ssh可以無密碼鏈接,也能ping通。 我又在計算節(jié)點上重新整體安裝了torque以后,只啟動pbs_mom,按照《曙》一文配置以后pbsnodes依然找不到計算節(jié)點。 并且主機上的提交的任務,沒有進行排序,而是直接被掛了起來,qstat -a 顯示 stat: Q。必須qrun強制執(zhí)行才能跑,不能進行排隊。這是因為還需要進行額外設置嗎? 已經(jīng)被折磨了一星期了,求解! |
寶貝 |
木蟲 (著名寫手)
|
在管理節(jié)點檢查: ps -A |grep pbs 看是否能夠出來一個pbs_server的進程 ps -A |grep maui 看是否能夠出來一個maui的進程 然后到計算節(jié)點 ps -A |grep pbs 看能否出來一個叫pbs_mom的進程 如果都有的話,在你安裝都沒有出錯的前提下,那應該就是Torque和Maui沒有交流。不清楚是不是這兩個版本匹配不好。 |

金蟲 (小有名氣)
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 307求調(diào)劑 +10 | 超級伊昂大王 2026-03-24 | 11/550 |
|
|---|---|---|---|---|
|
[考研] 367求調(diào)劑 +3 | 芋泥啵! 2026-03-28 | 3/150 |
|
|
[考研] 070300一志愿211,312分求調(diào)劑院校 +4 | 小黃鴨寶 2026-03-30 | 4/200 |
|
|
[考研] 311求調(diào)劑 +10 | lin0039 2026-03-26 | 10/500 |
|
|
[考研] 085404求調(diào)劑,總分309,本科經(jīng)歷較為豐富 +6 | 來財aa 2026-03-25 | 6/300 |
|
|
[考研] 材料與化工328分調(diào)劑 +9 | 。,。,。,。i 2026-03-23 | 9/450 |
|
|
[考研]
|
nnnnnnn5 2026-03-25 | 11/550 |
|
|
[考研] 289求調(diào)劑 +5 | BrightLL 2026-03-29 | 5/250 |
|
|
[考研] 340求調(diào)劑 +6 | Amber00 2026-03-26 | 6/300 |
|
|
[考研] 315求調(diào)劑 +4 | akie... 2026-03-28 | 5/250 |
|
|
[考研] 本科新能源科學與工程,一志愿華理能動285求調(diào)劑 +7 | AZMK 2026-03-28 | 11/550 |
|
|
[考研] 320分,材料與化工專業(yè),求調(diào)劑 +9 | 一定上岸aaa 2026-03-27 | 13/650 |
|
|
[有機交流]
高溫高壓反應求助
10+4
|
chibby 2026-03-25 | 4/200 |
|
|
[考研] 一志愿上海理工能源動力(085800)310分求調(diào)劑 +3 | zhangmingc 2026-03-27 | 4/200 |
|
|
[考研] 342求調(diào)劑 +3 | 加油a李zs 2026-03-26 | 3/150 |
|
|
[考研] 0703化學求調(diào)劑 +3 | 丹青奶蓋 2026-03-26 | 5/250 |
|
|
[考研] 07化學303求調(diào)劑 +5 | 睿08 2026-03-25 | 5/250 |
|
|
[考研] 318求調(diào)劑 +3 | plum李子 2026-03-23 | 3/150 |
|
|
[考研]
|
黃粱一夢千年 2026-03-24 | 3/150 |
|
|
[考研] 292求調(diào)劑 +4 | 鵝鵝鵝額額額額?/a> 2026-03-24 | 4/200 |
|