| 5 | 1/1 | 返回列表 |
| 查看: 2146 | 回復: 7 | |||
| 當前只顯示滿足指定條件的回帖,點擊這里查看本話題的所有回帖 | |||
[求助]
CENTOS上安裝Torque4.0.3找不到計算節(jié)點
|
|||
|
給老板五臺服務器弄成一個集群,打算用網(wǎng)上說的Torque+maui弄一個。 安裝就是按照《曙光機群配置筆記》里說的配置,除了NFS、QUOTOA和NIS沒弄以外,SSH和MPI都配置好了。 我在兩臺筆記本hp6531s 和hp4436s上測試,6531是服務節(jié)點,4436是計算節(jié)點。版本是torque4.0.3和maui3.3.1 配置過程如下: #################### 5.Torque 和 maui 的安裝 5.1Torquer 在管理節(jié)點 node00 上的安裝 使用 root 權限 tar zxvf torque-2.4.6.tar.gz cd torque-2.4.6 ./configure -prefix=/usr/local/software/torque-2.4.6 -with-rcp=scp make make install 安裝完畢,但是需要 make packages 產(chǎn)生到計算節(jié)點安裝的文件,其中產(chǎn)生的幾個 sh 文件中最重要的是 torque-package-mom-linux-x86_64.sh 和 torque-package-clients-linux-x86_64.sh 5.2Torque 在管理節(jié)點上的配置 5.2.1 在/etc/profilie 中追加 export TORQUE=/usr/local/software/torque-2.4.6 export MAUI=/usr/local/software/maui-3.3.1 if [ "`id -u`" -eq 0 ]; then PATH=$PATH:$TORQUE/bin:$TORQUE/sbin:$MAUI/bin:$MAUI/sbin else PATH=$PATH:$TORQUE/bin:$MAUI/bin fi 這樣使得 Torque 成為每一個用戶的默認配置 其中/usr/local/software/ maui-3.3.1 是下面將要裝的 maui 的安裝目錄 5.2.2 source /etc/profile 使環(huán)境變量生效 5.2.3 為 torque 設置一個管理員,必須是普通的賬戶 在編譯安裝 Torque 的目錄里面執(zhí)行: ./torque.setup test 這樣 test 就成了 Torque 的管理員,如果不設置管理員,沒法運行 torque 5.2.4 在/var/spool/torque/server_priv/nodes 中添加計算節(jié)點的機器名, 其中 np 表示節(jié)點上可用的處 理單元數(shù),類似: node01 np=12 node02 np=12 node03 np=12 node04 np=12 node05 np=12 node06 np=12 node07 np=12 node08 np=12 node09 np=12 node10 np=12 node11 np=12 node12 np=12 5.2.5 創(chuàng)建作業(yè)隊列 設置默認隊列為 lab206 依次在命令行輸入 qmgr -c "set server scheduling=true" 確定服務器使用排隊策略 qmgr -c "create queue lab206 queue_type=execution" 創(chuàng)建隊列 lab206 qmgr -c "set queue lab206 started=true" 使 lab206 隊列中的任務可以執(zhí)行 qmgr -c "set queue lab206 enabled=true" 使 lab206 隊列能夠接受新的任務 qmgr -c " set server default_queue= lab206 " 使 lab206 隊列成為服務器的默認隊列 如果不設置默認隊列可以用: qmgr -c " set server default_queue= NONE " 5.2.6 設定 pbs_mom 服務器:/var/spool/torque/server_name 為 node00 5.2.7 設定 mom config:/var/spool/torque/mom_priv/config 為 node00 (新建立文件) 5.2.8 啟用 mom: pbs_mom 5.2.9 重新 pbs 服務器: qterm -t quick pbs_server 5.2.10 檢驗配置參數(shù) 查看隊列 qstat -q 該選項能看到剛剛創(chuàng)建的隊列,應該是一個空隊列,因為沒有任務提交 查看服務節(jié)點配置 qmgr -c 'p s' 查看計算節(jié)點 pbsnodes -a 看到 nodes 文件里面寫的節(jié)點的信息,但都處于 down 的狀態(tài),因為還沒有配置計算節(jié)點。 5.3 Torque 在計算節(jié)點上的配置 5.3.1 在/etc/profilie 中追加 export TORQUE=/usr/local/software/torque-2.4.6 if [ "`id -u`" -eq 0 ]; then PATH=$PATH:$TORQUE/bin:$TORQUE/sbin else PATH=$PATH:$TORQUE/bin fi 5.3.2 source /etc/profile 使環(huán)境變量生效 5.4 在管理節(jié)點上安裝 maui 5.4.1 安裝 tar zxvf maui-3.3.1.tar.gz cd maui-3.3.1 ./configure -prefix=/usr/local/software/maui-3.3.1 -with-pbs=/usr/local/software/torque-2.4.6 make make install 5.4.2 配置 修改/usr/local/maui/maui.cfg 文件 ADMIN1 root 5.4.3 啟動 maui: source /etc/profile 使剛才的設置重新生效 maui maui 只需在服務節(jié)點上安裝,計算節(jié)點上不必安裝 5.5 計算節(jié)點上安裝 torque 利用剛才生成的那兩個重要的 sh 文件, 將這兩個文件拷貝到 /home 下,然后,到各個計算節(jié)點上執(zhí)行 torque-package-clients-linux-x86_64.sh --install torque-package-mom-linux-x86_64.sh --install 5.6 計算節(jié)點上的配置 在各個計算節(jié)點創(chuàng)建文件/var/spool/torque/mom_priv/config,內容如下: $pbsserver node00 $logevent 255 $usecp node00: /home /home 并且在各個計算節(jié)點上將 /usr/local/software/torque-2.4.6/sbin/pbs_mom 寫入/etc/init.d/after.local (新建) 并且修改權限 chmod 755 /etc/init.d/after.local 然后運行 /usr/local/software/torque-2.4.6/sbin/pbs_mom 這個時候到 node00 上運行 pbsnodes 就會看到所有的機器都啟動了 這個時候回到 node00 上將下列內容添加到/etc/init.d/after.local /usr/local/software/torque-2.4.6/sbin/pbs_server /usr/local/software/maui-3.3.1/sbin/maui chmod 755 /etc/init.d/after.local ######################## 現(xiàn)在問題來了, 但是按照《曙》一文配置好了以后,pbsnodes命令顯示計算節(jié)點stat:down。但是ssh可以無密碼鏈接,也能ping通。 我又在計算節(jié)點上重新整體安裝了torque以后,只啟動pbs_mom,按照《曙》一文配置以后pbsnodes依然找不到計算節(jié)點。 并且主機上的提交的任務,沒有進行排序,而是直接被掛了起來,qstat -a 顯示 stat: Q。必須qrun強制執(zhí)行才能跑,不能進行排隊。這是因為還需要進行額外設置嗎? 已經(jīng)被折磨了一星期了,求解啊! |
寶貝 |
金蟲 (小有名氣)
木蟲 (著名寫手)
|
在管理節(jié)點檢查: ps -A |grep pbs 看是否能夠出來一個pbs_server的進程 ps -A |grep maui 看是否能夠出來一個maui的進程 然后到計算節(jié)點 ps -A |grep pbs 看能否出來一個叫pbs_mom的進程 如果都有的話,在你安裝都沒有出錯的前提下,那應該就是Torque和Maui沒有交流。不清楚是不是這兩個版本匹配不好。 |

| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 347求調劑 +4 | 山頂見α 2026-03-25 | 4/200 |
|
|---|---|---|---|---|
|
[考研] 311求調劑一志愿合肥工業(yè)大學 +5 | 秋二十二 2026-03-30 | 5/250 |
|
|
[考研] 一志愿 南京航空航天大學 ,080500材料科學與工程學碩 +4 | @taotao 2026-03-30 | 4/200 |
|
|
[考研] 085600材料與化工調劑 +15 | kikiki7 2026-03-30 | 15/750 |
|
|
[考研] 085600 295分求調劑 +7 | W55j 2026-03-30 | 9/450 |
|
|
[考研] 生物學 296 求調劑 +5 | 朵朵- 2026-03-26 | 7/350 |
|
|
[考研] 一志愿鄭州大學,080500學碩,總分317分求調劑 +10 | 舉個栗子oi 2026-03-24 | 11/550 |
|
|
[考研] 化學0703 調劑 306分 一志愿211 +8 | 26要上岸 2026-03-28 | 8/400 |
|
|
[碩博家園] 求調劑 有機化學考研356分 +10 | Nadiums 2026-03-25 | 11/550 |
|
|
[考研] 一志愿中南大學化學0703總分337求調劑 +6 | niko- 2026-03-27 | 6/300 |
|
|
[考研] 298求調劑 +3 | 種圣賜 2026-03-29 | 3/150 |
|
|
[考研] 0703化學調劑,求導師收 +9 | 天天好運來上岸?/a> 2026-03-24 | 10/500 |
|
|
[考研] 316求調劑 +7 | 江辭666 2026-03-26 | 7/350 |
|
|
[考研] 311(085601)求調劑 +4 | liziyeyeye 2026-03-28 | 4/200 |
|
|
[考研] 壓國家一區(qū)線,求導師收留,有恩必謝! +7 | 迷人的哈哈 2026-03-28 | 7/350 |
|
|
[考研] 070300求調劑306分 +4 | 26要上岸 2026-03-27 | 4/200 |
|
|
[考研] 一志愿211院校 344分 東北農(nóng)業(yè)大學生物學學碩,求調劑 +5 | 丶風雪夜歸人丶 2026-03-26 | 8/400 |
|
|
[考研] 化學調劑 +4 | 愛吃番茄的旭 2026-03-24 | 5/250 |
|
|
[考研] 272求調劑 +7 | 腳滑的守法公民 2026-03-27 | 7/350 |
|
|
[考研] 085601求調劑總分293英一數(shù)二 +4 | 鋼鐵大炮 2026-03-24 | 4/200 |
|