| 查看: 5790 | 回復(fù): 16 | ||||||
walkera金蟲 (初入文壇)
|
[交流]
Linux集群rocks的安裝和SGE管理調(diào)度MS5.5作業(yè) 已有10人參與
|
|||||
|
很多人在討論集群和MS的安裝以及作業(yè)調(diào)度系統(tǒng)的設(shè)置。這里給一個我的設(shè)置,供參考。 第一部分 集群的安裝 推薦大家使用Rocks進(jìn)行安裝。下載地址 http://www.rocksclusters.org/wordpress/?page_id=400 這是2012年5月9日放出的最新版本(開發(fā)代號Mamba,也就是非洲的曼巴蛇)。該集群安裝軟件基于最新的linux CentOS 6.2,它和RHEL 6.2完全等價,同時也是免費的。 DVD鏡像文件大小2.5GB?啼洺蒁VD就可以了。放入DVD安裝盤,啟動機器后,在第一個畫面鍵入 build 然后根據(jù)提示,進(jìn)行簡單的設(shè)置和選擇,就可以安裝。網(wǎng)上也有很多介紹,可以參閱。 以安裝ROCKS 6.0 x86_64為例,安裝時至少選擇kernel(內(nèi)核),base(基礎(chǔ))和OS(操作系統(tǒng),也就是CentOS 6.2) 這三個包(或者稱roll,卷)。建議再選上ganglia卷(集群運行狀態(tài)監(jiān)控包)和SGE卷(Sun Grid Engine, 也就是SUN公司的任務(wù)調(diào)度系統(tǒng),因為SUN已經(jīng)被甲骨文ORACLE公司收購,現(xiàn)在已經(jīng)更名為OGE)。 安裝過程非常簡單,只要按照安裝指南(官網(wǎng)有下載的)進(jìn)行就可以。主節(jié)點要求含2個網(wǎng)卡(但是現(xiàn)在這個最新的版本已經(jīng)不是必須的,可以只有單網(wǎng)卡,個人認(rèn)為還是雙網(wǎng)卡方便),分別鏈接內(nèi)網(wǎng)(和計算節(jié)點相連)和外網(wǎng)(和你的windows電腦連接),內(nèi)網(wǎng)的IP地址取默認(rèn)值(10.1.1.1)就行(隨便修改也沒有問題),外網(wǎng)地址則和你的windows機器在同一網(wǎng)段,方便登錄。 注意到一點就是前端機的機器名必須是合格的全稱(類似于互聯(lián)網(wǎng)上的網(wǎng)址,域名)。 上面是前端機(frontend)的安裝,計算節(jié)點的安裝非常簡單,只要在windows機器上使用遠(yuǎn)程登錄方法(推薦使用SSH Client)進(jìn)入前端機,在根用戶下,鍵入 # insert-ethers 出現(xiàn)一個畫面后,再敲一下回車(也就是連續(xù)2次回車)。 按后將你需要安裝的計算節(jié)點,與前端機的內(nèi)網(wǎng)卡連接到同一個交換機上,這里分2種情況: 1 將計算節(jié)點設(shè)置成網(wǎng)絡(luò)啟動(PXE,主板自帶網(wǎng)卡的機器都支持這個功能),PXE啟動機器,然后前端機會自動找到這臺機器,然后安裝操作系統(tǒng)。 2 如果主板沒有內(nèi)置網(wǎng)卡或者內(nèi)置的網(wǎng)卡是百兆網(wǎng)卡,則建議使用額外接入的千兆網(wǎng)卡(速度快點總是沒錯的)。如果是外接的網(wǎng)卡,一般卡上沒有ROM塊(可以看到絕大多數(shù)的網(wǎng)卡電路板上有個很大的插槽,并且絕大多數(shù)是空的,我印象中沒有看見過不空的),不能做到網(wǎng)絡(luò)PXE啟動,只好設(shè)置成cdrom啟動(內(nèi)置或者外置USB光驅(qū)都可以),然后將那張rocks DVD放入,光盤啟動機器,直接回車也可以,或者不需要敲任何鍵只是干等也行,機器很快會被前端機發(fā)現(xiàn),然后自動安裝操作系統(tǒng)。 更詳細(xì)的方法,請參考官網(wǎng)的指南(這個指南幾乎是手把手地指導(dǎo)如何安裝集群)。 安裝完成后,可以在你與前端機相連的windows機器的瀏覽器(IE或者firefox等)上,鍵入 http://IP-address/ganglia/ 這里的IP-address就是你安裝前端機時給的IP地址(外網(wǎng)地址)。這時候就可以看到你的集群所有節(jié)點的運行情況(必須選擇ganglia安裝卷才有這樣的功能哦,非常好的一個功能)。 這時候,集群就已經(jīng)建立好了。 第二部分 MS的安裝 1 上面的rocks 6.0安裝完成后,有些安裝MS時需要的庫文件默認(rèn)沒有安裝,因此先將幾個庫文件安裝。(這些庫文件的安裝在前端機上是必須的,但是在計算節(jié)點上,如果不安裝,我暫時也沒有發(fā)現(xiàn)問題) 其中l(wèi)ibstdc++.so.6復(fù)制到/usr/lib/下,libgcc….rpm(只需要i686版本,而x86-64版本的庫文件在前面的系統(tǒng)安裝過程中已經(jīng)默認(rèn)安裝)和compat-libstdc++….rpm(i686和x86_64版本均安裝)。 # cp libstdc++.so.6 /usr/lib/ # rpm -ivh libgcc-4.4.6-3.el6.i686.rpm # rpm -ivh compat-libstdc++-33-3.2.3-69.el6.i686.rpm # rpm -ivh compat-libstdc++-33-3.2.3-69.el6.x86_64.rpm 以上文件中,第一個文件libstdc++.so.6可以在已經(jīng)安裝過linux的 /usr/lib中找到,后3個rpm文件在ROCKS 6.0安裝光盤找到,然后把它們復(fù)制出來就可以了(有點奇怪的是它們?yōu)樯恫粫诎惭b集群時自動安裝呢)。 2 hpmpi的安裝,注意,它一定要在前端機和每一個計算節(jié)點上安裝,否則機器肯定出錯。在前端機上的安裝,必須在安裝MS之前完成。 # rpm -ivh hpmpi-2.03.01.00-20090402r.x86_64.rpm 這個文件在MS的安裝包中可以找到。 3 MS5.5的安裝 登錄前端機,添加一個普通用戶(和密碼),然后鍵入命令 # rocks sync users 注意,上面這個命令一定要運行一次。 接下來就可以用這個新加的普通用戶登錄并進(jìn)行MS的安裝。以下是以普通用戶身份安裝。 可以參考網(wǎng)上的介紹,使用命令: $ …/UNIX/Install --type cluster 進(jìn)行安裝,基本可以使用默認(rèn)的設(shè)置,如默認(rèn)的文件夾,和使用SSH等,臨時文件地址選擇/tmp. 安裝的license文件中的機器名也應(yīng)該是你上面給出的全稱(可以用hostname查看你的前端機的機器名)。 修改~/Accelrys/MaterialsStudio55/share/data/下的machine.LINUX文件加上 compute-0-0:n compute-0-1:n compute-0-2:n … 這里的compute-0-0就是計算節(jié)點名,n是每個節(jié)點可以提供的cpu(線程)數(shù)(現(xiàn)在一般為4或者8)。 修改../../Gateway/root_default/dsd/conf/下的2個文件gw-info.sbd和gwparams.cfg文件中的cputotal數(shù),注意這個數(shù)要不大于machine.LINUX文件中給的CPU線程總數(shù)。 這時候集群已經(jīng)可以運行MS了。但是如果需要作業(yè)調(diào)度,則進(jìn)行SGE設(shè)置。 第三部分SGE的設(shè)置 注意SGE必須在安裝前端機的同時選擇安裝。如果安裝好前端機后,再安裝SGE,ROCKS的官方手冊上明確指出是不行的。SGE在各個計算節(jié)點的配置,已經(jīng)隨著節(jié)點的安裝就完成了。 SGE可以用于MS5.5的作業(yè)調(diào)度,默認(rèn)在安裝rocks的時候已經(jīng)建立一個名為all.q的隊列。 設(shè)置SGE一定是根用戶,或者先以根用戶指定一個普通用戶為管理員才有資格。首先修改all.q中的shell相關(guān)的參數(shù),將其中的第一個sh改成bash (因為rocks默認(rèn)使用bash,但是SGE默認(rèn)使用csh),使用命令: # qconf –mq all.q 然后用上下鍵找一下,和一般的LINUX文本編輯vi一樣操作,按一下小寫字母i即可開始編輯了。All.q的配置內(nèi)容很豐富,可以用上面的命令運行后,編輯修改很多參數(shù),例如可以指定提交的用戶,cpu數(shù)包括每個計算節(jié)點供應(yīng)的cpu數(shù)等。 當(dāng)然,我們也可以建立另外的隊列,用戶組和用戶,然后進(jìn)行配置。還是不要自找麻煩吧,就用這個默認(rèn)的就行了。 然后修改SGE的默認(rèn)配置文件conf # qconf –mconf (同上操作) 也將其中的shell從默認(rèn)的csh改成bash 如果直接將安裝MS的用戶的shell改成csh(修改/etc/passwd文件中的相應(yīng)用戶參數(shù)),估計就不用修改這里的shell了,但是我沒有測試。 至此配置完成,可以使用qstat/qstat -Q/qstat -q/qstat -f等命令查看隊列狀態(tài)。(和torque差不多) 配置MS網(wǎng)關(guān) 假設(shè)MS安裝在默認(rèn)位置,設(shè)置使用SGE管理作業(yè): $ cd ~/Accelrys/MaterialsStudio55/etc/Gateway/config/ ./configure queue -queuepath SGE/dsd_sge –activate 運行成功后,我們發(fā)現(xiàn)在../../Gateway/root_default/dsd/conf/下的文件gw-info.sbd中的原來的 queuingsystem=[NONE] 已經(jīng)自動修改成 Queuingsystem=Sun Grid Engine 6.2u5 在gwparams.cfg文件中,可以設(shè)置參數(shù) gw_queuingsystem=SGE 不過如果不設(shè)置,好像也沒有什么問題。 然后重啟網(wǎng)關(guān) $ cd ~/Accelrys/MaterialsStudio55/etc/Gateway $ ./msgateway_control_18888 restart Windows下的設(shè)置: 在Sever Console下刷新服務(wù)器,確認(rèn)服務(wù)器屬性中的queue里有all.q隊列。在提交計算任務(wù)里的queue選上all.q,就可以運行或者排隊等待了. 因為SGE是按照均衡負(fù)載的原則安排cpu的使用的。假如,集群中有10個節(jié)點(每一個節(jié)點提供8個線程)可以供MS使用,而提交作業(yè)選中20個cpu(線程),則每個節(jié)點將分擔(dān)2個cpu(線程)的計算任務(wù)(按照公平原則),如果選中25個CPU,則將是5個節(jié)點各承擔(dān)3個CPU,另外5個節(jié)點承擔(dān)2個CPU,以此類推。如果需要的CPU數(shù)小于可用數(shù),則這個作業(yè)掛起(稱為queued and waiting, 使用命令qstat –f,可以看到該作業(yè)的狀態(tài)是 qw),排隊等待前面的任務(wù)完成后,騰出足夠使用的CPU,才能進(jìn)入運行狀態(tài)。因此,這里要求機器是均構(gòu)的,也就是每個節(jié)點的cpu和內(nèi)存等是一樣的(大家跑得一樣快),否則所有機器的運行速度都和最慢的那臺一樣,造成資源浪費。 通過SGE提交用于計算的節(jié)點可以和MS的機器配置文件machine.LINUX文件中的機器列表沒有任何關(guān)系,僅僅要求線程數(shù)不大于machine.LINUX中給的總線程數(shù)。 在rocks的安裝包還有一個condor卷,具有可以配合SGE進(jìn)行高級配置的功能(類似于PBS中的toruqe + maui),但網(wǎng)上的介紹很少,有待學(xué)習(xí)。 關(guān)于SGE的設(shè)置,參考了小木蟲上網(wǎng)友veryman關(guān)于PBS(torque)設(shè)置的帖子,在此表示感謝。 我們使用rocks,可以非常方便地完成集群的建立,同時SGE的設(shè)置也跟隨建立集群的過程中,直接完成配置,我們做的就是稍微修改幾行配置文件(增減了幾個字母而已)。而對于計算節(jié)點,除了安裝hpmpi以外,也可以不需要進(jìn)行其他設(shè)置了。 這里也可以看到,SGE的作業(yè)調(diào)度設(shè)置要遠(yuǎn)比PBS(torque)的設(shè)置簡單。更重要的是,有帖子指出,新版本的MS不支持torque了。Accelrys公司官網(wǎng)指出:There is no official support for TORQUE in Materials Studio。從MS的幫助文件中可以看到,MS5.5是支持SGE的(好像只支持PBS pro, LSF和SGE三種),因此使用SGE,就是和MS官方保持一致了。而對于torque的安裝,Accelrys公司官方給了一個補丁:https://community.accelrys.com/message/6992#6992。因此,想繼續(xù)使用torque的網(wǎng)友也沒有問題了,參照著設(shè)置一下,而且這個設(shè)置支持最新的MS5.5和MS6.0。 聲明,我是上月才開始鼓搗SGE的,因此很多設(shè)置也沒搞明白,也在學(xué)習(xí)中,希望獲得更多幫助。SGE的使用和簡單說明可以在網(wǎng)上找,甲骨文公司的官網(wǎng)上也有相應(yīng)的文檔可以看。 還有一點,安裝MS4.3好像另外需要libstdc++.so.5庫文件,我試驗了一次,沒有成功安裝MS4.3。也許是因為我們的LINUX版本太高了,呵呵。centos6.2的內(nèi)核版本號:2.6.32-220.13.1.e16.x86_64, 2011年12月才出,目前沒有更新的版本放出。如有需要,可以到www.centos.org上免費下載幾乎所有版本的LINUX,它和RHEL的各種版本是一一對應(yīng)的,例如centos 6.2等于RHEL 6.2。而MS 6.0版本的RHEL最高支持到6.1版本。 同時在這里感謝蟲友shxincui518的幫助。 如果這個帖子對大家有幫助,我將非常高興。 [ Last edited by walkera on 2012-5-24 at 10:54 ] |
第一原理資料匯編 | Materials Modeling | PBS作業(yè)排隊系統(tǒng) |
|
本帖內(nèi)容被屏蔽 |
鐵桿木蟲 (正式寫手)
金蟲 (初入文壇)
|
在網(wǎng)上可以找到關(guān)于SGE使用的一些資料 可以使用命令qconf配置隊列和執(zhí)行任務(wù)主機組 將一組機器設(shè)為一個主機組(group) qconf -ahgroup @q1hosts 然后在里面列出需要加入的主機 qconf -aq q1.q 然后將里面的執(zhí)行主機隊列hosts_list列為@q1hosts,在slots屬性中列出每臺主機提供的CPU數(shù),在users_list屬性中指定可以執(zhí)行此操作的用戶,在xuser_list還可以指定不許使用此隊列的用戶名 在MS提交作業(yè)時選擇這個隊列,就可以限制個規(guī)定作業(yè)的提交執(zhí)行機器 |
金蟲 (初入文壇)
木蟲 (小有名氣)
木蟲 (小有名氣)
金蟲 (著名寫手)

木蟲 (正式寫手)
送鮮花一朵 |
本帖內(nèi)容被屏蔽 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 268求調(diào)劑 +3 | 簡單點0 2026-03-17 | 3/150 |
|
|---|---|---|---|---|
|
[考研] 301求調(diào)劑 +4 | A_JiXing 2026-03-16 | 4/200 |
|
|
[考研] 考研化學(xué)學(xué)碩調(diào)劑,一志愿985 +4 | 張vvvv 2026-03-15 | 6/300 |
|
|
[考研] 求調(diào)劑,總分315,考的生物醫(yī)藥,一志愿湖南師范大學(xué)。調(diào)劑到任何專業(yè)都可以 +4 | 小丁想進(jìn)步 2026-03-11 | 5/250 |
|
|
[考研] 290求調(diào)劑 +6 | 孔志浩 2026-03-12 | 11/550 |
|
|
[考研] [導(dǎo)師推薦]西南科技大學(xué)國防/材料導(dǎo)師推薦 +3 | 尖角小荷 2026-03-16 | 6/300 |
|
|
[考研] 070303一志愿西北大學(xué)學(xué)碩310找調(diào)劑 +5 | d如愿上岸 2026-03-12 | 8/400 |
|
|
[考研] 0856求調(diào)劑 +3 | 劉夢微 2026-03-15 | 3/150 |
|
|
[考研] 求老師收留調(diào)劑 +4 | jiang姜66 2026-03-14 | 5/250 |
|
|
[考博] 東華理工大學(xué)化材專業(yè)26屆碩士博士申請 +6 | zlingli 2026-03-13 | 6/300 |
|
|
[考研] 0856專碩279求調(diào)劑 +5 | 加油加油!? 2026-03-15 | 5/250 |
|
|
[考研] 【0703化學(xué)調(diào)劑】-一志愿華中師范大學(xué)-六級475 +5 | Becho359 2026-03-11 | 5/250 |
|
|
[考研] 304求調(diào)劑 +6 | Mochaaaa 2026-03-12 | 7/350 |
|
|
[考研] 求調(diào)劑(材料與化工327) +4 | 愛吃香菜啦 2026-03-11 | 4/200 |
|
|
[考研] 工科,求調(diào)劑 +3 | 我887 2026-03-11 | 3/150 |
|
|
[考研] 333求調(diào)劑 +3 | 球球古力 2026-03-11 | 3/150 |
|
|
[考研] 281求調(diào)劑 +9 | Koxui 2026-03-12 | 11/550 |
|
|
[考研] 材料專碩350 求調(diào)劑 +4 | 王金科 2026-03-12 | 4/200 |
|
|
[考研] 工科278分求調(diào)劑 +5 | 周慢熱啊 2026-03-12 | 7/350 |
|
|
[考研] 085600材料與化工 309分請求調(diào)劑 +7 | dtdxzxx 2026-03-12 | 8/400 |
|