| 查看: 5785 | 回復(fù): 16 | ||||||
walkera金蟲 (初入文壇)
|
[交流]
Linux集群rocks的安裝和SGE管理調(diào)度MS5.5作業(yè) 已有10人參與
|
|||||
|
很多人在討論集群和MS的安裝以及作業(yè)調(diào)度系統(tǒng)的設(shè)置。這里給一個(gè)我的設(shè)置,供參考。 第一部分 集群的安裝 推薦大家使用Rocks進(jìn)行安裝。下載地址 http://www.rocksclusters.org/wordpress/?page_id=400 這是2012年5月9日放出的最新版本(開發(fā)代號(hào)Mamba,也就是非洲的曼巴蛇)。該集群安裝軟件基于最新的linux CentOS 6.2,它和RHEL 6.2完全等價(jià),同時(shí)也是免費(fèi)的。 DVD鏡像文件大小2.5GB?啼洺蒁VD就可以了。放入DVD安裝盤,啟動(dòng)機(jī)器后,在第一個(gè)畫面鍵入 build 然后根據(jù)提示,進(jìn)行簡(jiǎn)單的設(shè)置和選擇,就可以安裝。網(wǎng)上也有很多介紹,可以參閱。 以安裝ROCKS 6.0 x86_64為例,安裝時(shí)至少選擇kernel(內(nèi)核),base(基礎(chǔ))和OS(操作系統(tǒng),也就是CentOS 6.2) 這三個(gè)包(或者稱roll,卷)。建議再選上ganglia卷(集群運(yùn)行狀態(tài)監(jiān)控包)和SGE卷(Sun Grid Engine, 也就是SUN公司的任務(wù)調(diào)度系統(tǒng),因?yàn)镾UN已經(jīng)被甲骨文ORACLE公司收購(gòu),現(xiàn)在已經(jīng)更名為OGE)。 安裝過程非常簡(jiǎn)單,只要按照安裝指南(官網(wǎng)有下載的)進(jìn)行就可以。主節(jié)點(diǎn)要求含2個(gè)網(wǎng)卡(但是現(xiàn)在這個(gè)最新的版本已經(jīng)不是必須的,可以只有單網(wǎng)卡,個(gè)人認(rèn)為還是雙網(wǎng)卡方便),分別鏈接內(nèi)網(wǎng)(和計(jì)算節(jié)點(diǎn)相連)和外網(wǎng)(和你的windows電腦連接),內(nèi)網(wǎng)的IP地址取默認(rèn)值(10.1.1.1)就行(隨便修改也沒有問題),外網(wǎng)地址則和你的windows機(jī)器在同一網(wǎng)段,方便登錄。 注意到一點(diǎn)就是前端機(jī)的機(jī)器名必須是合格的全稱(類似于互聯(lián)網(wǎng)上的網(wǎng)址,域名)。 上面是前端機(jī)(frontend)的安裝,計(jì)算節(jié)點(diǎn)的安裝非常簡(jiǎn)單,只要在windows機(jī)器上使用遠(yuǎn)程登錄方法(推薦使用SSH Client)進(jìn)入前端機(jī),在根用戶下,鍵入 # insert-ethers 出現(xiàn)一個(gè)畫面后,再敲一下回車(也就是連續(xù)2次回車)。 按后將你需要安裝的計(jì)算節(jié)點(diǎn),與前端機(jī)的內(nèi)網(wǎng)卡連接到同一個(gè)交換機(jī)上,這里分2種情況: 1 將計(jì)算節(jié)點(diǎn)設(shè)置成網(wǎng)絡(luò)啟動(dòng)(PXE,主板自帶網(wǎng)卡的機(jī)器都支持這個(gè)功能),PXE啟動(dòng)機(jī)器,然后前端機(jī)會(huì)自動(dòng)找到這臺(tái)機(jī)器,然后安裝操作系統(tǒng)。 2 如果主板沒有內(nèi)置網(wǎng)卡或者內(nèi)置的網(wǎng)卡是百兆網(wǎng)卡,則建議使用額外接入的千兆網(wǎng)卡(速度快點(diǎn)總是沒錯(cuò)的)。如果是外接的網(wǎng)卡,一般卡上沒有ROM塊(可以看到絕大多數(shù)的網(wǎng)卡電路板上有個(gè)很大的插槽,并且絕大多數(shù)是空的,我印象中沒有看見過不空的),不能做到網(wǎng)絡(luò)PXE啟動(dòng),只好設(shè)置成cdrom啟動(dòng)(內(nèi)置或者外置USB光驅(qū)都可以),然后將那張rocks DVD放入,光盤啟動(dòng)機(jī)器,直接回車也可以,或者不需要敲任何鍵只是干等也行,機(jī)器很快會(huì)被前端機(jī)發(fā)現(xiàn),然后自動(dòng)安裝操作系統(tǒng)。 更詳細(xì)的方法,請(qǐng)參考官網(wǎng)的指南(這個(gè)指南幾乎是手把手地指導(dǎo)如何安裝集群)。 安裝完成后,可以在你與前端機(jī)相連的windows機(jī)器的瀏覽器(IE或者firefox等)上,鍵入 http://IP-address/ganglia/ 這里的IP-address就是你安裝前端機(jī)時(shí)給的IP地址(外網(wǎng)地址)。這時(shí)候就可以看到你的集群所有節(jié)點(diǎn)的運(yùn)行情況(必須選擇ganglia安裝卷才有這樣的功能哦,非常好的一個(gè)功能)。 這時(shí)候,集群就已經(jīng)建立好了。 第二部分 MS的安裝 1 上面的rocks 6.0安裝完成后,有些安裝MS時(shí)需要的庫(kù)文件默認(rèn)沒有安裝,因此先將幾個(gè)庫(kù)文件安裝。(這些庫(kù)文件的安裝在前端機(jī)上是必須的,但是在計(jì)算節(jié)點(diǎn)上,如果不安裝,我暫時(shí)也沒有發(fā)現(xiàn)問題) 其中l(wèi)ibstdc++.so.6復(fù)制到/usr/lib/下,libgcc….rpm(只需要i686版本,而x86-64版本的庫(kù)文件在前面的系統(tǒng)安裝過程中已經(jīng)默認(rèn)安裝)和compat-libstdc++….rpm(i686和x86_64版本均安裝)。 # cp libstdc++.so.6 /usr/lib/ # rpm -ivh libgcc-4.4.6-3.el6.i686.rpm # rpm -ivh compat-libstdc++-33-3.2.3-69.el6.i686.rpm # rpm -ivh compat-libstdc++-33-3.2.3-69.el6.x86_64.rpm 以上文件中,第一個(gè)文件libstdc++.so.6可以在已經(jīng)安裝過linux的 /usr/lib中找到,后3個(gè)rpm文件在ROCKS 6.0安裝光盤找到,然后把它們復(fù)制出來就可以了(有點(diǎn)奇怪的是它們?yōu)樯恫粫?huì)在安裝集群時(shí)自動(dòng)安裝呢)。 2 hpmpi的安裝,注意,它一定要在前端機(jī)和每一個(gè)計(jì)算節(jié)點(diǎn)上安裝,否則機(jī)器肯定出錯(cuò)。在前端機(jī)上的安裝,必須在安裝MS之前完成。 # rpm -ivh hpmpi-2.03.01.00-20090402r.x86_64.rpm 這個(gè)文件在MS的安裝包中可以找到。 3 MS5.5的安裝 登錄前端機(jī),添加一個(gè)普通用戶(和密碼),然后鍵入命令 # rocks sync users 注意,上面這個(gè)命令一定要運(yùn)行一次。 接下來就可以用這個(gè)新加的普通用戶登錄并進(jìn)行MS的安裝。以下是以普通用戶身份安裝。 可以參考網(wǎng)上的介紹,使用命令: $ …/UNIX/Install --type cluster 進(jìn)行安裝,基本可以使用默認(rèn)的設(shè)置,如默認(rèn)的文件夾,和使用SSH等,臨時(shí)文件地址選擇/tmp. 安裝的license文件中的機(jī)器名也應(yīng)該是你上面給出的全稱(可以用hostname查看你的前端機(jī)的機(jī)器名)。 修改~/Accelrys/MaterialsStudio55/share/data/下的machine.LINUX文件加上 compute-0-0:n compute-0-1:n compute-0-2:n … 這里的compute-0-0就是計(jì)算節(jié)點(diǎn)名,n是每個(gè)節(jié)點(diǎn)可以提供的cpu(線程)數(shù)(現(xiàn)在一般為4或者8)。 修改../../Gateway/root_default/dsd/conf/下的2個(gè)文件gw-info.sbd和gwparams.cfg文件中的cputotal數(shù),注意這個(gè)數(shù)要不大于machine.LINUX文件中給的CPU線程總數(shù)。 這時(shí)候集群已經(jīng)可以運(yùn)行MS了。但是如果需要作業(yè)調(diào)度,則進(jìn)行SGE設(shè)置。 第三部分SGE的設(shè)置 注意SGE必須在安裝前端機(jī)的同時(shí)選擇安裝。如果安裝好前端機(jī)后,再安裝SGE,ROCKS的官方手冊(cè)上明確指出是不行的。SGE在各個(gè)計(jì)算節(jié)點(diǎn)的配置,已經(jīng)隨著節(jié)點(diǎn)的安裝就完成了。 SGE可以用于MS5.5的作業(yè)調(diào)度,默認(rèn)在安裝rocks的時(shí)候已經(jīng)建立一個(gè)名為all.q的隊(duì)列。 設(shè)置SGE一定是根用戶,或者先以根用戶指定一個(gè)普通用戶為管理員才有資格。首先修改all.q中的shell相關(guān)的參數(shù),將其中的第一個(gè)sh改成bash (因?yàn)閞ocks默認(rèn)使用bash,但是SGE默認(rèn)使用csh),使用命令: # qconf –mq all.q 然后用上下鍵找一下,和一般的LINUX文本編輯vi一樣操作,按一下小寫字母i即可開始編輯了。All.q的配置內(nèi)容很豐富,可以用上面的命令運(yùn)行后,編輯修改很多參數(shù),例如可以指定提交的用戶,cpu數(shù)包括每個(gè)計(jì)算節(jié)點(diǎn)供應(yīng)的cpu數(shù)等。 當(dāng)然,我們也可以建立另外的隊(duì)列,用戶組和用戶,然后進(jìn)行配置。還是不要自找麻煩吧,就用這個(gè)默認(rèn)的就行了。 然后修改SGE的默認(rèn)配置文件conf # qconf –mconf (同上操作) 也將其中的shell從默認(rèn)的csh改成bash 如果直接將安裝MS的用戶的shell改成csh(修改/etc/passwd文件中的相應(yīng)用戶參數(shù)),估計(jì)就不用修改這里的shell了,但是我沒有測(cè)試。 至此配置完成,可以使用qstat/qstat -Q/qstat -q/qstat -f等命令查看隊(duì)列狀態(tài)。(和torque差不多) 配置MS網(wǎng)關(guān) 假設(shè)MS安裝在默認(rèn)位置,設(shè)置使用SGE管理作業(yè): $ cd ~/Accelrys/MaterialsStudio55/etc/Gateway/config/ ./configure queue -queuepath SGE/dsd_sge –activate 運(yùn)行成功后,我們發(fā)現(xiàn)在../../Gateway/root_default/dsd/conf/下的文件gw-info.sbd中的原來的 queuingsystem=[NONE] 已經(jīng)自動(dòng)修改成 Queuingsystem=Sun Grid Engine 6.2u5 在gwparams.cfg文件中,可以設(shè)置參數(shù) gw_queuingsystem=SGE 不過如果不設(shè)置,好像也沒有什么問題。 然后重啟網(wǎng)關(guān) $ cd ~/Accelrys/MaterialsStudio55/etc/Gateway $ ./msgateway_control_18888 restart Windows下的設(shè)置: 在Sever Console下刷新服務(wù)器,確認(rèn)服務(wù)器屬性中的queue里有all.q隊(duì)列。在提交計(jì)算任務(wù)里的queue選上all.q,就可以運(yùn)行或者排隊(duì)等待了. 因?yàn)镾GE是按照均衡負(fù)載的原則安排cpu的使用的。假如,集群中有10個(gè)節(jié)點(diǎn)(每一個(gè)節(jié)點(diǎn)提供8個(gè)線程)可以供MS使用,而提交作業(yè)選中20個(gè)cpu(線程),則每個(gè)節(jié)點(diǎn)將分擔(dān)2個(gè)cpu(線程)的計(jì)算任務(wù)(按照公平原則),如果選中25個(gè)CPU,則將是5個(gè)節(jié)點(diǎn)各承擔(dān)3個(gè)CPU,另外5個(gè)節(jié)點(diǎn)承擔(dān)2個(gè)CPU,以此類推。如果需要的CPU數(shù)小于可用數(shù),則這個(gè)作業(yè)掛起(稱為queued and waiting, 使用命令qstat –f,可以看到該作業(yè)的狀態(tài)是 qw),排隊(duì)等待前面的任務(wù)完成后,騰出足夠使用的CPU,才能進(jìn)入運(yùn)行狀態(tài)。因此,這里要求機(jī)器是均構(gòu)的,也就是每個(gè)節(jié)點(diǎn)的cpu和內(nèi)存等是一樣的(大家跑得一樣快),否則所有機(jī)器的運(yùn)行速度都和最慢的那臺(tái)一樣,造成資源浪費(fèi)。 通過SGE提交用于計(jì)算的節(jié)點(diǎn)可以和MS的機(jī)器配置文件machine.LINUX文件中的機(jī)器列表沒有任何關(guān)系,僅僅要求線程數(shù)不大于machine.LINUX中給的總線程數(shù)。 在rocks的安裝包還有一個(gè)condor卷,具有可以配合SGE進(jìn)行高級(jí)配置的功能(類似于PBS中的toruqe + maui),但網(wǎng)上的介紹很少,有待學(xué)習(xí)。 關(guān)于SGE的設(shè)置,參考了小木蟲上網(wǎng)友veryman關(guān)于PBS(torque)設(shè)置的帖子,在此表示感謝。 我們使用rocks,可以非常方便地完成集群的建立,同時(shí)SGE的設(shè)置也跟隨建立集群的過程中,直接完成配置,我們做的就是稍微修改幾行配置文件(增減了幾個(gè)字母而已)。而對(duì)于計(jì)算節(jié)點(diǎn),除了安裝hpmpi以外,也可以不需要進(jìn)行其他設(shè)置了。 這里也可以看到,SGE的作業(yè)調(diào)度設(shè)置要遠(yuǎn)比PBS(torque)的設(shè)置簡(jiǎn)單。更重要的是,有帖子指出,新版本的MS不支持torque了。Accelrys公司官網(wǎng)指出:There is no official support for TORQUE in Materials Studio。從MS的幫助文件中可以看到,MS5.5是支持SGE的(好像只支持PBS pro, LSF和SGE三種),因此使用SGE,就是和MS官方保持一致了。而對(duì)于torque的安裝,Accelrys公司官方給了一個(gè)補(bǔ)。https://community.accelrys.com/message/6992#6992。因此,想繼續(xù)使用torque的網(wǎng)友也沒有問題了,參照著設(shè)置一下,而且這個(gè)設(shè)置支持最新的MS5.5和MS6.0。 聲明,我是上月才開始鼓搗SGE的,因此很多設(shè)置也沒搞明白,也在學(xué)習(xí)中,希望獲得更多幫助。SGE的使用和簡(jiǎn)單說明可以在網(wǎng)上找,甲骨文公司的官網(wǎng)上也有相應(yīng)的文檔可以看。 還有一點(diǎn),安裝MS4.3好像另外需要libstdc++.so.5庫(kù)文件,我試驗(yàn)了一次,沒有成功安裝MS4.3。也許是因?yàn)槲覀兊腖INUX版本太高了,呵呵。centos6.2的內(nèi)核版本號(hào):2.6.32-220.13.1.e16.x86_64, 2011年12月才出,目前沒有更新的版本放出。如有需要,可以到www.centos.org上免費(fèi)下載幾乎所有版本的LINUX,它和RHEL的各種版本是一一對(duì)應(yīng)的,例如centos 6.2等于RHEL 6.2。而MS 6.0版本的RHEL最高支持到6.1版本。 同時(shí)在這里感謝蟲友shxincui518的幫助。 如果這個(gè)帖子對(duì)大家有幫助,我將非常高興。 [ Last edited by walkera on 2012-5-24 at 10:54 ] |
第一原理資料匯編 | Materials Modeling | PBS作業(yè)排隊(duì)系統(tǒng) |
|
本帖內(nèi)容被屏蔽 |
鐵桿木蟲 (正式寫手)
金蟲 (初入文壇)
|
在網(wǎng)上可以找到關(guān)于SGE使用的一些資料 可以使用命令qconf配置隊(duì)列和執(zhí)行任務(wù)主機(jī)組 將一組機(jī)器設(shè)為一個(gè)主機(jī)組(group) qconf -ahgroup @q1hosts 然后在里面列出需要加入的主機(jī) qconf -aq q1.q 然后將里面的執(zhí)行主機(jī)隊(duì)列hosts_list列為@q1hosts,在slots屬性中列出每臺(tái)主機(jī)提供的CPU數(shù),在users_list屬性中指定可以執(zhí)行此操作的用戶,在xuser_list還可以指定不許使用此隊(duì)列的用戶名 在MS提交作業(yè)時(shí)選擇這個(gè)隊(duì)列,就可以限制個(gè)規(guī)定作業(yè)的提交執(zhí)行機(jī)器 |
金蟲 (初入文壇)
木蟲 (小有名氣)
木蟲 (小有名氣)
金蟲 (著名寫手)

木蟲 (正式寫手)
送鮮花一朵 |
本帖內(nèi)容被屏蔽 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 有沒有道鐵/土木的想調(diào)劑南林,給自己招師弟中~ +3 | TqlXswl 2026-03-16 | 7/350 |
|
|---|---|---|---|---|
|
[考研] 0854可跨調(diào)劑,一作一項(xiàng)核心論文五項(xiàng)專利,省、國(guó)級(jí)證書40+數(shù)一英一287 +3 | 小李0854 2026-03-16 | 3/150 |
|
|
[考研] 275求調(diào)劑 +4 | 太陽花天天開心 2026-03-16 | 4/200 |
|
|
[考研] 0703化學(xué)調(diào)劑 +6 | 妮妮ninicgb 2026-03-15 | 9/450 |
|
|
[考研] 0703一志愿211 285分求調(diào)劑 +5 | ly3471z 2026-03-13 | 5/250 |
|
|
[考研] 070303一志愿西北大學(xué)學(xué)碩310找調(diào)劑 +5 | d如愿上岸 2026-03-12 | 8/400 |
|
|
[考研] 277材料科學(xué)與工程080500求調(diào)劑 +3 | 自由煎餅果子 2026-03-16 | 3/150 |
|
|
[考研] 材料與化工一志愿南昌大學(xué)327求調(diào)劑推薦 +7 | Ncdx123456 2026-03-13 | 8/400 |
|
|
[考研] 085601材料工程315分求調(diào)劑 +3 | yang_0104 2026-03-15 | 3/150 |
|
|
[考研] 中科大材料專碩319求調(diào)劑 +3 | 孟鑫材料 2026-03-13 | 3/150 |
|
|
[考研] 復(fù)試調(diào)劑 +3 | 呼呼?~+123456 2026-03-14 | 3/150 |
|
|
[考研] 復(fù)試調(diào)劑 +4 | z1z2z3879 2026-03-14 | 5/250 |
|
|
[考研] 【0703化學(xué)調(diào)劑】-一志愿華中師范大學(xué)-六級(jí)475 +5 | Becho359 2026-03-11 | 5/250 |
|
|
[考研] 材料371求調(diào)劑 +9 | 鱷魚? 2026-03-11 | 11/550 |
|
|
[考研] 332求調(diào)劑 +3 | zjy101327 2026-03-11 | 6/300 |
|
|
[考研] 0703,333分求調(diào)劑 一志愿鄭州大學(xué)-物理化學(xué) +3 | 李魔女斗篷 2026-03-11 | 3/150 |
|
|
[考研] 308求調(diào)劑 +5 | 是Lupa啊 2026-03-11 | 5/250 |
|
|
[考研] 0856材料與化工301求調(diào)劑 +5 | 奕束光 2026-03-13 | 5/250 |
|
|
[考研] 土木第一志愿276求調(diào)劑,科研和技能十分豐富,求新興方向的導(dǎo)師收留 +3 | 土木小天才 2026-03-12 | 3/150 |
|
|
[考研] 270求調(diào)劑 085600材料與化工專碩 +3 | YXCT 2026-03-11 | 3/150 |
|