| 5 | 1/1 | 返回列表 |
| 查看: 2857 | 回復(fù): 4 | ||
| 本帖產(chǎn)生 1 個(gè) 1ST強(qiáng)帖 ,點(diǎn)擊這里進(jìn)行查看 | ||
| 當(dāng)前只顯示滿足指定條件的回帖,點(diǎn)擊這里查看本話題的所有回帖 | ||
csi505新蟲 (初入文壇)
|
[求助]
vasp 在parallel 3dFFT wavefunction 后死掉
|
|
|
各位大蝦,小弟vasp剛?cè)腴T, 最近嘗試編譯了VASP,編譯沒出錯(cuò), 但是運(yùn)行時(shí)有問題。 提交直接: /usr/local/openmpi/bin/mpirun -np 40 -machinefile ~/machines.LINUX /home/chenshi/softwares/vasp/vasp.4.6/vasp machines.LINUX 內(nèi)容如下: node01 slots=8 node02 slots=8 node03 slots=8 node04 slots=8 node05 slots=8 node06 slots=8 node07 slots=8 一,算小體系Si(兩個(gè)原子) 核數(shù) 2 4 8 16 計(jì)算用時(shí)/秒 2.537 4.798 8.934 275.012 32核的沒算完,估計(jì)要一兩千秒,似乎是核越多越慢... 二,算大體系(一百個(gè)原子左右) 提交32個(gè)核,可以運(yùn)行; 提交40個(gè)核,OUTCAR里進(jìn)行到: parallel 3dFFT wavefunction: minimum data exchange during FFTs selected (reduces bandwidth) 不再繼續(xù),但vasp也不報(bào)錯(cuò),死在那里... 有時(shí)連 OUTCAR 都沒有產(chǎn)生,直接就死在那里, 不知什么原因? 還有一個(gè)異常的地方,我在 machines.LINUX 里沒有把主節(jié)點(diǎn) libin 寫進(jìn)去, 按理在主節(jié)點(diǎn)不應(yīng)該有進(jìn)程運(yùn)行 vasp , 但是在主節(jié)點(diǎn)上 top 310 chenshi 20 0 252m 15m 9280 R 100.0 0.0 10055:21 vasp 312 chenshi 20 0 252m 15m 9256 R 100.0 0.0 10055:35 vasp 315 chenshi 20 0 252m 16m 9244 R 100.0 0.0 10055:41 vasp 27401 chenshi 20 0 252m 16m 9276 R 100.0 0.0 10767:00 vasp 27416 chenshi 20 0 252m 16m 9308 R 100.0 0.0 10767:26 vasp 32759 chenshi 20 0 252m 15m 9304 R 100.0 0.0 10056:04 vasp 323 chenshi 20 0 252m 16m 9272 R 99.7 0.0 10055:48 vasp 27400 chenshi 20 0 252m 16m 9284 R 99.7 0.0 10767:47 vasp 27408 chenshi 20 0 252m 15m 9256 R 99.7 0.0 10767:27 vasp 22973 chenshi 20 0 13312 1408 860 R 0.7 0.0 0:01.06 top 1 root 20 0 23480 1100 896 S 0.0 0.0 0:14.41 init 2 root 20 0 0 0 0 S 0.0 0.0 0:00.01 kthreadd 卻發(fā)現(xiàn)9個(gè)進(jìn)程在運(yùn)行 vasp , 而且奇怪的是 MEM 利用率為零... 現(xiàn)在真是迷惑。安裝并行版本一定要有 scalapack庫(kù) 嗎? 我的編譯用的庫(kù): BLASLAPACK=-L$(MKLROOT)/lib/intel64 -lmkl_blas95_lp64 -lmkl_lapack95_lp64 -lmkl_cdft_core -lmkl_intel_lp64 -lmkl_sequential -lmkl_core -lmkl_blacs_intelmpi_lp64 -lpthread -limf -lm -lsvml LIB = -I/usr/local/openmpi/include/mpif.h \ -L../vasp.4.lib -ldmy \ $(BLASLAPACK) \ ../vasp.4.lib/linpack_double.o FFT3D = fftmpi.o fftmpi_map.o fft3dlib.o /export/opt/intel/composerxe/mkl/lib/intel64/libfftw3xf_intel.a MKL庫(kù)和Intel編譯器都只在主節(jié)點(diǎn)安裝,放在 /export 文件夾, 共享給其他節(jié)點(diǎn); 在各節(jié)點(diǎn)都裝了 opnempi 和 hpmpi(裝MS要用)。 MKL庫(kù)和fft庫(kù)是不是在各節(jié)點(diǎn)都裝,并行會(huì)快些? VASP 裝在我家里,整個(gè) /home 目錄都共享出去了。 現(xiàn)在不知是 vasp 沒編譯好, 還是 并行系統(tǒng)的問題,或者是 其他問題? |
木蟲 (小有名氣)
我們的自由!
鐵桿木蟲 (著名寫手)

新蟲 (初入文壇)
木蟲 (小有名氣)
我們的自由!
|
32核的沒算完,估計(jì)要一兩千秒,似乎是核越多越慢... -------------------------------- 對(duì)于兩個(gè)原子的小體系來說,用32核跑。。。。哎,資源不能這么浪費(fèi),我這里一核難求啊,越來越慢的原因是由于,各個(gè)核之間存在通訊時(shí)間啊,兩原子計(jì)算量本來就小,被你這樣分配到那么多核中,每個(gè)電子步都要交換信息,所以在通訊上非常耗時(shí)啊,你可以查看你OUTCAR最后那幾行。傷不起啊~~32核,兩原子~~~ --------------------------------- 算大體系(一百個(gè)原子左右) --------------------------------- 這個(gè)估計(jì)和計(jì)算量比較大有關(guān),所給的信息太少,不好判斷啦 --------------------------------- 還有一個(gè)異常的地方,我在 machines.LINUX 里沒有把主節(jié)點(diǎn) libin 寫進(jìn)去, 按理在主節(jié)點(diǎn)不應(yīng)該有進(jìn)程運(yùn)行 vasp , 但是在主節(jié)點(diǎn)上 top -------------------------------- 我記得好像是由于openmpi的調(diào)度就是這樣的,啟動(dòng)mpirun的節(jié)點(diǎn)自動(dòng)包涵在node-list里面,這個(gè)可以通過使用PBS排隊(duì)系統(tǒng)來解決,或者換mpich -------------------------------- 安裝并行版本一定要有 scalapack庫(kù) 嗎? ------------------------------- 這個(gè)一般用不上,除非你各個(gè)節(jié)點(diǎn)之間網(wǎng)絡(luò)交換非常慢。 VASP 裝在我家里,整個(gè) /home 目錄都共享出去了。 ------------------------------ 神馬意思?裝你家? |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|