【分享】電腦集群常見問題[已搜索,無重復]
一、為什么我的電腦上不了網(wǎng)?
一般在局域網(wǎng)中,上不了網(wǎng)有以下幾種可能:
1、網(wǎng)線接口松動(網(wǎng)線插口是否損壞?網(wǎng)線是否被壓裂?)
2、集線器、交換機、Modem等設(shè)備出現(xiàn)問題(這些設(shè)備上相關(guān)指示燈是否正常顯示?)
3、系統(tǒng)IP地址和網(wǎng)關(guān)等設(shè)置不正確(網(wǎng)關(guān)是否和單位網(wǎng)關(guān)設(shè)置一致?IP是否有沖突?DNS是否設(shè)置正確?)
4、上網(wǎng)客戶端軟件出現(xiàn)問題(帳號密碼是否錯誤?服務(wù)器端是否正常?)
5、瀏覽器軟件設(shè)置不正確或者被病毒損壞
按照步驟從以上幾個方面逐一排查問題一般都能解決問題。
二、常見的PC故障開機報警聲及解決辦法有哪些?
這些問題基本都是屬于硬件問題,大多數(shù)情況下都是因為相關(guān)硬件設(shè)備沒有連接好,可以從以下幾個方面查找 :
1、重插顯卡
2、檢查顯示器,并重新插DAI接口
3、將主板上所有連線重新插一次
4、重插PCI,AGP,或其他連接卡
三 、開機后死機是什么原因?
有可能是硬件問題和軟件問題。
硬件問題(解決方法)包括:
1、 散熱問題(北橋芯片、CPU、顯卡) (更換質(zhì)量更好的散熱風扇、涂抹硅膠等)
2、 電源輸出功率過小、電源的老化 (更換電源、檢查插座功率限制等)
3、 內(nèi)存問題(逐條檢測內(nèi)存性能以及內(nèi)存插槽排查問題)
4、 如果CPU超頻后出現(xiàn)的現(xiàn)象(降頻)
5、 顯卡插槽損壞 (顯卡插在其它PCI插槽上)
軟件方面主要是各種病毒木馬以及系統(tǒng)漏洞的作用,可以安裝殺毒軟件、防火墻、系統(tǒng)漏洞補丁來解決問題。
四、內(nèi)存報錯怎么回事?
可能原因:
1、內(nèi)存不兼容——更換其他內(nèi)存條
2、運行大內(nèi)存任務(wù)時間久了后報錯——是因為內(nèi)存溫度過高,此時可在機箱中加風扇等加強散熱 。
3、內(nèi)存沒插緊——可將內(nèi)存條拔下后重新插入
五、機器聲音不正常怎么回事?
可能原因: CPU風扇、機箱風扇壞了,需要換風扇。 或者某些部件沒有固定緊造成機械部件共振,可以通過加固或者改變固定部件形狀來改善。
六、為什么裝機后機器分辨率不能調(diào)整?
一般是因為沒有安裝正確的顯卡驅(qū)動,更換顯卡驅(qū)動后可解決。
七、硬盤格式化出錯怎么辦?
檢測硬盤是否有壞塊。在終端輸入命令:“badblocks -ns”來檢測,或者用其它硬盤檢測工具來檢測。如果有壞塊,則需更換硬盤。
八、SATA盤識別成了hda
解決方案:在BIOS里打開SATA控制
九、安裝gromacs 時出現(xiàn)以下錯誤信息
error:cannot find fftw3 library
解決方案: 在安裝fftw3時,運行./configure –enable-float 必須加—enable-float。
十、rsh 出現(xiàn)以下出錯信息:trying krb4 rlogin....
trying normal rlogin
解決辦法:卸載掉krb5有關(guān)的一個軟件包。運行命令 rpm -qa`which rlogin`
查找krb5-workstation-...然后卸載: rpm -e krb5-workstation-...
十一、為什么安裝ganglia時沒有出現(xiàn)libconfuse.so...
解決方案:在終端下輸入命令:vi /etc/ld.so.conf 在該配置文件中加入/usr/local/lib。然后運行命令:/sbin/ldconfig。
如果出現(xiàn)不能顯示圖像,出現(xiàn)8652連接錯誤等信息,只需關(guān)閉防火墻和Selinux即可。
十二、如何改變linux的語言環(huán)境?
解決方案:
(1)圖形界面中進行配置:依次用鼠標點擊任務(wù)欄上的系統(tǒng)→管理→語言,會彈出一個語言選擇的窗口(如果不是root用戶的話,會要求輸入root密碼),從中選中需要的語言,注銷下重新登錄即可(一般不用重啟);
(2)使用命令行進行配置:在終端下輸入命令vi /etc/sysconfig/i18n,編輯其中的內(nèi)容。如果想要使用中文環(huán)境編輯其內(nèi)容為:LANG="zh_CN.UTF-8";如果想要英文環(huán)境則編輯其內(nèi)容為:LANG="en_US.UTF-8",保存后,注銷系統(tǒng)重新登錄即可。
十三、使用Gaussian 03時,為什么將Windows版本下的輸入文件(如abc.gjf)直接放在linux下使用,運行g(shù)03 abc.gjf 系統(tǒng)會提示語法錯誤之類的信息?
這是因為輸入文件的格式不對,在linux下不能直接使用?墒褂胠inux下的命令dos2unix先處理下即可。具體可使用命令: dos2unix abc.gjf
輸入:g03 abc.gjf即可運行(有時可能需要將abc.gjf改名為abc.com再運行)
十四、請問集群系統(tǒng)的開機和關(guān)機一般應該按照什么樣的順序?
集群系統(tǒng)一般都提供有nfs、nis、系統(tǒng)監(jiān)控服務(wù)器、作業(yè)管理服務(wù)器等多種服務(wù)。關(guān)機的原則是要保證服務(wù)器端要后于客戶端關(guān)機,開機的原則是保證服務(wù)器端要先于客戶端開機。而一般的集群都把服務(wù)器集中在管理節(jié)點上,所以關(guān)機當然是最后關(guān)管理節(jié)點,開機時先開管理節(jié)點,等管理節(jié)點完全啟動后再開其它客戶節(jié)點。
十五、為什么用“mpd &”來啟動mpi守護進程時總是顯示“mpd failed: gethostbyname_ex failed for XX”?
這是因為無法從/etc/hosts文件中獲取ip地址和主機名稱的解析,請首先檢查/etc/hosts文件中是否有當前用戶ip地址和主機名稱那行。比如當前主機名是node02,
ip地址是192.168.0.2,那么在/etc/hosts文件中必須要有“192.168.0.2 node02”這一行。
十六、為什么運行“mpdallexit”時候顯示“mpdallexit (mpdallexit 54): unexpected msg from mpd :{'cmd': 'invalid_username_to_make_this_request'}: ”?
請首先利用“ps -ef|grep mpd”來檢查系統(tǒng)有幾個mpd在運行,并且檢查用戶主目錄下的.mpd.conf文件中的標示,以及用戶權(quán)限問題。
十七、我用的是torque pbs作業(yè)管理系統(tǒng),為什么提交作業(yè)后顯示處于“Q”狀態(tài)而不運行?
pbs一般都依賴于硬盤資源、NFS和NIS以及網(wǎng)絡(luò)連接,如果作業(yè)處于“Q”狀態(tài)請先確認不是因為其它作業(yè)占用系統(tǒng)資源導致無法分配資源所致。然后依次檢查網(wǎng)絡(luò)、NIS、NFS、硬盤設(shè)置以及并行編譯器設(shè)置等。
十八、我在集群環(huán)境中運行mpd啟動各個節(jié)點上的mpd守候進程后,過段時間以后用“mpdtrace -l”會看到有些節(jié)點丟失了?
這個問題最可能是因為網(wǎng)絡(luò)連接的問題,如果是通過交換機連接各個節(jié)點,請確認交換機處于正確的工作模式下,并檢查網(wǎng)線插口是否有松動脫落現(xiàn)象。
十九、為什么利用mpirun提交并行作業(yè)后,總是顯示某些節(jié)點上不存在此文件?
mpich要求程序存放在各個節(jié)點上相同的目錄下。這可以通過兩種方法做到:
(1)把可執(zhí)行文件在各個節(jié)點的相同目錄下拷貝一份;
(2)建立一個nfs目錄,通過網(wǎng)絡(luò)文件共享的方式來共享一個目錄,把可執(zhí)行文件放在這個共享目錄下。所以如果顯示節(jié)點上不存在此文件應先檢查nfs共享目錄是否掛載成功。
二十、我想在電腦上使用linux和windows兩種操作系統(tǒng),請問怎么辦?
解決方案:
1.安裝雙系統(tǒng),先安裝windows,然后在剩下的空閑分區(qū)安裝linux。
2.先安裝windows,然后在windows里面安裝vmvare等虛擬機軟件,在虛擬機中安裝linux。
3.先安裝linux,然后在linux里面安裝vmvare、win4lin、virtualbox等虛擬機軟件,然后在虛擬機中安裝windows. 如果只是想 在linux下運行一些簡單的windows程序,那么不用裝虛擬機,可以裝一個wine軟件試試。
二十一、利用linux下的gnu make來編譯具有很多小程序的大軟件非常慢,有沒有快一些的辦法?
你可以嘗試“make -j4”來加速編譯過程,這個數(shù)字4表示同時編譯4個文件,可以根據(jù)實際情況來進行調(diào)整。
二十二、怎樣從windows客戶端登錄linux,如何以圖形方式登錄?
可以使用ssh客戶端軟件putty、SSH SECURE SHELL、Secure CRT等軟件登錄。若要以圖形方式登錄linux集群,可以使用vnc方式、ssh穿梭方式、XManager等專門軟件。推薦使用ssh穿梭方式登錄,這樣既安全也比較經(jīng)濟。
二十三、使用putty從windows登錄linux時有些文件總是顯示亂碼,請問如何解決?
這是因為linux端字符設(shè)置的問題,一般都是因為linux端使用了中文語言環(huán)境造成。
解決辦法有兩個:
1、使linux端采用英文語言環(huán)境;
2、在putty中設(shè)置字符集為UTF-8。
二十四、當使用USB光驅(qū)安裝linux操作系統(tǒng)的時候有時候會提示要加載什么驅(qū)動,系統(tǒng)無法找到光驅(qū),如何解決?
這時候需要在系統(tǒng)安裝加載驅(qū)動的時候選擇一個叫usb storage的驅(qū)動加載,系統(tǒng)自然就能識別光驅(qū)并正常安裝了。
二十五、我的集群上安裝了infiniband的HCA卡,但有時候系統(tǒng)啟動以后無法利用mpirun提交作業(yè),這是為什么?
Infiniband設(shè)備需要一個子網(wǎng)管理器來管理各個HCA卡、交換機、路由器等,擔當這個功能的軟件在linux中叫opensm。有時候無法運行作業(yè)是因為opensm沒有正常運行導致infiniband子網(wǎng)沒有順利啟動起來。一般infiniband卡后面都有一個或幾個指示燈,當指示燈亮時表示連接已經(jīng)建立,當指示燈閃爍時表示有數(shù)據(jù)通過卡?梢酝ㄟ^觀察簡單判斷問題情況。
二十六、我有一個程序需要運行很長時間,想利用并行計算技術(shù)看能否加速運算,請問要考慮哪些因素?
串行程序要改成并行程序首先要從算法上考慮并行計算的可實現(xiàn)性。大矩陣計算等空間分布式的程序比較容易并行。按照時間迭代而且前后程序段依賴很嚴重的程序比較難以并行,一般都要做算法上的改進減少程序前后迭代時的相互依賴關(guān)系。另外串行程序是否結(jié)構(gòu)化模塊化也是并行改版要考慮的重要因素。
二十七、現(xiàn)在有很多并行計算實現(xiàn)模式,請問編寫程序時使用哪種模式比較好?
可以使用mpi、openmp、pvm、hpf/hpc等方式編寫并行程序,各有各的優(yōu)缺點,編寫程序的難度也不太相同,不過現(xiàn)在mpi和openmp還是比較流行的兩種并行編程方式了。mpi編寫的程序比較容易移植,但編寫難度稍大;openmp編寫程序容易,但可移植性不太好。對于利用scilab等軟件并行編程的人來說,只能使用pvm這種方式了。另外hpf/hpc也可以在編程中采用,使用起來沒有mpi和openmp那么復雜,但可移植性值得考慮。
二十八、搭建集群時選擇哪種操作系統(tǒng)比較好?
有各種各樣的選擇,看個人喜好。比如有的人就非常喜歡利用windows來搭建一個高性能計算集群。(這個不值得推薦,因為其系統(tǒng)的某些不穩(wěn)定性人所共知。)一般來說首要的還是要強調(diào)穩(wěn)定性,然后強調(diào)定制和升級的方便性。像Redhat各個企業(yè)版、CentOS、Debian、Suse以及其衍生版都是不錯的選擇,另外還有一些專門的科研機構(gòu)比如歐洲核子中心(CERN)自己搭建的SciLinux也比較好。
二十九、我目前科研需要購買并行計算設(shè)備,請問主要根據(jù)哪些因素來選購?
要考慮的因素比較多,拋開非技術(shù)因素,要考慮的問題包括如下幾點:
1、我的應用(計算模擬)是否適合并行計算?是單個任務(wù)由多臺機器共同完成還是大量任務(wù)由多臺機器執(zhí)行最后匯總結(jié)果?
2、專業(yè)研究所需要的其它軟件環(huán)境是否需要集成在集群中?
3、現(xiàn)有程序是否需要改寫和移植?
4、購買工作站、PC集群還是服務(wù)器集群?這些都需要根據(jù)具體的應用來分析,可咨詢相關(guān)專業(yè)人士。
[ Last edited by wuli8 on 2009-11-28 at 09:35 ]
返回小木蟲查看更多
京公網(wǎng)安備 11010802022153號
不錯!
★★★★★ 五星級
很好!受益良多。!
不錯,謝謝樓主的分享
hehe 感謝技術(shù)帖子 謝謝分享,