版塊導(dǎo)航: 正在加載中...

應(yīng)《網(wǎng)絡(luò)安全法》要求，自2017年10月1日起，未進(jìn)行實(shí)名認(rèn)證將不得使用互聯(lián)網(wǎng)跟帖服務(wù)。為保障您的帳號(hào)能夠正常使用，請(qǐng)盡快對(duì)帳號(hào)進(jìn)行手機(jī)號(hào)驗(yàn)證，感謝您的理解與支持！

24小時(shí)熱門版塊排行榜

北京石油化工學(xué)院2026年研究生招生接收調(diào)劑公告

返回列表

當(dāng)前主題已經(jīng)存檔。

當(dāng)前只顯示滿足指定條件的回帖，點(diǎn)擊這里查看本話題的所有回帖

yalefield

金蟲 (文壇精英)

老漢一枚

應(yīng)助: 129 (高中生)
貴賓: 0.17
金幣: 21238.9
散金: 3440
紅花: 66
帖子: 12101
在線: 759.1小時(shí)
蟲號(hào): 96063
注冊(cè): 2005-10-07
專業(yè): 高等教育學(xué)
管轄: 計(jì)算模擬

[交流] 談?wù)凣PU吧

先來點(diǎn)兒虛的。

計(jì)算基礎(chǔ)正在發(fā)生根本變革——解讀“計(jì)算2.0”

孟巖

從本質(zhì)上看，軟件實(shí)際上只是夾在人與硬件之間的一個(gè)中間層，人們使用軟件的根本目的還是要讓硬件運(yùn)轉(zhuǎn)起來為自己服務(wù)。硬件平臺(tái)如果長期穩(wěn)定，軟件就能夠安穩(wěn)發(fā)展，建起高樓大廈，硬件基礎(chǔ)如果打個(gè)噴嚏，軟件就會(huì)得一場感冒。過去十幾年來，我們的計(jì)算環(huán)境已經(jīng)發(fā)生了很多變化，比如RISC的興起，大規(guī)模服務(wù)器集群的發(fā)展，SIMD的普及，特別是網(wǎng)絡(luò)的大發(fā)展，令人印象深刻。每一項(xiàng)變化都給軟件帶來一定程度的沖擊。不過大部分情況下，這種沖擊力度有限：只需要有一小部分人去關(guān)注就好了，他們會(huì)盡可能把這些變化包裝起來，從而使得其余的絕大部分人不受影響，而又能夠享受硬件發(fā)展帶來的免費(fèi)午餐。比如說，RISC跟硬件平臺(tái)帶來的變革是非常巨大的，但是只有編譯器和操作系統(tǒng)開發(fā)者真正需要關(guān)注它。SIMD（MMX、3DNow!、SSEx）的發(fā)展使普通計(jì)算機(jī)處理多媒體數(shù)據(jù)的能力獲得了本質(zhì)提升，但是廠商們也推出了一系列封裝庫，使應(yīng)用軟件開發(fā)者們?cè)诓恍鑼?duì)開發(fā)方式做重大改變的情況下享受這些發(fā)展成果。

然而站在今天這個(gè)時(shí)間點(diǎn)上往前看，就會(huì)看到，情況在發(fā)生的變化。發(fā)生在若干個(gè)不同領(lǐng)域的硬件進(jìn)展，幾乎在同時(shí)達(dá)到了可以被稱之為“本質(zhì)變化”的狀態(tài)。而所有這些變化結(jié)合起來，則使我們面對(duì)一個(gè)自1980年代初PC崛起以來從來沒有過的局面，一個(gè)可以毫不夸張地稱之為“變革”的局面，我們稱之為“計(jì)算2.0”。在“計(jì)算2.0”的時(shí)代里，軟件開發(fā)者面對(duì)的平臺(tái)會(huì)發(fā)生巨大的變化，而且這些變化很多是非常本質(zhì)的，無法簡單地使用“包裝”的手段屏蔽掉，從而要求軟件開發(fā)的實(shí)踐也必將隨之發(fā)生巨大的變化。這對(duì)軟件產(chǎn)業(yè)的每一個(gè)人來說，是歷史上很少會(huì)遇到的情況，給我們帶來巨大的挑戰(zhàn)和機(jī)遇。

下面就讓我們一起來展望一下“計(jì)算2.0”將給我們帶來的沖擊。

1. 多核與并發(fā)編程

自從2005年初C++標(biāo)準(zhǔn)委員會(huì)主席Herb Sutter發(fā)表《并發(fā)的革命——免費(fèi)午餐已經(jīng)結(jié)束》的著名文章以來，多核已經(jīng)成為整個(gè)軟件社群里熱門話題。在那篇文章里，Herb Sutter斷言說，CPU頻率的提高已經(jīng)接近極限，摩爾定律的發(fā)展今后將依賴多核化進(jìn)行下去，因此，軟件若要在未來的環(huán)境下生存，必須考慮并發(fā)問題。接著，Herb Sutter做出了更大膽和更驚人的語言，那就是不存在解決多核編程問題的銀彈，不存在可以簡單地將并發(fā)編程問題化解掉的工具，開發(fā)高性能的并行程序必須要求開發(fā)者從根本上改變其編程方法。從某種意義上來說，這不僅僅是要改變50年來順序程序設(shè)計(jì)的工藝傳統(tǒng)，而且是要改變數(shù)百萬年來人類順序化思考問題的習(xí)慣，其困難程度可想而知！

將近3年后的今天，Herb Sutter的預(yù)言似乎初步得到了印證。單核機(jī)器現(xiàn)在已經(jīng)成了過時(shí)貨，并且很快就會(huì)加入古董的行列。而多核機(jī)器的價(jià)格正在迅速下降。如今花2萬塊錢人民幣，可以買下“三個(gè)8”的刀片服務(wù)器——兩個(gè)4核至強(qiáng)+8G內(nèi)存+四塊200G硬盤。再過一段時(shí)間，這個(gè)配置中的每項(xiàng)數(shù)據(jù)都會(huì)翻番。如果說在雙核時(shí)代我們還可以假裝一切都沒有發(fā)生，那么當(dāng)一臺(tái)機(jī)器上出現(xiàn)16個(gè)核的時(shí)候，敢于去忽略這種體系結(jié)構(gòu)上的根本變革的人，一定是瘋子。

人們正在緊張地尋找著解決多核編程難題的方法。到目前為止，進(jìn)展不太大。目前最理想的結(jié)果，就是類似Intel C++和Intel Fortran這樣的編譯器，可以自動(dòng)識(shí)別可并行化的循環(huán)運(yùn)算，然后實(shí)施自動(dòng)并行化。但是這距離全面并發(fā)還很遙遠(yuǎn)。類似MPI和OpenMP這樣的解決方案雖然早就存在，但是要得到普及難度不小。至于其他的一些常規(guī)方案，無非是優(yōu)化多線程中的一些問題，比如無鎖數(shù)據(jù)結(jié)構(gòu)嘗試避免加鎖和解鎖帶來的巨大開銷，而事務(wù)型內(nèi)存也是為了優(yōu)化多線程程序共享資源的性能和可靠性。專門為并發(fā)系統(tǒng)設(shè)計(jì)的語言Erlang，被很多人視為多核時(shí)代的Java，但是Erlang的長項(xiàng)在于并發(fā)任務(wù)的分發(fā)和同步，用它來處理計(jì)算密集型的任務(wù)，如圖形圖像多媒體處理和數(shù)值計(jì)算，效率之低令人無法接受。也許把Erlang當(dāng)成計(jì)算的dispatcher，而讓每個(gè)核上都繼續(xù)以傳統(tǒng)的單線程方式運(yùn)行C程序是解決這類問題的辦法。但是所有這些方法，都首先要求將任務(wù)分解成可同時(shí)并行的多個(gè)單元，并且將并行計(jì)算中的若干問題定義清楚。也就是說，這些方法都無法解決那個(gè)最大的挑戰(zhàn)：人的思維方式轉(zhuǎn)變問題。不改變我們編寫應(yīng)用程序的傳統(tǒng)線性思維，所有這些工具都沒有太大幫助。毫無疑問，這是擺在我們面前的最大難題之一。

2. 新計(jì)算設(shè)備

寫作此文時(shí)，Amazon剛剛發(fā)布了電子書閱讀器Kindle，這款產(chǎn)品的出現(xiàn)，基本上等于宣告電子閱讀時(shí)代的降臨，它所將引起的沖擊必將是劃時(shí)代的。然而對(duì)于開發(fā)者來說，它卻只不過是在一個(gè)已經(jīng)很長的新計(jì)算設(shè)備名單里又加上了一項(xiàng)。這個(gè)名單中包括：PS2/3，XBox/XBox360，Wii， Tivo，Game Boy、Game Boy Advance，PSP，iPhone，Windows Mobile，Symbian，Linux Mobile，Blackberry，iPod，車載導(dǎo)航儀，當(dāng)然，還有最最激動(dòng)人心的機(jī)器人。有人大而化之將它們統(tǒng)稱為“嵌入式設(shè)備”，然而這是一個(gè)非常具有誤導(dǎo)性的說法，這些設(shè)備中的每一項(xiàng)都不是傳統(tǒng)意義上的“嵌入式設(shè)備”，而是更接近于計(jì)算機(jī)的通用計(jì)算設(shè)備，更確切的說法應(yīng)該是“專用的通用計(jì)算設(shè)備”。

僅僅十幾年以前，我們可以安全地認(rèn)為，世界上每臺(tái)計(jì)算機(jī)都是PC，每臺(tái)PC都用X86 CPU，都安裝了DOS/Windows。隨著最近幾年來新的計(jì)算設(shè)備如雨后春筍般涌現(xiàn)，PC包打天下的時(shí)代已經(jīng)一去不返，這一點(diǎn)已經(jīng)非常清楚不過了。

然而，軟件開發(fā)者并沒有從過去20多年形成的單一平臺(tái)迷思中擺脫出來。在軟件系統(tǒng)開發(fā)中合理運(yùn)用多平臺(tái)特長，充分注重可移植性的思維尚未形成，大部分應(yīng)用還是為傳統(tǒng)PC平臺(tái)開發(fā)的。這一點(diǎn)顯然已經(jīng)落后于時(shí)代的發(fā)展。當(dāng)然，這也就給那些有識(shí)之士提供了難得的機(jī)遇，充分利用多平臺(tái)整合的優(yōu)勢，就可以開發(fā)出革命性的新型應(yīng)用。

3. GPGPU

“CPU——中心處理單元，計(jì)算機(jī)的核心和大腦，一切的一切的主宰�！苯炭茣线@么告訴我們。

很遺憾，這種說法早就不是事實(shí)了。自從類似DMA這樣的技術(shù)出現(xiàn)，CPU就在不斷地“減負(fù)”。事實(shí)上一臺(tái)計(jì)算機(jī)里有許多塊不同的芯片，它們各自有各自的絕活，讓整臺(tái)計(jì)算機(jī)高速運(yùn)轉(zhuǎn)。不過，不管怎么說，CPU還是整臺(tái)電腦里最強(qiáng)有力的中心，它最強(qiáng)大，最能干。對(duì)嗎？

很遺憾，連這個(gè)說法也變得非常脆弱了。在那些裝備有高級(jí)圖形卡的電腦玩家的機(jī)器中，CPU已經(jīng)不是最強(qiáng)大的計(jì)算單元了，取而代之的是GPU。

GPU原本只是為了進(jìn)行3D圖形加速而誕生的芯片，由于其專用性，體系結(jié)構(gòu)較之CPU大大簡化，從而可以高度優(yōu)化設(shè)計(jì)，進(jìn)行大規(guī)模的浮點(diǎn)數(shù)并行計(jì)算。當(dāng)代GPU在這方面的性能遠(yuǎn)遠(yuǎn)超過了CPU。在浮點(diǎn)數(shù)計(jì)算速度上，NVIDIA最新的GPU超過Intel最快的CPU達(dá)10倍以上，而據(jù)稱，這一差距在未來幾年內(nèi)會(huì)達(dá)到數(shù)百倍。單就這一點(diǎn)來說，GPU早就是計(jì)算機(jī)中最快的芯片了。

然而，由于GPU的專用性，大部分通用計(jì)算任務(wù)是無法用GPU來完成的。例如，連最最簡單的分支語句，GPU都無法完成。因此，GPU永遠(yuǎn)不可能取代CPU。但是，GPU強(qiáng)大的計(jì)算能力如果僅僅給高性能圖形程序和游戲來使用，也無疑是一種巨大的計(jì)算資源浪費(fèi)，有沒有可能將GPU的計(jì)算資源暴露給應(yīng)用程序員，由他們將適合于GPU計(jì)算的任務(wù)轉(zhuǎn)交給GPU完成，而把CPU解放出來干CPU擅長的工作呢？沒錯(cuò)，這就是通用GPU計(jì)算（General Purpose GPU computing）的宗旨。

眼下，NVIDIA和AMD（不久前收購ATI）都在加速推出對(duì)GPGPU開發(fā)的支持，而據(jù)傳Intel也將在2008年推出自己的獨(dú)立顯卡，加入戰(zhàn)局。這也就意味著，不出幾年，每臺(tái)電腦里都會(huì)存在兩個(gè)強(qiáng)大的計(jì)算單元，一個(gè)是CPU，一個(gè)是GPU。軟件開發(fā)人員將面臨新的挑戰(zhàn)——只有把任務(wù)合理地分配給CPU和GPU，并且進(jìn)行統(tǒng)一調(diào)度，才能夠達(dá)到效率上的最佳化。此外，那時(shí)候的CPU有8個(gè)或更多的核，而GPU本身更是高度并行化的計(jì)算單元，計(jì)算任務(wù)不僅要合理分布，還需要充分并行，這其中蘊(yùn)含的挑戰(zhàn)之大，足夠令人心驚膽寒。然而，也正正創(chuàng)造了英雄橫空出世的條件，誰能夠橫刀立馬，誰就能功成名就。

4. 無處不在的網(wǎng)絡(luò)

回到Kindle，這個(gè)產(chǎn)品最有趣的部分在于，你可以隨時(shí)通過無線網(wǎng)絡(luò)下載你想看的書，而且這些下載的書被保存在網(wǎng)絡(luò)上你的一個(gè)私人空間里。你永遠(yuǎn)不會(huì)買不到想要的書，也永遠(yuǎn)不用擔(dān)心家里太小，放不下這些書。如果你的Kindle丟失了或者你想換一臺(tái)，沒關(guān)系，你龐大的圖書館會(huì)毫發(fā)無損。

你覺得怎么樣？非常好，對(duì)嗎？但這需要一個(gè)條件，一個(gè)重要的條件——無所不在的網(wǎng)絡(luò)，特別的，無所不在的無線網(wǎng)絡(luò)。

不出幾年，將不會(huì)再存在Internet的死角，在任何地方你都可以高速訪問Internet。對(duì)軟件開發(fā)者來說這意味著什么？這意味著很多過去慣用的軟件設(shè)計(jì)思路將不再是最優(yōu)的了，關(guān)于網(wǎng)絡(luò)訪問限制的很多擔(dān)憂也變得不必要了。應(yīng)用可以保證永遠(yuǎn)連網(wǎng)，用戶數(shù)據(jù)也最好保存在網(wǎng)絡(luò)上，密集的計(jì)算任務(wù)交給網(wǎng)絡(luò)上的高速節(jié)點(diǎn)來執(zhí)行，可能比本地執(zhí)行更快。一言以蔽之，網(wǎng)絡(luò)計(jì)算將全面取代單機(jī)計(jì)算，無論是對(duì)PC來說，還是對(duì)各種各樣的小設(shè)備來說。

更重大的變化可能來自人們的生活方式，當(dāng)互聯(lián)網(wǎng)——這個(gè)目前世界上規(guī)模最大、最自由的網(wǎng)絡(luò)——無處不在并且速度飛快的時(shí)候，其他的通信網(wǎng)絡(luò)還有存在的必要嗎？我們還需要使用中國移動(dòng)的專有網(wǎng)絡(luò)并且每個(gè)月為之付出不菲的費(fèi)用嗎？我們還需要忍受諸如“腦白金”那樣的爛廣告和矯揉造作的爛主持人嗎？我們還需要買日?qǐng)?bào)和雜志嗎？可能都不需要了�；ヂ�(lián)網(wǎng)就是電視，互聯(lián)網(wǎng)就是電話，互聯(lián)網(wǎng)就是報(bào)紙，一切媒體歸于互聯(lián)網(wǎng)。這種局面會(huì)給人類的生存方式帶來一個(gè)重大的變革，在其中蘊(yùn)含著巨大機(jī)會(huì)、挑戰(zhàn)和財(cái)富。在這個(gè)意義上，Google的成功只不過是一個(gè)序曲而已。

如上所述，相信您已經(jīng)意識(shí)到我們處在一個(gè)怎樣的變革當(dāng)中！令我們興奮不已的是，軟件開發(fā)者在這個(gè)變革中處于前鋒的位置，我們準(zhǔn)備好了嗎？

==========
在多核CPU上的多線程并行程序設(shè)計(jì)，究竟應(yīng)該被稱為“并行（parallel）”還是“并發(fā)（concurrency）”，并沒有統(tǒng)一的認(rèn)識(shí)。通常將“并行”定義為在多個(gè)計(jì)算單元上同時(shí)執(zhí)行多個(gè)任務(wù)，而將“并發(fā)”定義為在單個(gè)計(jì)算單元上以分時(shí)的方式“同時(shí)”執(zhí)行多個(gè)任務(wù)，由于多核CPU有多個(gè)計(jì)算單元，因此似乎成為“并行”更加合適。但又因?yàn)閱蝹€(gè)多核CPU對(duì)外只表現(xiàn)為一個(gè)計(jì)算單元，因此似乎“并發(fā)”也很合適。對(duì)這個(gè)問題缺乏統(tǒng)一的認(rèn)識(shí)。從軟件開發(fā)上來看，無論是否執(zhí)行在多個(gè)核上，編程方法本身必須發(fā)生變化，這種變化了的編程方法通常被稱為“并發(fā)編程”，表明這樣方式編寫的程序既可以跑在多個(gè)計(jì)算單元上，也可以以分時(shí)的方式執(zhí)行在一個(gè)計(jì)算單元上。

[ Last edited by csfn on 2008-12-29 at 20:24 ]

回復(fù)此樓

» 收錄本帖的淘帖專輯推薦

學(xué)習(xí)資料

并行計(jì)算

» 猜你喜歡

求化學(xué)調(diào)劑已經(jīng)有5人回復(fù)
085600，材料與化工321分求調(diào)劑已經(jīng)有10人回復(fù)
求調(diào)劑已經(jīng)有4人回復(fù)
0703 化學(xué) 求調(diào)劑，一志愿山東大學(xué) 342 分已經(jīng)有5人回復(fù)
一志愿南開大學(xué)0710生物學(xué)359求調(diào)劑已經(jīng)有3人回復(fù)
085600，專業(yè)課化工原理，320分求調(diào)劑已經(jīng)有4人回復(fù)
材料與化工272求調(diào)劑已經(jīng)有16人回復(fù)
290求調(diào)劑已經(jīng)有3人回復(fù)
327求調(diào)劑已經(jīng)有3人回復(fù)
085600 286分材料求調(diào)劑已經(jīng)有11人回復(fù)

1樓 2007-12-27 10:59:48

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

yalefield

金蟲 (文壇精英)

老漢一枚

應(yīng)助: 129 (高中生)
貴賓: 0.17
金幣: 21238.9
散金: 3440
紅花: 66
帖子: 12101
在線: 759.1小時(shí)
蟲號(hào): 96063
注冊(cè): 2005-10-07
專業(yè): 高等教育學(xué)
管轄: 計(jì)算模擬

《GPU Gems 3》(圖形處理器精粹第三部)

SIGGRAPH 2007大會(huì)上，NVIDIA正式宣布了第三版GPU編程教材：《GPU Gems 3》(圖形處理器精粹第三部)。

NVIDIA表示，《GPU Gems 3》的目的是讓軟件開發(fā)和科學(xué)研究人員充分挖掘GPU的并行運(yùn)算潛力，同時(shí)其中描述的技術(shù)還能幫助游戲開發(fā)人員創(chuàng)造極其逼真的人物角色、更好的光照效果和粘貼渲染合成效果，并增強(qiáng)金融模擬、金融分析，甚至病毒檢測，尤其是NVIDIA CUDA編程架構(gòu)等非圖形類應(yīng)用。

《GPU Gems 3》英文原版有1000頁之多，是GPU硬件編程發(fā)燒友的必備寶典。除了NVIDIA，來自業(yè)界的20多家公司也都參與了該書的編輯，包括蘋果、微軟研究院、世嘉、Crytek、EA、Infinity Ward等等，另外還有不少學(xué)術(shù)機(jī)構(gòu)的貢獻(xiàn)，比如美國康乃爾大學(xué)、伊利諾斯大學(xué)、英國達(dá)特茅斯學(xué)院、倫敦帝國理工學(xué)院、日本東京大學(xué)等。

Crytek首席圖形程序員表示：《GPU Gems》系列匯集了下一代3D引擎所需要的最關(guān)鍵的運(yùn)算法則。

《GPU Gems》頭兩部的中文版分別由人民郵電出版社和清華大學(xué)出版社發(fā)行，第三部的中文版暫時(shí)沒有消息。

贊一下

回復(fù)此樓

5樓2007-12-27 11:07:31

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

查看全部 7 個(gè)回答

yalefield

金蟲 (文壇精英)

老漢一枚

應(yīng)助: 129 (高中生)
貴賓: 0.17
金幣: 21238.9
散金: 3440
紅花: 66
帖子: 12101
在線: 759.1小時(shí)
蟲號(hào): 96063
注冊(cè): 2005-10-07
專業(yè): 高等教育學(xué)
管轄: 計(jì)算模擬

如何通過編程將GPU用于通用計(jì)算任務(wù)

作者：Ian Buck，研究員，美國斯坦福大學(xué)圖形實(shí)驗(yàn)室，E-Mail: ianbuck@graphics.stanford.edu

隨著現(xiàn)代圖形處理器(GPU)可編程能力及性能的提高，應(yīng)用開發(fā)商們一直希望圖形硬件可以解決以前只有通用CPU才能完成的高密集計(jì)算任務(wù)。盡管利用通用GPU進(jìn)行計(jì)算很有發(fā)展前景，但傳統(tǒng)圖像應(yīng)用編程接口仍然將GPU抽象成一個(gè)包括紋理、三角形和像素在內(nèi)的圖像繪制器。尋找一種能夠使用這些基本元素的映射算法并不是一項(xiàng)簡單的操作，即便對(duì)最先進(jìn)的圖形開發(fā)商而言也是如此。

幸運(yùn)的是，基于GPU的計(jì)算從概念上講很容易理解，并且現(xiàn)有多種高級(jí)語言和軟件工具可以簡化GPU的編程工作。但是，開發(fā)商必須首先了解GPU在圖像繪制過程中是如何工作的，然后才能確定可用于計(jì)算的各個(gè)組件。

在繪制圖像時(shí)，GPU首先接收宿主系統(tǒng)以三角頂點(diǎn)形式發(fā)送的幾何數(shù)據(jù)。這些頂點(diǎn)數(shù)據(jù)由一個(gè)可編程的頂點(diǎn)處理器進(jìn)行處理，該處理器可以完成幾何變換、亮度計(jì)算等任何三角形計(jì)算。接下來，這些三角形由一個(gè)固定功能的光柵器轉(zhuǎn)換成顯示在屏幕上的單獨(dú)“碎片(fragment)”。在屏幕顯示之前，每個(gè)碎片都通過一個(gè)可編程的碎片處理器計(jì)算最終顏色值。

計(jì)算碎片顏色的運(yùn)算一般包括集合向量數(shù)學(xué)操作以及從“紋理”中提取存儲(chǔ)數(shù)據(jù)，“紋理”是一種存儲(chǔ)表面材料顏色的位圖。最終繪制的場景可以顯示在輸出設(shè)備上，或是從GPU的存儲(chǔ)器重新復(fù)制到宿主處理器中。

可編程頂點(diǎn)處理器和碎片處理器提供了許多相同的功能和指令集。但是，大部分GPU編程人員只將碎片處理器用于通用計(jì)算任務(wù)，因?yàn)樗ǔＬ峁└鼉?yōu)的性能，而且可以直接輸出到存儲(chǔ)器。

利用碎片處理器進(jìn)行計(jì)算的一個(gè)簡單例子是對(duì)兩個(gè)向量進(jìn)行相加。首先，我們發(fā)布一個(gè)大三角形，其所包含的碎片數(shù)量和向量大小(容納的元素)相同。產(chǎn)生的碎片通過碎片處理器進(jìn)行處理，處理器以單指令多數(shù)據(jù)(SIMD)的并行方式執(zhí)行代碼。進(jìn)行向量相加的代碼從存儲(chǔ)器中提取兩個(gè)待加元素，并根據(jù)碎片的位置進(jìn)行向量相加，同時(shí)為結(jié)果分配輸出顏色。輸出存儲(chǔ)器保存了向量和，這個(gè)值在下一步計(jì)算中可以被任意使用。

可編程碎片處理器的ISA類似于DSP或Pentium SSE的指令集，由四路SIMD指令和寄存器組成。這些指令包括標(biāo)準(zhǔn)數(shù)學(xué)運(yùn)算、存儲(chǔ)器提取指令和幾個(gè)專用圖形指令。

GPU與DSP的比較

GPU在幾個(gè)主要方面有別于DSP架構(gòu)。其所有計(jì)算均使用浮點(diǎn)算法，而且目前還沒有位或整數(shù)運(yùn)算指令。此外，由于GPU專為圖像處理設(shè)計(jì)，因此存儲(chǔ)系統(tǒng)實(shí)際上是一個(gè)二維的分段存儲(chǔ)空間，包括一個(gè)區(qū)段號(hào)(從中讀取圖像)和二維地址(圖像中的X、Y坐標(biāo))。

此外，沒有任何間接寫指令。輸出寫地址由光柵處理器確定，而且不能由程序改變。這對(duì)于自然分布在存儲(chǔ)器之中的算法而言是極大的挑戰(zhàn)。最后一點(diǎn)，不同碎片的處理過程間不允許通信。實(shí)際上，碎片處理器是一個(gè)SIMD數(shù)據(jù)并行執(zhí)行單元，在所有碎片中獨(dú)立執(zhí)行代碼。

盡管有上述約束，但是GPU還是可以有效地執(zhí)行多種運(yùn)算，從線性代數(shù)和信號(hào)處理到數(shù)值仿真。雖然概念簡單，但新用戶在使用GPU計(jì)算時(shí)還是會(huì)感到迷惑，因?yàn)镚PU需要專有的圖形知識(shí)。這種情況下，一些軟件工具可以提供幫助。兩種高級(jí)描影語言CG和HLSL能夠讓用戶編寫類似C的代碼，隨后編譯成碎片程序匯編語言。這些語言編譯器可以從Nvidia和微軟公司的網(wǎng)站免費(fèi)下載。盡管這些語言大大簡化了描影匯編代碼的編寫，但實(shí)際應(yīng)用時(shí)仍然必須使用圖形API來建立并發(fā)布計(jì)算任務(wù)。

Brook是專為GPU計(jì)算設(shè)計(jì)，且不需要圖形知識(shí)的高級(jí)語言。因此對(duì)第一次使用GPU進(jìn)行開發(fā)的工作人員而言，它可以算是一個(gè)很好的起點(diǎn)。Brook是C語言的延伸，整合了可以直接映射到GPU的簡單數(shù)據(jù)并行編程構(gòu)造。

經(jīng)GPU存儲(chǔ)和操作的數(shù)據(jù)被形象地比喻成“流”(stream)，類似于標(biāo)準(zhǔn)C中的數(shù)組。核心(Kernel)是在流上操作的函數(shù)。在一系列輸入流上調(diào)用一個(gè)核心函數(shù)意味著在流元素上實(shí)施了隱含的循環(huán),即對(duì)每一個(gè)流元素調(diào)用核心體。Brook還提供了約簡機(jī)制，例如對(duì)一個(gè)流中所有的元素進(jìn)行和、最大值或乘積計(jì)算。

Brook編譯器是一個(gè)源到源的編譯器，能夠把用戶的核心代碼映射成碎片匯編語言，并生成C++短代碼，從而鏈接到大型應(yīng)用中。這允許用戶只把應(yīng)用中的性能關(guān)鍵部分輸入Brook。Brook還完全隱藏了圖形API的所有細(xì)節(jié)，并把GPU中類似二維存儲(chǔ)器系統(tǒng)這樣許多用戶不熟悉的部分進(jìn)行了虛擬化處理。

用Brook編寫的應(yīng)用程序包括線性代數(shù)子程序、快速傅立葉轉(zhuǎn)換、光線追蹤和圖像處理。Brook的編譯器和實(shí)時(shí)運(yùn)行環(huán)境可以從網(wǎng)站上免費(fèi)獲取。

sourceforge.net網(wǎng)站也為許多此類應(yīng)用提供資源。利用ATI的X800XT和Nvidia的GeForce 6800 Ultra型GPU，在相同高速緩存、SSE匯編優(yōu)化Pentium 4執(zhí)行條件下，許多此類應(yīng)用的速度提升高達(dá)7倍之多。

對(duì)GPU計(jì)算感興趣的用戶努力將算法映射到圖形基本元素。類似Brook這樣的高級(jí)編程語言的問世使編程新手也能夠很容易就掌握GPU的性能優(yōu)勢。訪問GPU計(jì)算功能的便利性也使得GPU的演變將繼續(xù)下去，不僅僅作為繪制引擎，而是會(huì)成為個(gè)人電腦的主要計(jì)算引擎。

圖：執(zhí)行兩向量相加的簡單Brook代碼示例。
Brook支持所有帶附加流數(shù)據(jù)的C句法,
流數(shù)據(jù)存儲(chǔ)于GPU的存儲(chǔ)器中，
而核函數(shù)也在GPU上執(zhí)行。

贊一下

回復(fù)此樓

2樓2007-12-27 11:02:37

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

yalefield

金蟲 (文壇精英)

老漢一枚

應(yīng)助: 129 (高中生)
貴賓: 0.17
金幣: 21238.9
散金: 3440
紅花: 66
帖子: 12101
在線: 759.1小時(shí)
蟲號(hào): 96063
注冊(cè): 2005-10-07
專業(yè): 高等教育學(xué)
管轄: 計(jì)算模擬

BrookGPU編譯器----讓GPU模擬CPU的一般應(yīng)用

Rookie

　　BrookGPU是斯坦福大學(xué)一個(gè)相當(dāng)有趣的項(xiàng)目，它可以為你展現(xiàn)當(dāng)前GPU的強(qiáng)大性能，雖然目前GPU尚不能完全取代CPU，但是這個(gè)編譯器為GPU模擬CPU的一般應(yīng)用提供了一個(gè)運(yùn)行環(huán)境。

　　BrookGPU是一個(gè)編譯器和實(shí)時(shí)系統(tǒng)，可以為當(dāng)前GPU提供簡單的類似C的編程環(huán)境。一個(gè)運(yùn)行在NVIDIA GeForce FX 5900 Ultra的shader程序運(yùn)算速度可達(dá)20 GFLOPS，相當(dāng)于 10GHz的Pentium 4，而且圖形系統(tǒng)的內(nèi)存帶寬為25.3 GB/sec，相比Pentium 4只有5.96 GB/sec。從這兩個(gè)原始數(shù)據(jù)不難看出GPU是一個(gè)非�？斓倪\(yùn)算引擎，但是由于GPU的專用性，所以在其上編程相當(dāng)痛苦。BrookGPU在C基礎(chǔ)之上增加了簡單的數(shù)據(jù)并行語言，可以讓程序員指定在GPU上運(yùn)行的部分特定代碼，而BrookGPU編譯器來負(fù)責(zé)實(shí)時(shí)運(yùn)行其他的部分。

　　首先聲明，我個(gè)人并不是Programmer，感覺當(dāng)前GPU長于復(fù)雜的矢量(矩陣)計(jì)算(Vertex shader的強(qiáng)大應(yīng)該就是幾何轉(zhuǎn)換的可編程性能)?因此從事一般的此類計(jì)算應(yīng)該有很高的效率？

　　我還記得Epic的首席程序員Tim Sweency說過未來隨著CPU功能不斷增強(qiáng)，特定應(yīng)用的GPU將會(huì)消失。也許未來終究將會(huì)有一個(gè)CPU/GPU從事所有的運(yùn)算?

贊一下

回復(fù)此樓

3樓2007-12-27 11:04:19

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

yalefield

金蟲 (文壇精英)

老漢一枚

應(yīng)助: 129 (高中生)
貴賓: 0.17
金幣: 21238.9
散金: 3440
紅花: 66
帖子: 12101
在線: 759.1小時(shí)
蟲號(hào): 96063
注冊(cè): 2005-10-07
專業(yè): 高等教育學(xué)
管轄: 計(jì)算模擬

Nvidia的未來之路獨(dú)立GPU和高性能計(jì)算

Arstechnica刊登了一篇名為NVIDIA on the highwire: the GeForce 8800 and beyond的文章,該文主要援引Nvidia投資關(guān)系部副總裁Mike Hara最近在投資會(huì)議上的言論對(duì)Nvidia的未來進(jìn)行了分析，包括未來的獨(dú)立顯卡市場，競爭對(duì)手AMD/ATi R600發(fā)布，Intel未來的獨(dú)立GPU產(chǎn)品以及高性能計(jì)算市場等等。

首先，Hara重申了Nvidia的產(chǎn)品周期策略，即每年秋季發(fā)布高端產(chǎn)品，在來年年初發(fā)布中端產(chǎn)品，低端產(chǎn)品隨后在跟進(jìn)。按照這個(gè)策略來看，目前Nvidia正摘主打低端產(chǎn)品市場，并準(zhǔn)備秋季的高端產(chǎn)品。Hara進(jìn)一步透漏，在今秋我們不僅將看到后G80高端產(chǎn)品的發(fā)布，還將看到Nvidia的首個(gè)65nm GPU。從90nm到65nm的過渡將使得Nvidia在工藝上和AMD/ATi并駕齊驅(qū)，同時(shí)有更大的空間提升性能和產(chǎn)品利潤，當(dāng)然這和取決于AMD/ATi下一代產(chǎn)品的進(jìn)展情況。

在談到工藝技術(shù)時(shí)，Hara強(qiáng)調(diào)說Nvidia提高產(chǎn)能的長期技巧就是處理器工業(yè)常用的可配置性。簡而言之，就是Nvidia工廠對(duì)于產(chǎn)品進(jìn)行功能測試，如果所有像素流水線都能開啟，那么將標(biāo)識(shí)為高端產(chǎn)品，如果有些流水線無法工作，那么工廠將屏蔽某些電路，將該芯片配置成更少流水線，更低時(shí)鐘的低端產(chǎn)品。

Hara同時(shí)也和投資者坦承，Nvidia要繼續(xù)保持20%的年增長率，必須面臨三個(gè)挑戰(zhàn):

1.與AMD/ATi聯(lián)軍，以及計(jì)劃引入獨(dú)立GPU的Intel相比，Nvidia毫無疑問是三強(qiáng)中最弱的一家，而且Nvidia是唯一一家沒有類似Fusion計(jì)劃，CPU+GPU產(chǎn)品長期計(jì)劃的廠商。
2.獨(dú)立圖形已成成熟產(chǎn)業(yè)，沒有多少提升的市場空間
3.Intel未來的獨(dú)立GPU將蠶食獨(dú)立GPU市場不多的空間

但Hara告訴投資者，關(guān)于人們對(duì)Nvidia沒有CPU/GPU整合產(chǎn)品的擔(dān)心是多余的:第一，CPU+GPU產(chǎn)品只適用于低端產(chǎn)品；第二，即使在低端市場，該產(chǎn)品也將不會(huì)有太大作為。Hara認(rèn)為他之所以得出以上結(jié)論，是因?yàn)楠?dú)立GPU非常復(fù)雜，如果非要將GPU和CPU整合在一個(gè)內(nèi)核中，那么你必須割舍某些重要功能。他不認(rèn)為這種產(chǎn)品有什么太大價(jià)值，特別是與整合圖形功能的芯片組相比而言。

Hara和JP Morgan說:"即使有這么個(gè)產(chǎn)品，那也將是Intel和AMD之間的戰(zhàn)爭，我不認(rèn)為它將改變獨(dú)立GPU市場。"

接著，正如上述，Hara談到了Nvidia的重點(diǎn)市場，獨(dú)立GPU市場。也許是受到CPU入侵GPU市場的影響，Hara長篇大論談了GPU將是計(jì)算機(jī)的下一波浪潮，而CPU將成為過去。

Hara表示，商業(yè)計(jì)算機(jī)市場和筆記本計(jì)算性能需求的萎縮正是Nvidia與Intel和AMD/ATi相對(duì)抗的動(dòng)力所在。相比而言，在消費(fèi)和娛樂市場需要不斷提高，而正促使Nvidia將在不久后進(jìn)入GigaFLOP時(shí)代。

Hara說:"我們正在驅(qū)動(dòng)你們的體驗(yàn)，嘗試看看你們獲得體驗(yàn)的東東吧--那正是我們的平臺(tái)。"

Hara對(duì)Nvidia前景表示樂觀:"GPU不僅僅是用戶體驗(yàn)，而且是未來娛樂和醫(yī)療圖像等所有體驗(yàn)的下一個(gè)重點(diǎn)所在。"這也許是Nvidia可以保持在獨(dú)立GPU市場高速增長的原因所在。

而在消費(fèi)市場，Hara還舉例說明了Vista 3D界面，高分視頻以及網(wǎng)絡(luò)視頻的流行作為證據(jù)，強(qiáng)調(diào)未來無論是桌面還是筆記本市場，對(duì)獨(dú)立GPU產(chǎn)品仍有更高需求。

Hara和德國銀行證券說:"我寧愿相信高性能市場占40%，而低端市場占60%。"

Nvidia將獨(dú)立GPU市場增長冀望于用戶體驗(yàn)，GFLOPS性能的跨越則允許Nvidia繼續(xù)拓展核心消費(fèi)GPU業(yè)務(wù)。

Hara說:"我們正在改變核心市場，使之成為娛樂驅(qū)動(dòng)空間，這樣我們可以將核心市場以外技術(shù)帶到我們前所未有的境界。"

Hara還表示Nvidia將繼續(xù)開拓石油，天然氣和醫(yī)療圖像市場，很顯然Nvidia非常重視高性能計(jì)算市場。而目前，Nvidia將Intel的Larrabee圖形項(xiàng)目視為最大的威脅所在。

但Hara仍然保持自信，并對(duì)Larrabee提出了批評(píng)，諸如缺乏成熟驅(qū)動(dòng)，代碼以及軟件生態(tài)系統(tǒng)等等。他說，Larrabee實(shí)際上就是多內(nèi)核的x86。

總之，Nvidia在面臨Intel和AMD兩強(qiáng)的競爭中，仍然在高空中孤獨(dú)而又危險(xiǎn)地走著鋼絲。Nvidia必須嚴(yán)格執(zhí)行產(chǎn)品策略，并維持在獨(dú)立GPU市場的領(lǐng)先地位，它同時(shí)還要追逐高性能計(jì)算市場，Nvidia必須保持兩手都要硬，否則將沒有機(jī)會(huì)用綠色眼睛看到驅(qū)動(dòng)地球所有像素時(shí)代的到來。

在加州San Jose召開的微處理器2007論壇上,Nvidia公司架構(gòu)主管Nicklls稱:“圖形處理器只是放在一邊,許多人都提出了這個(gè)偉大的創(chuàng)意:嘿,讓我們用GPU做些事情.”

該架構(gòu)主管指出,當(dāng)圖形處理器未執(zhí)行圖形相關(guān)任務(wù)時(shí),GPU可與中央處理器并行執(zhí)行計(jì)算任務(wù).從而使每秒浮點(diǎn)計(jì)算次數(shù)達(dá)到2000億.

Nvidia公司發(fā)布了名為“統(tǒng)一計(jì)算設(shè)備架構(gòu)”軟件(CUDA)的測試版,該軟件將于今年下半年正式推出.CUDA可讓開發(fā)商編寫指令程序,以便讓GPU執(zhí)行通常由CPU執(zhí)行的計(jì)算任務(wù).Nvidia公司表示,將GPU當(dāng)作CPU并不一種新思想,但Nvidia公司的新軟件能使開發(fā)商更容易地實(shí)現(xiàn)目標(biāo).

CUDA只能用于一定型號(hào)的圖形處理器,包括Nvidia的GeForce 8800和8600,還有06年11月發(fā)布的FX 4600和5600.

Nvidia公司指出,用戶購買GPU的目的是圖形處理,但在PC的絕大部分工作時(shí)間中它是閑置的,如果你充分發(fā)揮了GPU的功能,你的電腦就能成為一臺(tái)大功率、高性能的并行計(jì)算系統(tǒng).”

贊一下

回復(fù)此樓

6樓2007-12-27 11:10:13

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

查看全部 7 個(gè)回答

普通表情龍兔虎貓高級(jí)回復(fù) (可上傳附件)

最具人氣熱帖推薦 [查看全部]		作者	回/看	最后發(fā)表

[考研] 311求調(diào)劑 +6	冬十三 2026-03-24	6/300	2026-03-29 20:45 by 無際的草原
[考研] 070300化學(xué)354求調(diào)劑 +6	101次希望 2026-03-28	6/300	2026-03-29 12:57 by 無際的草原
[考研] 學(xué)碩274求調(diào)劑 +9	Li李魚 2026-03-26	9/450	2026-03-28 21:42 by bymhappy
[考研] 食品工程專碩一志愿中海洋309求調(diào)劑 +4	小張zxy張 2026-03-26	8/400	2026-03-28 19:25 by lbsjt
[考研] 070300求調(diào)劑306分 +4	26要上岸 2026-03-27	4/200	2026-03-28 13:06 by 唐沐兒
[考研] 0856，材料與化工321分求調(diào)劑 +12	大饞小子 2026-03-27	13/650	2026-03-28 10:56 by self2008
[考研] 291求調(diào)劑 +6	HanBeiNingZC 2026-03-24	6/300	2026-03-28 07:55 by baoball
[考研] 086502化學(xué)工程342求調(diào)劑 +6	阿姨復(fù)古不過 2026-03-27	6/300	2026-03-28 07:06 by wangy0907
[考研] 安徽大學(xué)專碩生物與醫(yī)藥專業(yè)(086000)324分，英語已過四六級(jí)，六級(jí)521，求調(diào)劑 +4	美味可樂雞翅 2026-03-26	4/200	2026-03-27 15:27 by 星空星月
[考研] 08開頭275求調(diào)劑 +4	拉誰不重要 2026-03-26	4/200	2026-03-27 14:12 by Delta2012
[考研] 324求調(diào)劑 +5	hanamiko 2026-03-26	5/250	2026-03-27 10:33 by wangjy2002
[考研] 276求調(diào)劑。有半年電池和半年高分子實(shí)習(xí)經(jīng)歷 +10	材料學(xué)257求調(diào)劑 2026-03-23	11/550	2026-03-27 10:13 by YCIT- LHL
[考研] 321求調(diào)劑 +6	wasdssaa 2026-03-26	6/300	2026-03-26 20:57 by sanrepian
[考研] 總分322求生物學(xué)/生化與分子/生物信息學(xué)相關(guān)調(diào)劑 +5	星沉uu 2026-03-26	6/300	2026-03-26 19:02 by macy2011
[考研] 材料與化工304求B區(qū)調(diào)劑 +3	邱gl 2026-03-26	6/300	2026-03-26 18:03 by 邱gl
[考研] 材料考研求調(diào)劑 +3	Dendel 2026-03-23	6/300	2026-03-26 17:51 by fmesaito
[考研] 各位老師您好：本人初試372分 +5	jj涌77 2026-03-25	6/300	2026-03-25 14:15 by mapenggao
[考研] 上海電力大學(xué)材料防護(hù)與新材料重點(diǎn)實(shí)驗(yàn)室招收調(diào)劑研究生（材料、化學(xué)、電化學(xué)，環(huán)境） +4	我愛學(xué)電池 2026-03-23	4/200	2026-03-25 00:59 by 1027_324
[考研] 材料考研調(diào)劑生 +3	黃粱一夢(mèng)千年 2026-03-24	3/150	2026-03-24 17:00 by barlinike
[考研] 328求調(diào)劑 +4	LHHL66 2026-03-23	4/200	2026-03-23 14:55 by lbsjt

亭亭五月天在线观看,亭亭五月天在线观看,国产最新av一区二区,国产 高清 中文字幕,99re热久久亚洲综合精品成人,熟妇 一区二区三区,一级做a爰片性色毛片武则天,美女的骚穴视频播放,国产美女午夜免费视频

24小時(shí)熱門版塊排行榜

yalefield

[交流] 談?wù)凣PU吧

» 收錄本帖的淘帖專輯推薦

» 猜你喜歡

yalefield

《GPU Gems 3》(圖形處理器精粹第三部)

yalefield

如何通過編程將GPU用于通用計(jì)算任務(wù)

yalefield

BrookGPU編譯器----讓GPU模擬CPU的一般應(yīng)用

yalefield

Nvidia的未來之路獨(dú)立GPU和高性能計(jì)算

亭亭五月天在线观看,亭亭五月天在线观看,国产最新av一区二区,国产高清中文字幕,99re热久久亚洲综合精品成人,熟妇一区二区三区,一级做a爰片性色毛片武则天,美女的骚穴视频播放,国产美女午夜免费视频