| 7 | 1/1 | 返回列表 |
| 查看: 2259 | 回復: 6 | |||||
| 當前主題已經(jīng)存檔。 | |||||
yalefield金蟲 (文壇精英)
老漢一枚
|
[交流]
談談GPU吧
|
||||
|
先來點兒虛的。 計算基礎正在發(fā)生根本變革——解讀“計算2.0” 孟巖 從本質上看,軟件實際上只是夾在人與硬件之間的一個中間層,人們使用軟件的根本目的還是要讓硬件運轉起來為自己服務。硬件平臺如果長期穩(wěn)定,軟件就能夠安穩(wěn)發(fā)展,建起高樓大廈,硬件基礎如果打個噴嚏,軟件就會得一場感冒。過去十幾年來,我們的計算環(huán)境已經(jīng)發(fā)生了很多變化,比如RISC的興起,大規(guī)模服務器集群的發(fā)展,SIMD的普及,特別是網(wǎng)絡的大發(fā)展,令人印象深刻。每一項變化都給軟件帶來一定程度的沖擊。不過大部分情況下,這種沖擊力度有限:只需要有一小部分人去關注就好了,他們會盡可能把這些變化包裝起來,從而使得其余的絕大部分人不受影響,而又能夠享受硬件發(fā)展帶來的免費午餐。比如說,RISC跟硬件平臺帶來的變革是非常巨大的,但是只有編譯器和操作系統(tǒng)開發(fā)者真正需要關注它。SIMD(MMX、3DNow!、SSEx)的發(fā)展使普通計算機處理多媒體數(shù)據(jù)的能力獲得了本質提升,但是廠商們也推出了一系列封裝庫,使應用軟件開發(fā)者們在不需對開發(fā)方式做重大改變的情況下享受這些發(fā)展成果。 然而站在今天這個時間點上往前看,就會看到,情況在發(fā)生的變化。發(fā)生在若干個不同領域的硬件進展,幾乎在同時達到了可以被稱之為“本質變化”的狀態(tài)。而所有這些變化結合起來,則使我們面對一個自1980年代初PC崛起以來從來沒有過的局面,一個可以毫不夸張地稱之為“變革”的局面,我們稱之為“計算2.0”。在“計算2.0”的時代里,軟件開發(fā)者面對的平臺會發(fā)生巨大的變化,而且這些變化很多是非常本質的,無法簡單地使用“包裝”的手段屏蔽掉,從而要求軟件開發(fā)的實踐也必將隨之發(fā)生巨大的變化。這對軟件產(chǎn)業(yè)的每一個人來說,是歷史上很少會遇到的情況,給我們帶來巨大的挑戰(zhàn)和機遇。 下面就讓我們一起來展望一下“計算2.0”將給我們帶來的沖擊。 1. 多核與并發(fā)編程 自從2005年初C++標準委員會主席Herb Sutter發(fā)表《并發(fā)的革命——免費午餐已經(jīng)結束》的著名文章以來,多核已經(jīng)成為整個軟件社群里熱門話題。在那篇文章里,Herb Sutter斷言說,CPU頻率的提高已經(jīng)接近極限,摩爾定律的發(fā)展今后將依賴多核化進行下去,因此,軟件若要在未來的環(huán)境下生存,必須考慮并發(fā)問題。接著,Herb Sutter做出了更大膽和更驚人的語言,那就是不存在解決多核編程問題的銀彈,不存在可以簡單地將并發(fā)編程問題化解掉的工具,開發(fā)高性能的并行程序必須要求開發(fā)者從根本上改變其編程方法。從某種意義上來說,這不僅僅是要改變50年來順序程序設計的工藝傳統(tǒng),而且是要改變數(shù)百萬年來人類順序化思考問題的習慣,其困難程度可想而知! 將近3年后的今天,Herb Sutter的預言似乎初步得到了印證。單核機器現(xiàn)在已經(jīng)成了過時貨,并且很快就會加入古董的行列。而多核機器的價格正在迅速下降。如今花2萬塊錢人民幣,可以買下“三個8”的刀片服務器——兩個4核至強+8G內(nèi)存+四塊200G硬盤。再過一段時間,這個配置中的每項數(shù)據(jù)都會翻番。如果說在雙核時代我們還可以假裝一切都沒有發(fā)生,那么當一臺機器上出現(xiàn)16個核的時候,敢于去忽略這種體系結構上的根本變革的人,一定是瘋子。 人們正在緊張地尋找著解決多核編程難題的方法。到目前為止,進展不太大。目前最理想的結果,就是類似Intel C++和Intel Fortran這樣的編譯器,可以自動識別可并行化的循環(huán)運算,然后實施自動并行化。但是這距離全面并發(fā)還很遙遠。類似MPI和OpenMP這樣的解決方案雖然早就存在,但是要得到普及難度不小。至于其他的一些常規(guī)方案,無非是優(yōu)化多線程中的一些問題,比如無鎖數(shù)據(jù)結構嘗試避免加鎖和解鎖帶來的巨大開銷,而事務型內(nèi)存也是為了優(yōu)化多線程程序共享資源的性能和可靠性。專門為并發(fā)系統(tǒng)設計的語言Erlang,被很多人視為多核時代的Java,但是Erlang的長項在于并發(fā)任務的分發(fā)和同步,用它來處理計算密集型的任務,如圖形圖像多媒體處理和數(shù)值計算,效率之低令人無法接受。也許把Erlang當成計算的dispatcher,而讓每個核上都繼續(xù)以傳統(tǒng)的單線程方式運行C程序是解決這類問題的辦法。但是所有這些方法,都首先要求將任務分解成可同時并行的多個單元,并且將并行計算中的若干問題定義清楚。也就是說,這些方法都無法解決那個最大的挑戰(zhàn):人的思維方式轉變問題。不改變我們編寫應用程序的傳統(tǒng)線性思維,所有這些工具都沒有太大幫助。毫無疑問,這是擺在我們面前的最大難題之一。 2. 新計算設備 寫作此文時,Amazon剛剛發(fā)布了電子書閱讀器Kindle,這款產(chǎn)品的出現(xiàn),基本上等于宣告電子閱讀時代的降臨,它所將引起的沖擊必將是劃時代的。然而對于開發(fā)者來說,它卻只不過是在一個已經(jīng)很長的新計算設備名單里又加上了一項。這個名單中包括:PS2/3,XBox/XBox360,Wii, Tivo,Game Boy、Game Boy Advance,PSP,iPhone,Windows Mobile,Symbian,Linux Mobile,Blackberry,iPod,車載導航儀,當然,還有最最激動人心的機器人。有人大而化之將它們統(tǒng)稱為“嵌入式設備”,然而這是一個非常具有誤導性的說法,這些設備中的每一項都不是傳統(tǒng)意義上的“嵌入式設備”,而是更接近于計算機的通用計算設備,更確切的說法應該是“專用的通用計算設備”。 僅僅十幾年以前,我們可以安全地認為,世界上每臺計算機都是PC,每臺PC都用X86 CPU,都安裝了DOS/Windows。隨著最近幾年來新的計算設備如雨后春筍般涌現(xiàn),PC包打天下的時代已經(jīng)一去不返,這一點已經(jīng)非常清楚不過了。 然而,軟件開發(fā)者并沒有從過去20多年形成的單一平臺迷思中擺脫出來。在軟件系統(tǒng)開發(fā)中合理運用多平臺特長,充分注重可移植性的思維尚未形成,大部分應用還是為傳統(tǒng)PC平臺開發(fā)的。這一點顯然已經(jīng)落后于時代的發(fā)展。當然,這也就給那些有識之士提供了難得的機遇,充分利用多平臺整合的優(yōu)勢,就可以開發(fā)出革命性的新型應用。 3. GPGPU “CPU——中心處理單元,計算機的核心和大腦,一切的一切的主宰!苯炭茣线@么告訴我們。 很遺憾,這種說法早就不是事實了。自從類似DMA這樣的技術出現(xiàn),CPU就在不斷地“減負”。事實上一臺計算機里有許多塊不同的芯片,它們各自有各自的絕活,讓整臺計算機高速運轉。不過,不管怎么說,CPU還是整臺電腦里最強有力的中心,它最強大,最能干。對嗎? 很遺憾,連這個說法也變得非常脆弱了。在那些裝備有高級圖形卡的電腦玩家的機器中,CPU已經(jīng)不是最強大的計算單元了,取而代之的是GPU。 GPU原本只是為了進行3D圖形加速而誕生的芯片,由于其專用性,體系結構較之CPU大大簡化,從而可以高度優(yōu)化設計,進行大規(guī)模的浮點數(shù)并行計算。當代GPU在這方面的性能遠遠超過了CPU。在浮點數(shù)計算速度上,NVIDIA最新的GPU超過Intel最快的CPU達10倍以上,而據(jù)稱,這一差距在未來幾年內(nèi)會達到數(shù)百倍。單就這一點來說,GPU早就是計算機中最快的芯片了。 然而,由于GPU的專用性,大部分通用計算任務是無法用GPU來完成的。例如,連最最簡單的分支語句,GPU都無法完成。因此,GPU永遠不可能取代CPU。但是,GPU強大的計算能力如果僅僅給高性能圖形程序和游戲來使用,也無疑是一種巨大的計算資源浪費,有沒有可能將GPU的計算資源暴露給應用程序員,由他們將適合于GPU計算的任務轉交給GPU完成,而把CPU解放出來干CPU擅長的工作呢?沒錯,這就是通用GPU計算(General Purpose GPU computing)的宗旨。 眼下,NVIDIA和AMD(不久前收購ATI)都在加速推出對GPGPU開發(fā)的支持,而據(jù)傳Intel也將在2008年推出自己的獨立顯卡,加入戰(zhàn)局。這也就意味著,不出幾年,每臺電腦里都會存在兩個強大的計算單元,一個是CPU,一個是GPU。軟件開發(fā)人員將面臨新的挑戰(zhàn)——只有把任務合理地分配給CPU和GPU,并且進行統(tǒng)一調度,才能夠達到效率上的最佳化。此外,那時候的CPU有8個或更多的核,而GPU本身更是高度并行化的計算單元,計算任務不僅要合理分布,還需要充分并行,這其中蘊含的挑戰(zhàn)之大,足夠令人心驚膽寒。然而,也正正創(chuàng)造了英雄橫空出世的條件,誰能夠橫刀立馬,誰就能功成名就。 4. 無處不在的網(wǎng)絡 回到Kindle,這個產(chǎn)品最有趣的部分在于,你可以隨時通過無線網(wǎng)絡下載你想看的書,而且這些下載的書被保存在網(wǎng)絡上你的一個私人空間里。你永遠不會買不到想要的書,也永遠不用擔心家里太小,放不下這些書。如果你的Kindle丟失了或者你想換一臺,沒關系,你龐大的圖書館會毫發(fā)無損。 你覺得怎么樣?非常好,對嗎?但這需要一個條件,一個重要的條件——無所不在的網(wǎng)絡,特別的,無所不在的無線網(wǎng)絡。 不出幾年,將不會再存在Internet的死角,在任何地方你都可以高速訪問Internet。對軟件開發(fā)者來說這意味著什么?這意味著很多過去慣用的軟件設計思路將不再是最優(yōu)的了,關于網(wǎng)絡訪問限制的很多擔憂也變得不必要了。應用可以保證永遠連網(wǎng),用戶數(shù)據(jù)也最好保存在網(wǎng)絡上,密集的計算任務交給網(wǎng)絡上的高速節(jié)點來執(zhí)行,可能比本地執(zhí)行更快。一言以蔽之,網(wǎng)絡計算將全面取代單機計算,無論是對PC來說,還是對各種各樣的小設備來說。 更重大的變化可能來自人們的生活方式,當互聯(lián)網(wǎng)——這個目前世界上規(guī)模最大、最自由的網(wǎng)絡——無處不在并且速度飛快的時候,其他的通信網(wǎng)絡還有存在的必要嗎?我們還需要使用中國移動的專有網(wǎng)絡并且每個月為之付出不菲的費用嗎?我們還需要忍受諸如“腦白金”那樣的爛廣告和矯揉造作的爛主持人嗎?我們還需要買日報和雜志嗎?可能都不需要了;ヂ(lián)網(wǎng)就是電視,互聯(lián)網(wǎng)就是電話,互聯(lián)網(wǎng)就是報紙,一切媒體歸于互聯(lián)網(wǎng)。這種局面會給人類的生存方式帶來一個重大的變革,在其中蘊含著巨大機會、挑戰(zhàn)和財富。在這個意義上,Google的成功只不過是一個序曲而已。 如上所述,相信您已經(jīng)意識到我們處在一個怎樣的變革當中!令我們興奮不已的是,軟件開發(fā)者在這個變革中處于前鋒的位置,我們準備好了嗎? ========== 在多核CPU上的多線程并行程序設計,究竟應該被稱為“并行(parallel)”還是“并發(fā)(concurrency)”,并沒有統(tǒng)一的認識。通常將“并行”定義為在多個計算單元上同時執(zhí)行多個任務,而將“并發(fā)”定義為在單個計算單元上以分時的方式“同時”執(zhí)行多個任務,由于多核CPU有多個計算單元,因此似乎成為“并行”更加合適。但又因為單個多核CPU對外只表現(xiàn)為一個計算單元,因此似乎“并發(fā)”也很合適。對這個問題缺乏統(tǒng)一的認識。從軟件開發(fā)上來看,無論是否執(zhí)行在多個核上,編程方法本身必須發(fā)生變化,這種變化了的編程方法通常被稱為“并發(fā)編程”,表明這樣方式編寫的程序既可以跑在多個計算單元上,也可以以分時的方式執(zhí)行在一個計算單元上。 [ Last edited by csfn on 2008-12-29 at 20:24 ] |
學習資料 | 并行計算 |
金蟲 (文壇精英)
老漢一枚
|
作者:Ian Buck,研究員,美國斯坦福大學圖形實驗室,E-Mail: ianbuck@graphics.stanford.edu 隨著現(xiàn)代圖形處理器(GPU)可編程能力及性能的提高,應用開發(fā)商們一直希望圖形硬件可以解決以前只有通用CPU才能完成的高密集計算任務。盡管利用通用GPU進行計算很有發(fā)展前景,但傳統(tǒng)圖像應用編程接口仍然將GPU抽象成一個包括紋理、三角形和像素在內(nèi)的圖像繪制器。尋找一種能夠使用這些基本元素的映射算法并不是一項簡單的操作,即便對最先進的圖形開發(fā)商而言也是如此。 幸運的是,基于GPU的計算從概念上講很容易理解,并且現(xiàn)有多種高級語言和軟件工具可以簡化GPU的編程工作。但是,開發(fā)商必須首先了解GPU在圖像繪制過程中是如何工作的,然后才能確定可用于計算的各個組件。 在繪制圖像時,GPU首先接收宿主系統(tǒng)以三角頂點形式發(fā)送的幾何數(shù)據(jù)。這些頂點數(shù)據(jù)由一個可編程的頂點處理器進行處理,該處理器可以完成幾何變換、亮度計算等任何三角形計算。接下來,這些三角形由一個固定功能的光柵器轉換成顯示在屏幕上的單獨“碎片(fragment)”。在屏幕顯示之前,每個碎片都通過一個可編程的碎片處理器計算最終顏色值。 計算碎片顏色的運算一般包括集合向量數(shù)學操作以及從“紋理”中提取存儲數(shù)據(jù),“紋理”是一種存儲表面材料顏色的位圖。最終繪制的場景可以顯示在輸出設備上,或是從GPU的存儲器重新復制到宿主處理器中。 可編程頂點處理器和碎片處理器提供了許多相同的功能和指令集。但是,大部分GPU編程人員只將碎片處理器用于通用計算任務,因為它通常提供更優(yōu)的性能,而且可以直接輸出到存儲器。 利用碎片處理器進行計算的一個簡單例子是對兩個向量進行相加。首先,我們發(fā)布一個大三角形,其所包含的碎片數(shù)量和向量大小(容納的元素)相同。產(chǎn)生的碎片通過碎片處理器進行處理,處理器以單指令多數(shù)據(jù)(SIMD)的并行方式執(zhí)行代碼。進行向量相加的代碼從存儲器中提取兩個待加元素,并根據(jù)碎片的位置進行向量相加,同時為結果分配輸出顏色。輸出存儲器保存了向量和,這個值在下一步計算中可以被任意使用。 可編程碎片處理器的ISA類似于DSP或Pentium SSE的指令集,由四路SIMD指令和寄存器組成。這些指令包括標準數(shù)學運算、存儲器提取指令和幾個專用圖形指令。 GPU與DSP的比較 GPU在幾個主要方面有別于DSP架構。其所有計算均使用浮點算法,而且目前還沒有位或整數(shù)運算指令。此外,由于GPU專為圖像處理設計,因此存儲系統(tǒng)實際上是一個二維的分段存儲空間,包括一個區(qū)段號(從中讀取圖像)和二維地址(圖像中的X、Y坐標)。 此外,沒有任何間接寫指令。輸出寫地址由光柵處理器確定,而且不能由程序改變。這對于自然分布在存儲器之中的算法而言是極大的挑戰(zhàn)。最后一點,不同碎片的處理過程間不允許通信。實際上,碎片處理器是一個SIMD數(shù)據(jù)并行執(zhí)行單元,在所有碎片中獨立執(zhí)行代碼。 盡管有上述約束,但是GPU還是可以有效地執(zhí)行多種運算,從線性代數(shù)和信號處理到數(shù)值仿真。雖然概念簡單,但新用戶在使用GPU計算時還是會感到迷惑,因為GPU需要專有的圖形知識。這種情況下,一些軟件工具可以提供幫助。兩種高級描影語言CG和HLSL能夠讓用戶編寫類似C的代碼,隨后編譯成碎片程序匯編語言。這些語言編譯器可以從Nvidia和微軟公司的網(wǎng)站免費下載。盡管這些語言大大簡化了描影匯編代碼的編寫,但實際應用時仍然必須使用圖形API來建立并發(fā)布計算任務。 Brook是專為GPU計算設計,且不需要圖形知識的高級語言。因此對第一次使用GPU進行開發(fā)的工作人員而言,它可以算是一個很好的起點。Brook是C語言的延伸,整合了可以直接映射到GPU的簡單數(shù)據(jù)并行編程構造。 經(jīng)GPU存儲和操作的數(shù)據(jù)被形象地比喻成“流”(stream),類似于標準C中的數(shù)組。核心(Kernel)是在流上操作的函數(shù)。在一系列輸入流上調用一個核心函數(shù)意味著在流元素上實施了隱含的循環(huán),即對每一個流元素調用核心體。Brook還提供了約簡機制,例如對一個流中所有的元素進行和、最大值或乘積計算。 Brook編譯器是一個源到源的編譯器,能夠把用戶的核心代碼映射成碎片匯編語言,并生成C++短代碼,從而鏈接到大型應用中。這允許用戶只把應用中的性能關鍵部分輸入Brook。Brook還完全隱藏了圖形API的所有細節(jié),并把GPU中類似二維存儲器系統(tǒng)這樣許多用戶不熟悉的部分進行了虛擬化處理。 用Brook編寫的應用程序包括線性代數(shù)子程序、快速傅立葉轉換、光線追蹤和圖像處理。Brook的編譯器和實時運行環(huán)境可以從網(wǎng)站上免費獲取。 sourceforge.net網(wǎng)站也為許多此類應用提供資源。利用ATI的X800XT和Nvidia的GeForce 6800 Ultra型GPU,在相同高速緩存、SSE匯編優(yōu)化Pentium 4執(zhí)行條件下,許多此類應用的速度提升高達7倍之多。 對GPU計算感興趣的用戶努力將算法映射到圖形基本元素。類似Brook這樣的高級編程語言的問世使編程新手也能夠很容易就掌握GPU的性能優(yōu)勢。訪問GPU計算功能的便利性也使得GPU的演變將繼續(xù)下去,不僅僅作為繪制引擎,而是會成為個人電腦的主要計算引擎。 圖:執(zhí)行兩向量相加的簡單Brook代碼示例。 Brook支持所有帶附加流數(shù)據(jù)的C句法, 流數(shù)據(jù)存儲于GPU的存儲器中, 而核函數(shù)也在GPU上執(zhí)行。 |
金蟲 (文壇精英)
老漢一枚
|
Rookie BrookGPU是斯坦福大學一個相當有趣的項目,它可以為你展現(xiàn)當前GPU的強大性能,雖然目前GPU尚不能完全取代CPU,但是這個編譯器為GPU模擬CPU的一般應用提供了一個運行環(huán)境。 BrookGPU是一個編譯器和實時系統(tǒng),可以為當前GPU提供簡單的類似C的編程環(huán)境。一個運行在NVIDIA GeForce FX 5900 Ultra的shader程序運算速度可達20 GFLOPS,相當于 10GHz的Pentium 4,而且圖形系統(tǒng)的內(nèi)存帶寬為25.3 GB/sec,相比Pentium 4只有5.96 GB/sec。從這兩個原始數(shù)據(jù)不難看出GPU是一個非常快的運算引擎,但是由于GPU的專用性,所以在其上編程相當痛苦。BrookGPU在C基礎之上增加了簡單的數(shù)據(jù)并行語言,可以讓程序員指定在GPU上運行的部分特定代碼,而BrookGPU編譯器來負責實時運行其他的部分。 首先聲明,我個人并不是Programmer,感覺當前GPU長于復雜的矢量(矩陣)計算(Vertex shader的強大應該就是幾何轉換的可編程性能)?因此從事一般的此類計算應該有很高的效率? 我還記得Epic的首席程序員Tim Sweency說過未來隨著CPU功能不斷增強,特定應用的GPU將會消失。也許未來終究將會有一個CPU/GPU從事所有的運算? |
鐵桿木蟲 (正式寫手)
金蟲 (文壇精英)
老漢一枚
|
SIGGRAPH 2007大會上,NVIDIA正式宣布了第三版GPU編程教材:《GPU Gems 3》(圖形處理器精粹第三部)。 NVIDIA表示,《GPU Gems 3》的目的是讓軟件開發(fā)和科學研究人員充分挖掘GPU的并行運算潛力,同時其中描述的技術還能幫助游戲開發(fā)人員創(chuàng)造極其逼真的人物角色、更好的光照效果和粘貼渲染合成效果,并增強金融模擬、金融分析,甚至病毒檢測,尤其是NVIDIA CUDA編程架構等非圖形類應用。 《GPU Gems 3》英文原版有1000頁之多,是GPU硬件編程發(fā)燒友的必備寶典。除了NVIDIA,來自業(yè)界的20多家公司也都參與了該書的編輯,包括蘋果、微軟研究院、世嘉、Crytek、EA、Infinity Ward等等,另外還有不少學術機構的貢獻,比如美國康乃爾大學、伊利諾斯大學、英國達特茅斯學院、倫敦帝國理工學院、日本東京大學等。 Crytek首席圖形程序員表示:《GPU Gems》系列匯集了下一代3D引擎所需要的最關鍵的運算法則。 《GPU Gems》頭兩部的中文版分別由人民郵電出版社和清華大學出版社發(fā)行,第三部的中文版暫時沒有消息。 |
金蟲 (文壇精英)
老漢一枚
|
Arstechnica刊登了一篇名為NVIDIA on the highwire: the GeForce 8800 and beyond的文章,該文主要援引Nvidia投資關系部副總裁Mike Hara最近在投資會議上的言論對Nvidia的未來進行了分析,包括未來的獨立顯卡市場,競爭對手AMD/ATi R600發(fā)布,Intel未來的獨立GPU產(chǎn)品以及高性能計算市場等等。 首先,Hara重申了Nvidia的產(chǎn)品周期策略,即每年秋季發(fā)布高端產(chǎn)品,在來年年初發(fā)布中端產(chǎn)品,低端產(chǎn)品隨后在跟進。按照這個策略來看,目前Nvidia正摘主打低端產(chǎn)品市場,并準備秋季的高端產(chǎn)品。Hara進一步透漏,在今秋我們不僅將看到后G80高端產(chǎn)品的發(fā)布,還將看到Nvidia的首個65nm GPU。從90nm到65nm的過渡將使得Nvidia在工藝上和AMD/ATi并駕齊驅,同時有更大的空間提升性能和產(chǎn)品利潤,當然這和取決于AMD/ATi下一代產(chǎn)品的進展情況。 在談到工藝技術時,Hara強調說Nvidia提高產(chǎn)能的長期技巧就是處理器工業(yè)常用的可配置性。簡而言之,就是Nvidia工廠對于產(chǎn)品進行功能測試,如果所有像素流水線都能開啟,那么將標識為高端產(chǎn)品, 如果有些流水線無法工作,那么工廠將屏蔽某些電路,將該芯片配置成更少流水線,更低時鐘的低端產(chǎn)品。 Hara同時也和投資者坦承,Nvidia要繼續(xù)保持20%的年增長率,必須面臨三個挑戰(zhàn): 1.與AMD/ATi聯(lián)軍,以及計劃引入獨立GPU的Intel相比,Nvidia毫無疑問是三強中最弱的一家,而且Nvidia是唯一一家沒有類似Fusion計劃,CPU+GPU產(chǎn)品長期計劃的廠商。 2.獨立圖形已成成熟產(chǎn)業(yè),沒有多少提升的市場空間 3.Intel未來的獨立GPU將蠶食獨立GPU市場不多的空間 但Hara告訴投資者,關于人們對Nvidia沒有CPU/GPU整合產(chǎn)品的擔心是多余的:第一,CPU+GPU產(chǎn)品只適用于低端產(chǎn)品;第二,即使在低端市場,該產(chǎn)品也將不會有太大作為。Hara認為他之所以得出以上結論,是因為獨立GPU非常復雜,如果非要將GPU和CPU整合在一個內(nèi)核中,那么你必須割舍某些重要功能。他不認為這種產(chǎn)品有什么太大價值,特別是與整合圖形功能的芯片組相比而言。 Hara和JP Morgan說:"即使有這么個產(chǎn)品,那也將是Intel和AMD之間的戰(zhàn)爭,我不認為它將改變獨立GPU市場。" 接著,正如上述,Hara談到了Nvidia的重點市場,獨立GPU市場。也許是受到CPU入侵GPU市場的影響,Hara長篇大論談了GPU將是計算機的下一波浪潮,而CPU將成為過去。 Hara表示,商業(yè)計算機市場和筆記本計算性能需求的萎縮正是Nvidia與Intel和AMD/ATi相對抗的動力所在。相比而言,在消費和娛樂市場需要不斷提高,而正促使Nvidia將在不久后進入GigaFLOP時代。 Hara說:"我們正在驅動你們的體驗,嘗試看看你們獲得體驗的東東吧--那正是我們的平臺。" Hara對Nvidia前景表示樂觀:"GPU不僅僅是用戶體驗,而且是未來娛樂和醫(yī)療圖像等所有體驗的下一個重點所在。"這也許是Nvidia可以保持在獨立GPU市場高速增長的原因所在。 而在消費市場,Hara還舉例說明了Vista 3D界面,高分視頻以及網(wǎng)絡視頻的流行作為證據(jù),強調未來無論是桌面還是筆記本市場,對獨立GPU產(chǎn)品仍有更高需求。 Hara和德國銀行證券說:"我寧愿相信高性能市場占40%,而低端市場占60%。" Nvidia將獨立GPU市場增長冀望于用戶體驗,GFLOPS性能的跨越則允許Nvidia繼續(xù)拓展核心消費GPU業(yè)務。 Hara說:"我們正在改變核心市場,使之成為娛樂驅動空間,這樣我們可以將核心市場以外技術帶到我們前所未有的境界。" Hara還表示Nvidia將繼續(xù)開拓石油,天然氣和醫(yī)療圖像市場,很顯然Nvidia非常重視高性能計算市場。而目前,Nvidia將Intel的Larrabee圖形項目視為最大的威脅所在。 但Hara仍然保持自信,并對Larrabee提出了批評,諸如缺乏成熟驅動,代碼以及軟件生態(tài)系統(tǒng)等等。他說,Larrabee實際上就是多內(nèi)核的x86。 總之,Nvidia在面臨Intel和AMD兩強的競爭中,仍然在高空中孤獨而又危險地走著鋼絲。Nvidia必須嚴格執(zhí)行產(chǎn)品策略,并維持在獨立GPU市場的領先地位,它同時還要追逐高性能計算市場,Nvidia必須保持兩手都要硬,否則將沒有機會用綠色眼睛看到驅動地球所有像素時代的到來。 在加州San Jose召開的微處理器2007論壇上,Nvidia公司架構主管Nicklls稱:“圖形處理器只是放在一邊,許多人都提出了這個偉大的創(chuàng)意:嘿,讓我們用GPU做些事情.” 該架構主管指出,當圖形處理器未執(zhí)行圖形相關任務時,GPU可與中央處理器并行執(zhí)行計算任務.從而使每秒浮點計算次數(shù)達到2000億. Nvidia公司發(fā)布了名為“統(tǒng)一計算設備架構”軟件(CUDA)的測試版,該軟件將于今年下半年正式推出.CUDA可讓開發(fā)商編寫指令程序,以便讓GPU執(zhí)行通常由CPU執(zhí)行的計算任務.Nvidia公司表示,將GPU當作CPU并不一種新思想,但Nvidia公司的新軟件能使開發(fā)商更容易地實現(xiàn)目標. CUDA只能用于一定型號的圖形處理器,包括Nvidia的GeForce 8800和8600,還有06年11月發(fā)布的FX 4600和5600. Nvidia公司指出,用戶購買GPU的目的是圖形處理,但在PC的絕大部分工作時間中它是閑置的,如果你充分發(fā)揮了GPU的功能,你的電腦就能成為一臺大功率、高性能的并行計算系統(tǒng).” |
金蟲 (文壇精英)
老漢一枚
|
siggraph 2007 剛剛開完不久,作為一個大部分工作都是在Nvidia圖形卡上進行OpenGL開發(fā)的技術人員,我對這二者在siggraph2007上的動作都非常關注,其中令人興奮的消息是GPU Gems 3的發(fā)布和OpenGL 3的發(fā)布。下面簡單介紹一下。 GPU Gems 3 是 nvidia公司的 GPU Gems系列的延續(xù),其中大部分文章的作者都是Nvidia公司的,研究范圍相等廣泛,技術也相當不錯,給出了當前GPU發(fā)展的最新技術,跟另一巨頭AMD.ATI(好別扭)所出的ShaderX系列可以說代表了當前最先進的Real-Time渲染技術。記得前兩本都是公司第一時間從亞馬遜網(wǎng)站郵購回來的,這次不知道能不能先睹為快。nvidia公司在其網(wǎng)站給出了18、30、38章供下載。下面是它的書目: Chapter 1: Generating Complex Procedural Terrains Using the GPU Chapter 2: Animated Crowd Rendering Chapter 3: DirectX 10 Blend Shapes: Breaking the Limits Chapter 4: Next-Generation SpeedTree Rendering Chapter 5: Generic Adaptive Mesh Refinement Chapter 6: GPU-Generated Procedural Wind Animations for Trees Chapter 7: Point-Based Visualization of Metaballs on a GPU Chapter 8: Summed-Area Variance Shadow Maps Chapter 9: Interactive Cinematic Relighting with Global Illumination Chapter 10: Parallel-Split Shadow Maps on Programmable GPUs Chapter 11: Efficient and Robust Shadow Volumes Using Hierarchical Occlusion Culling and Geometry Shaders Chapter 12: High-Quality Ambient Occlusion Chapter 13: Volumetric Light Scattering as a Post-Process Chapter 14: Advanced Techniques for Realistic Real-Time Skin Rendering Chapter 15: Playable Universal Capture Chapter 16: Vegetation Procedural Animation and Shading in Crysis Chapter 17: Robust Multiple Specular Reflections and Refractions Chapter 18: Relaxed Cone Stepping for Relief Mapping Chapter 19: Deferred Shading in Tabula Rasa Chapter 20: GPU-Based Importance Sampling Chapter 21: True Impostors Chapter 22: Baking Normal Maps on the GPU Chapter 23: High-Speed, Off-Screen Particles Chapter 24: The Importance of Being Linear Chapter 25: Rendering Vector Art on the GPU Chapter 26: Object Detection by Color: Using the GPU for Real-Time Video Image Processing Chapter 27: Motion Blur as a Post-Processing Effect Chapter 28: Practical Post-Process Depth of Field Chapter 29: Real-Time Rigid Body Simulation on GPUs Chapter 30: Real-Time Simulation and Rendering of 3D Fluids Chapter 31: Fast N-Body Simulation with CUDA Chapter 32: Broad-Phase Collision Detection with CUDA Chapter 33: LCP Algorithms for Collision Detection Using CUDA Chapter 34: Signed Distance Fields Using Single-Pass GPU Scan Conversion of Tetrahedra Chapter 35: Fast Virus Signature Matching on the GPU Chapter 36: AES Encryption and Decryption on the GPU Chapter 37: Efficient Random Number Generation and Application Using CUDA Chapter 38: Imaging Earth’s Subsurface Using CUDA Chapter 39: Parallel Prefix Sum (Scan) with CUDA Chapter 40: Incremental Computation of the Gaussian Chapter 41: Using the Geometry Shader for Compact and Variable-Length GPU Feedback 我對它的8、10、11、41章比較感興趣,呵呵,都是陰影相關和新出的Geometry Shader應用的。 OpenGL 3.0是OpenGL ARB組織今年的重頭戲之一。于2007年8月8日正式發(fā)布,其specification還要經(jīng)過協(xié)商討論、正式定稿后,然后由Khronos Group組織進行為期30天的評估后,于9月底對外公開整個規(guī)范。其中,OpenGL、OpenGL|ES、GLSL都進行了相應的調整和升級。主要的改變有以下一些部分。 GLSL部分的改變包括:將attribute、varying關鍵詞更改成in、out、inout;將單個的uniform變量組裝成uniform buffer性質的common結構;內(nèi)置固定管線的狀態(tài)不再tracked;sampler2D數(shù)組使用image2DArray和filter來代替;預處理增加##和#include語句;OpenGLES增加了lowp、mediump、highp限定詞;矩陣增加row_major限定詞,允許使用行優(yōu)先矩陣了;增加了switch語句。 將在結合CgFX的基礎上,增加一個創(chuàng)建rendering eEffects的框架---glFX。其目的是為了更好、更容易的創(chuàng)建特效。glFX將支持OpenGL2.1、OpenGL3.0、OpenGL ES 2.0等。并對OpenGL3.0作出優(yōu)化。 OpenGL3.0的改變包括:消除遺留的一些功能,如 過程式編程接口(Begin/End)、固定管線的T&L功能和紋理應用方法、客戶端的頂點數(shù)組方式、選擇模式、反饋模式、求職器、累計緩存等;全面轉向對象模型,用于提高性能和共享靈活,基本上所有能成型的東東都叫Object的了。如:State Object、Data Oobject、Container Object、Vertex Array Object、Buffer Object、Shader Object、Program Environment object、Program Object、Texture Filter Object、Image Object、Format Object、Rasterization Object、Per-Sample Operations Object、Framebuffer Object、Save/Restore Object、Pack/Unpack Object、Sync/Query Object等。 就總體而言,感覺3的改變相當大,不論是概念、內(nèi)容、還是接口。我想:這一方面是Khronos Group接受ARB組織后,加快OpenGL發(fā)展步伐的表現(xiàn),另一方面也是DirectX10的快速發(fā)展,使得OpenGL從被借鑒者變成了借鑒者,吸收了DirectX中的一些先進的地方和優(yōu)點,才會痛下決心,作出如此重大的改變。不管怎樣,作為一名長期從事OpenGL開發(fā)的人員,希望OpenGL能一路走好! 參考鏈接:http://www.opengl.org/ http://www.siggraph.org/s2007/ http://www.gamedev.net/reference ... ect/gpu-gems-3.html http://www.khronos.org/library/d ... r_bof_presentation/ http://bbs.gameres.com/showthread.asp?threadid=91490 |
| 7 | 1/1 | 返回列表 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 275求調劑 +15 | Micky11223 2026-03-25 | 20/1000 |
|
|---|---|---|---|---|
|
[考研] 調劑310 +12 | 溫柔的晚安 2026-03-25 | 13/650 |
|
|
[考研] 化學工程085602 305分求調劑 +22 | RichLi_ 2026-03-25 | 22/1100 |
|
|
[考研] 340求調劑 +6 | Amber00 2026-03-26 | 6/300 |
|
|
[考研] 求調劑,一志愿 南京航空航天大學 ,080500材料科學與工程學碩,總分289分 +7 | @taotao 2026-03-29 | 7/350 |
|
|
[考研] 0856材料化工調劑 總分330 +14 | zhubinhao 2026-03-27 | 14/700 |
|
|
[考研] 298求調劑 +4 | 種圣賜 2026-03-28 | 4/200 |
|
|
[考研] 調劑求院校招收 +6 | 鶴鯨鴿 2026-03-28 | 6/300 |
|
|
[考研] 0703 化學 求調劑,一志愿山東大學 342 分 +4 | Shern—- 2026-03-28 | 4/200 |
|
|
[考研] 295求調劑 +4 | wei-5 2026-03-26 | 4/200 |
|
|
[考研] 083000學碩274求調劑 +8 | Li李魚 2026-03-26 | 8/400 |
|
|
[考研] 食品工程專碩一志愿中海洋309求調劑 +4 | 小張zxy張 2026-03-26 | 8/400 |
|
|
[考研] 295求調劑 +5 | 1428151015 2026-03-27 | 6/300 |
|
|
[考研] 285求調劑 +4 | AZMK 2026-03-27 | 7/350 |
|
|
[考研] 081700 調劑 267分 +11 | 迷人的哈哈 2026-03-23 | 11/550 |
|
|
[考研] 環(huán)境專碩324分求調劑推薦 +5 | 軒小寧—— 2026-03-26 | 5/250 |
|
|
[考研] 化學調劑一志愿上海交通大學336分-本科上海211 +4 | 小魚愛有機 2026-03-25 | 4/200 |
|
|
[考研] 上海電力大學材料防護與新材料重點實驗室招收調劑研究生(材料、化學、電化學,環(huán)境) +4 | 我愛學電池 2026-03-23 | 4/200 |
|
|
[考研] 求調劑 +6 | 研研,接電話 2026-03-24 | 7/350 |
|
|
[考研] 材料專碩331求調劑 +4 | 鮮當牛 2026-03-24 | 4/200 |
|