版塊導(dǎo)航: 正在加載中...

應(yīng)《網(wǎng)絡(luò)安全法》要求，自2017年10月1日起，未進(jìn)行實(shí)名認(rèn)證將不得使用互聯(lián)網(wǎng)跟帖服務(wù)。為保障您的帳號(hào)能夠正常使用，請(qǐng)盡快對(duì)帳號(hào)進(jìn)行手機(jī)號(hào)驗(yàn)證，感謝您的理解與支持！

24小時(shí)熱門(mén)版塊排行榜

北京石油化工學(xué)院2026年研究生招生接收調(diào)劑公告

返回列表

【獎(jiǎng)勵(lì)】本帖被評(píng)價(jià)11次，作者pkusiyuan增加金幣 8.6 個(gè)

pkusiyuan

銀蟲(chóng) (正式寫(xiě)手)

應(yīng)助: 0 (幼兒園)
金幣: 15208.1
帖子: 773
在線(xiàn): 130小時(shí)
蟲(chóng)號(hào): 3451204

[資源] 2010Programming.Massively.Parallel.Processors

Contents
Preface ......................................................................................................................xi
Acknowledgments ................................................................................................ xvii
Dedication...............................................................................................................xix
CHAPTER 1 INTRODUCTION................................................................................1
1.1 GPUs as Parallel Computers ..........................................................2
1.2 Architecture of a Modern GPU......................................................8
1.3 Why More Speed or Parallelism? ................................................10
1.4 Parallel Programming Languages and Models............................13
1.5 Overarching Goals ........................................................................15
1.6 Organization of the Book.............................................................16
CHAPTER 2 HISTORY OF GPU COMPUTING .....................................................21
2.1 Evolution of Graphics Pipelines ..................................................21
2.1.1 The Era of Fixed-Function Graphics Pipelines..................22
2.1.2 Evolution of Programmable Real-Time Graphics .............26
2.1.3 Unified Graphics and Computing Processors ....................29
2.1.4 GPGPU: An Intermediate Step...........................................31
2.2 GPU Computing ...........................................................................32
2.2.1 Scalable GPUs.....................................................................33
2.2.2 Recent Developments..........................................................34
2.3 Future Trends................................................................................34
CHAPTER 3 INTRODUCTION TO CUDA..............................................................39
3.1 Data Parallelism............................................................................39
3.2 CUDA Program Structure ............................................................41
3.3 A Matrix–Matrix Multiplication Example...................................42
3.4 Device Memories and Data Transfer...........................................46
3.5 Kernel Functions and Threading..................................................51
3.6 Summary.......................................................................................56
3.6.1 Function declarations ..........................................................56
3.6.2 Kernel launch ......................................................................56
3.6.3 Predefined variables ............................................................56
3.6.4 Runtime API........................................................................57
CHAPTER 4 CUDA THREADS.............................................................................59
4.1 CUDA Thread Organization ........................................................59
4.2 Using blockIdx and threadIdx ..........................................64
4.3 Synchronization and Transparent Scalability ..............................68
vii
4.4 Thread Assignment.......................................................................70
4.5 Thread Scheduling and Latency Tolerance .................................71
4.6 Summary .......................................................................................74
4.7 Exercises .......................................................................................74
CHAPTER 5 CUDA MEMORIES.......................................................................77
5.1 Importance of Memory Access Efficiency..................................78
5.2 CUDA Device Memory Types ....................................................79
5.3 A Strategy for Reducing Global Memory Traffic.......................83
5.4 Memory as a Limiting Factor to Parallelism ..............................90
5.5 Summary .......................................................................................92
5.6 Exercises .......................................................................................93
CHAPTER 6 PERFORMANCE CONSIDERATIONS................................................95
6.1 More on Thread Execution ..........................................................96
6.2 Global Memory Bandwidth........................................................103
6.3 Dynamic Partitioning of SM Resources ....................................111
6.4 Data Prefetching .........................................................................113
6.5 Instruction Mix ...........................................................................115
6.6 Thread Granularity .....................................................................116
6.7 Measured Performance and Summary .......................................118
6.8 Exercises .....................................................................................120
CHAPTER 7 FLOATING POINT CONSIDERATIONS ...........................................125
7.1 Floating-Point Format.................................................................126
7.1.1 Normalized Representation of M.....................................126
7.1.2 Excess Encoding of E.......................................................127
7.2 Representable Numbers ..............................................................129
7.3 Special Bit Patterns and Precision.............................................134
7.4 Arithmetic Accuracy and Rounding ..........................................135
7.5 Algorithm Considerations...........................................................136
7.6 Summary .....................................................................................138
7.7 Exercises .....................................................................................138
CHAPTER 8 APPLICATION CASE STUDY: ADVANCED MRI
RECONSTRUCTION.......................................................................141
8.1 Application Background.............................................................142
8.2 Iterative Reconstruction..............................................................144
8.3 Computing FHd...........................................................................148
Step 1. Determine the Kernel Parallelism Structure .................149
Step 2. Getting Around the Memory Bandwidth Limitation....156
viii Contents
Step 3. Using Hardware Trigonometry Functions ....................163
Step 4. Experimental Performance Tuning ...............................166
8.4 Final Evaluation..........................................................................167
8.5 Exercises .....................................................................................170
CHAPTER 9 APPLICATION CASE STUDY: MOLECULAR VISUALIZATION
AND ANALYSIS............................................................................173
9.1 Application Background.............................................................174
9.2 A Simple Kernel Implementation ..............................................176
9.3 Instruction Execution Efficiency................................................180
9.4 Memory Coalescing....................................................................182
9.5 Additional Performance Comparisons .......................................185
9.6 Using Multiple GPUs .................................................................187
9.7 Exercises .....................................................................................188
CHAPTER 10 PARALLEL PROGRAMMING AND COMPUTATIONAL
THINKING ....................................................................................191
10.1 Goals of Parallel Programming ...............................................192
10.2 Problem Decomposition ...........................................................193
10.3 Algorithm Selection .................................................................196
10.4 Computational Thinking...........................................................202
10.5 Exercises ...................................................................................204
CHAPTER 11 A BRIEF INTRODUCTION TO OPENCL ......................................205
11.1 Background...............................................................................205
11.2 Data Parallelism Model............................................................207
11.3 Device Architecture..................................................................209
11.4 Kernel Functions ......................................................................211
11.5 Device Management and Kernel Launch ................................212
11.6 Electrostatic Potential Map in OpenCL ..................................214
11.7 Summary...................................................................................219
11.8 Exercises ...................................................................................220
CHAPTER 12 CONCLUSION AND FUTURE OUTLOOK ........................................221
12.1 Goals Revisited.........................................................................221
12.2 Memory Architecture Evolution ..............................................223
12.2.1 Large Virtual and Physical Address Spaces ................223
12.2.2 Unified Device Memory Space ....................................224
12.2.3 Configurable Caching and Scratch Pad........................225
12.2.4 Enhanced Atomic Operations .......................................226
12.2.5 Enhanced Global Memory Access ...............................226
Contents ix
12.3 Kernel Execution Control Evolution .......................................227
12.3.1 Function Calls within Kernel Functions ......................227
12.3.2 Exception Handling in Kernel Functions.....................227
12.3.3 Simultaneous Execution of Multiple Kernels ..............228
12.3.4 Interruptible Kernels .....................................................228
12.4 Core Performance.....................................................................229
12.4.1 Double-Precision Speed ...............................................229
12.4.2 Better Control Flow Efficiency ....................................229
12.5 Programming Environment ......................................................230
12.6 A Bright Outlook......................................................................230
APPENDIX A MATRIX MULTIPLICATION HOST-ONLY VERSION
SOURCE CODE .............................................................................233
A.1 matrixmul.cu........................................................................233
A.2 matrixmul_gold.cpp .........................................................237
A.3 matrixmul.h..........................................................................238
A.4 assist.h .................................................................................239
A.5 Expected Output .........................................................................243
APPENDIX B GPU COMPUTE CAPABILITIES ....................................................245
B.1 GPU Compute Capability Tables...............................................245
B.2 Memory Coalescing Variations..................................................246
Index......................................................................................................... 251

回復(fù)此樓

» 本帖附件資源列表

歡迎監(jiān)督和反饋：小木蟲(chóng)僅提供交流平臺(tái)，不對(duì)該內(nèi)容負(fù)責(zé)。
本內(nèi)容由用戶(hù)自主發(fā)布，如果其內(nèi)容涉及到知識(shí)產(chǎn)權(quán)問(wèn)題，其責(zé)任在于用戶(hù)本人，如對(duì)版權(quán)有異議，請(qǐng)聯(lián)系郵箱：xiaomuchong@tal.com
附件 1 : 大規(guī)模并行處理器程序設(shè)計(jì).(Programming.Massively.Parallel.Processors.A.Hands-on.Approach),.Kirk,.Hwu,.文字版.pdf

2015-03-08 20:58:14, 4.74 M

» 收錄本帖的淘帖專(zhuān)輯推薦

Algorithm	love physics	電子書(shū)資料	CUDA
科研軟件

» 猜你喜歡

求調(diào)劑已經(jīng)有6人回復(fù)
085600材料與化工調(diào)劑已經(jīng)有4人回復(fù)
327求調(diào)劑已經(jīng)有4人回復(fù)
309求調(diào)劑已經(jīng)有8人回復(fù)
一志愿南航 335分 | 0856 | GPA 4.07 | 有科研經(jīng)歷已經(jīng)有8人回復(fù)
求化學(xué)調(diào)劑已經(jīng)有5人回復(fù)
085600，材料與化工321分求調(diào)劑已經(jīng)有10人回復(fù)
0703 化學(xué) 求調(diào)劑，一志愿山東大學(xué) 342 分已經(jīng)有5人回復(fù)
一志愿南開(kāi)大學(xué)0710生物學(xué)359求調(diào)劑已經(jīng)有3人回復(fù)
085600，專(zhuān)業(yè)課化工原理，320分求調(diào)劑已經(jīng)有4人回復(fù)

1樓 2015-03-08 20:58:17

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

dbeak

銀蟲(chóng) (小有名氣)

應(yīng)助: 1 (幼兒園)
金幣: 251.3
帖子: 129
在線(xiàn): 28.6小時(shí)
蟲(chóng)號(hào): 2010954

感謝樓主分享

回復(fù)此樓

8樓2015-06-25 18:37:13

已閱回復(fù)此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

簡(jiǎn)單回復(fù)

tonyhi2樓

2015-03-08 21:34 回復(fù)

三星好評(píng) 謝謝分享 [ 發(fā)自小木蟲(chóng)客戶(hù)端 ]

FMStation3樓

2015-03-09 07:09 回復(fù)

五星好評(píng) 頂一下，感謝分享！

anmingkang4樓

2015-03-09 08:13 回復(fù)

五星好評(píng) 頂一下，感謝分享！

springcxliu5樓

2015-03-09 08:52 回復(fù)

五星好評(píng) 頂一下，感謝分享！

truebelief6樓

2015-03-10 10:17 回復(fù)

五星好評(píng) 頂一下，感謝分享！

dbeak7樓

2015-06-25 18:24 回復(fù)

五星好評(píng) 頂一下，感謝分享！

wangkun76739樓

2015-10-28 23:32 回復(fù)

五星好評(píng) 頂一下，感謝分享！

yinxzy10樓

2015-12-01 22:40 回復(fù)

五星好評(píng) 頂一下，感謝分享！

Nanobee11樓

2016-04-02 11:27 回復(fù)

五星好評(píng) 頂一下，感謝分享！

liu12333812樓

2016-10-17 11:34 回復(fù)

五星好評(píng) 頂一下，感謝分享！

逍遙學(xué)生TT13樓

2017-09-20 23:39 回復(fù)

五星好評(píng) 頂一下，感謝分享！

相關(guān)版塊跳轉(zhuǎn) 我要訂閱樓主 pkusiyuan 的主題更新

返回列表

☆ 無(wú)星級(jí) ★ 一星級(jí) ★★★ 三星級(jí) ★★★★★ 五星級(jí)

普通表情龍兔虎貓高級(jí)回復(fù) (可上傳附件)

最具人氣熱帖推薦 [查看全部]		作者	回/看	最后發(fā)表

[考研] 317分一志愿南理工材料工程本科湖工大求調(diào)劑 +10	芋泥小鈴鐺 2026-03-28	10/500	2026-03-29 20:51 by 無(wú)際的草原
[考研] 277跪求調(diào)劑 +6	1915668 2026-03-27	10/500	2026-03-29 16:03 by 王亮_大連醫(yī)科大
[考研] 070300化學(xué)354求調(diào)劑 +6	101次希望 2026-03-28	6/300	2026-03-29 12:57 by 無(wú)際的草原
[考研] 279求調(diào)劑 +4	蝶舞輕繞 2026-03-29	4/200	2026-03-29 09:45 by laoshidan
[考研] 調(diào)劑考研 +3	王杰一 2026-03-29	3/150	2026-03-29 08:09 by fmesaito
[考研] 289求調(diào)劑 +13	新時(shí)代材料 2026-03-27	13/650	2026-03-29 01:16 by 544594351
[考研] 346求調(diào)劑一志愿070303有機(jī)化學(xué) +3	蘿卜燉青菜 2026-03-28	3/150	2026-03-28 14:11 by 唐沐兒
[考研] 0703本科鄭州大學(xué)求調(diào)劑 +3	nhj_ 2026-03-25	3/150	2026-03-28 13:24 by Iveryant
[考研] 調(diào)劑 +3	好好讀書(shū)。 2026-03-28	3/150	2026-03-28 12:04 by 王保杰33
[考研] 材料求調(diào)劑一志愿哈工大324 +7	閆旭東 2026-03-28	9/450	2026-03-28 08:51 by Xu de nuo
[考研] 315分求調(diào)劑 +7	26考研上岸版26 2026-03-26	7/350	2026-03-28 04:05 by fmesaito
[考研] 一志愿211院校 344分東北農(nóng)業(yè)大學(xué)生物學(xué)學(xué)碩，求調(diào)劑 +5	丶風(fēng)雪夜歸人丶 2026-03-26	8/400	2026-03-27 19:22 by 丶風(fēng)雪夜歸人丶
[考研] 08開(kāi)頭275求調(diào)劑 +4	拉誰(shuí)不重要 2026-03-26	4/200	2026-03-27 14:12 by Delta2012
[考研] 322求調(diào)劑 +4	我真的很想學(xué)習(xí) 2026-03-23	4/200	2026-03-27 13:51 by 楊楊楊紫
[考研] 315調(diào)劑 +4	0860求調(diào)劑 2026-03-26	5/250	2026-03-27 11:23 by wangjy2002
[考研] 一志愿吉大071010，316分求調(diào)劑 +3	xgbiknn 2026-03-27	3/150	2026-03-27 10:36 by guoweigw
[考研] 341求調(diào)劑 +7	青檸檬1 2026-03-26	7/350	2026-03-27 00:19 by wxiongid
[考研] 求調(diào)劑 +3	李李不服輸 2026-03-25	3/150	2026-03-25 13:03 by cmz0325
[考研] 一志愿武理085500機(jī)械專(zhuān)業(yè)總分300求調(diào)劑 +3	an10101 2026-03-24	7/350	2026-03-25 00:00 by 山鬼0-
[考研] 一志愿北化315 求調(diào)劑 +3	akrrain 2026-03-24	3/150	2026-03-24 19:35 by 了了了了。。

亭亭五月天在线观看,亭亭五月天在线观看,国产最新av一区二区,国产 高清 中文字幕,99re热久久亚洲综合精品成人,熟妇 一区二区三区,一级做a爰片性色毛片武则天,美女的骚穴视频播放,国产美女午夜免费视频

24小時(shí)熱門(mén)版塊排行榜

pkusiyuan

[資源] 2010Programming.Massively.Parallel.Processors

» 本帖附件資源列表

» 收錄本帖的淘帖專(zhuān)輯推薦

» 猜你喜歡

dbeak

亭亭五月天在线观看,亭亭五月天在线观看,国产最新av一区二区,国产高清中文字幕,99re热久久亚洲综合精品成人,熟妇一区二区三区,一级做a爰片性色毛片武则天,美女的骚穴视频播放,国产美女午夜免费视频