版塊導航: 正在加載中...

登錄注冊

應《網(wǎng)絡(luò)安全法》要求，自2017年10月1日起，未進行實名認證將不得使用互聯(lián)網(wǎng)跟帖服務。為保障您的帳號能夠正常使用，請盡快對帳號進行手機號驗證，感謝您的理解與支持！

24小時熱門版塊排行榜

返回列表

【獎勵】本帖被評價11次，作者pkusiyuan增加金幣 8.6 個

pkusiyuan

銀蟲 (正式寫手)

應助: 0 (幼兒園)
金幣: 15208.1
帖子: 773
在線: 130小時
蟲號: 3451204

[資源] 2010Programming.Massively.Parallel.Processors

Contents
Preface ......................................................................................................................xi
Acknowledgments ................................................................................................ xvii
Dedication...............................................................................................................xix
CHAPTER 1 INTRODUCTION................................................................................1
1.1 GPUs as Parallel Computers ..........................................................2
1.2 Architecture of a Modern GPU......................................................8
1.3 Why More Speed or Parallelism? ................................................10
1.4 Parallel Programming Languages and Models............................13
1.5 Overarching Goals ........................................................................15
1.6 Organization of the Book.............................................................16
CHAPTER 2 HISTORY OF GPU COMPUTING .....................................................21
2.1 Evolution of Graphics Pipelines ..................................................21
2.1.1 The Era of Fixed-Function Graphics Pipelines..................22
2.1.2 Evolution of Programmable Real-Time Graphics .............26
2.1.3 Unified Graphics and Computing Processors ....................29
2.1.4 GPGPU: An Intermediate Step...........................................31
2.2 GPU Computing ...........................................................................32
2.2.1 Scalable GPUs.....................................................................33
2.2.2 Recent Developments..........................................................34
2.3 Future Trends................................................................................34
CHAPTER 3 INTRODUCTION TO CUDA..............................................................39
3.1 Data Parallelism............................................................................39
3.2 CUDA Program Structure ............................................................41
3.3 A Matrix–Matrix Multiplication Example...................................42
3.4 Device Memories and Data Transfer...........................................46
3.5 Kernel Functions and Threading..................................................51
3.6 Summary.......................................................................................56
3.6.1 Function declarations ..........................................................56
3.6.2 Kernel launch ......................................................................56
3.6.3 Predefined variables ............................................................56
3.6.4 Runtime API........................................................................57
CHAPTER 4 CUDA THREADS.............................................................................59
4.1 CUDA Thread Organization ........................................................59
4.2 Using blockIdx and threadIdx ..........................................64
4.3 Synchronization and Transparent Scalability ..............................68
vii
4.4 Thread Assignment.......................................................................70
4.5 Thread Scheduling and Latency Tolerance .................................71
4.6 Summary .......................................................................................74
4.7 Exercises .......................................................................................74
CHAPTER 5 CUDA MEMORIES.......................................................................77
5.1 Importance of Memory Access Efficiency..................................78
5.2 CUDA Device Memory Types ....................................................79
5.3 A Strategy for Reducing Global Memory Traffic.......................83
5.4 Memory as a Limiting Factor to Parallelism ..............................90
5.5 Summary .......................................................................................92
5.6 Exercises .......................................................................................93
CHAPTER 6 PERFORMANCE CONSIDERATIONS................................................95
6.1 More on Thread Execution ..........................................................96
6.2 Global Memory Bandwidth........................................................103
6.3 Dynamic Partitioning of SM Resources ....................................111
6.4 Data Prefetching .........................................................................113
6.5 Instruction Mix ...........................................................................115
6.6 Thread Granularity .....................................................................116
6.7 Measured Performance and Summary .......................................118
6.8 Exercises .....................................................................................120
CHAPTER 7 FLOATING POINT CONSIDERATIONS ...........................................125
7.1 Floating-Point Format.................................................................126
7.1.1 Normalized Representation of M.....................................126
7.1.2 Excess Encoding of E.......................................................127
7.2 Representable Numbers ..............................................................129
7.3 Special Bit Patterns and Precision.............................................134
7.4 Arithmetic Accuracy and Rounding ..........................................135
7.5 Algorithm Considerations...........................................................136
7.6 Summary .....................................................................................138
7.7 Exercises .....................................................................................138
CHAPTER 8 APPLICATION CASE STUDY: ADVANCED MRI
RECONSTRUCTION.......................................................................141
8.1 Application Background.............................................................142
8.2 Iterative Reconstruction..............................................................144
8.3 Computing FHd...........................................................................148
Step 1. Determine the Kernel Parallelism Structure .................149
Step 2. Getting Around the Memory Bandwidth Limitation....156
viii Contents
Step 3. Using Hardware Trigonometry Functions ....................163
Step 4. Experimental Performance Tuning ...............................166
8.4 Final Evaluation..........................................................................167
8.5 Exercises .....................................................................................170
CHAPTER 9 APPLICATION CASE STUDY: MOLECULAR VISUALIZATION
AND ANALYSIS............................................................................173
9.1 Application Background.............................................................174
9.2 A Simple Kernel Implementation ..............................................176
9.3 Instruction Execution Efficiency................................................180
9.4 Memory Coalescing....................................................................182
9.5 Additional Performance Comparisons .......................................185
9.6 Using Multiple GPUs .................................................................187
9.7 Exercises .....................................................................................188
CHAPTER 10 PARALLEL PROGRAMMING AND COMPUTATIONAL
THINKING ....................................................................................191
10.1 Goals of Parallel Programming ...............................................192
10.2 Problem Decomposition ...........................................................193
10.3 Algorithm Selection .................................................................196
10.4 Computational Thinking...........................................................202
10.5 Exercises ...................................................................................204
CHAPTER 11 A BRIEF INTRODUCTION TO OPENCL ......................................205
11.1 Background...............................................................................205
11.2 Data Parallelism Model............................................................207
11.3 Device Architecture..................................................................209
11.4 Kernel Functions ......................................................................211
11.5 Device Management and Kernel Launch ................................212
11.6 Electrostatic Potential Map in OpenCL ..................................214
11.7 Summary...................................................................................219
11.8 Exercises ...................................................................................220
CHAPTER 12 CONCLUSION AND FUTURE OUTLOOK ........................................221
12.1 Goals Revisited.........................................................................221
12.2 Memory Architecture Evolution ..............................................223
12.2.1 Large Virtual and Physical Address Spaces ................223
12.2.2 Unified Device Memory Space ....................................224
12.2.3 Configurable Caching and Scratch Pad........................225
12.2.4 Enhanced Atomic Operations .......................................226
12.2.5 Enhanced Global Memory Access ...............................226
Contents ix
12.3 Kernel Execution Control Evolution .......................................227
12.3.1 Function Calls within Kernel Functions ......................227
12.3.2 Exception Handling in Kernel Functions.....................227
12.3.3 Simultaneous Execution of Multiple Kernels ..............228
12.3.4 Interruptible Kernels .....................................................228
12.4 Core Performance.....................................................................229
12.4.1 Double-Precision Speed ...............................................229
12.4.2 Better Control Flow Efficiency ....................................229
12.5 Programming Environment ......................................................230
12.6 A Bright Outlook......................................................................230
APPENDIX A MATRIX MULTIPLICATION HOST-ONLY VERSION
SOURCE CODE .............................................................................233
A.1 matrixmul.cu........................................................................233
A.2 matrixmul_gold.cpp .........................................................237
A.3 matrixmul.h..........................................................................238
A.4 assist.h .................................................................................239
A.5 Expected Output .........................................................................243
APPENDIX B GPU COMPUTE CAPABILITIES ....................................................245
B.1 GPU Compute Capability Tables...............................................245
B.2 Memory Coalescing Variations..................................................246
Index......................................................................................................... 251

回復此樓

» 本帖附件資源列表

歡迎監(jiān)督和反饋：小木蟲僅提供交流平臺，不對該內(nèi)容負責。
本內(nèi)容由用戶自主發(fā)布，如果其內(nèi)容涉及到知識產(chǎn)權(quán)問題，其責任在于用戶本人，如對版權(quán)有異議，請聯(lián)系郵箱：xiaomuchong@tal.com
附件 1 : 大規(guī)模并行處理器程序設(shè)計.(Programming.Massively.Parallel.Processors.A.Hands-on.Approach),.Kirk,.Hwu,.文字版.pdf

2015-03-08 20:58:14, 4.74 M

» 收錄本帖的淘帖專輯推薦

Algorithm	love physics	電子書資料	CUDA
科研軟件

» 猜你喜歡

一志愿天津大學化學工藝專業(yè)（081702）315分求調(diào)劑已經(jīng)有3人回復
290求調(diào)劑已經(jīng)有11人回復
材料與化工求調(diào)劑已經(jīng)有4人回復
293求調(diào)劑已經(jīng)有11人回復
工科材料085601 279求調(diào)劑已經(jīng)有3人回復
301求調(diào)劑已經(jīng)有3人回復
材料專碩306英一數(shù)二已經(jīng)有8人回復
材料與化工專碩調(diào)劑已經(jīng)有5人回復
085600材料與化工已經(jīng)有4人回復
085601材料工程專碩求調(diào)劑已經(jīng)有3人回復

1樓 2015-03-08 20:58:17

已閱回復此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

dbeak

銀蟲 (小有名氣)

應助: 1 (幼兒園)
金幣: 251.3
帖子: 129
在線: 28.6小時
蟲號: 2010954

感謝樓主分享

回復此樓

8樓2015-06-25 18:37:13

已閱回復此樓關(guān)注TA 給TA發(fā)消息送TA紅花 TA的回帖

簡單回復

tonyhi2樓

2015-03-08 21:34 回復

三星好評謝謝分享 [ 發(fā)自小木蟲客戶端 ]

FMStation3樓

2015-03-09 07:09 回復

五星好評頂一下，感謝分享！

anmingkang4樓

2015-03-09 08:13 回復

五星好評頂一下，感謝分享！

springcxliu5樓

2015-03-09 08:52 回復

五星好評頂一下，感謝分享！

truebelief6樓

2015-03-10 10:17 回復

五星好評頂一下，感謝分享！

dbeak7樓

2015-06-25 18:24 回復

五星好評頂一下，感謝分享！

wangkun76739樓

2015-10-28 23:32 回復

五星好評頂一下，感謝分享！

yinxzy10樓

2015-12-01 22:40 回復

五星好評頂一下，感謝分享！

Nanobee11樓

2016-04-02 11:27 回復

五星好評頂一下，感謝分享！

liu12333812樓

2016-10-17 11:34 回復

五星好評頂一下，感謝分享！

逍遙學生TT13樓

2017-09-20 23:39 回復

五星好評頂一下，感謝分享！

相關(guān)版塊跳轉(zhuǎn) 我要訂閱樓主 pkusiyuan 的主題更新

返回列表

☆ 無星級 ★ 一星級 ★★★ 三星級 ★★★★★ 五星級

普通表情龍兔虎貓高級回復 (可上傳附件)

最具人氣熱帖推薦 [查看全部]		作者	回/看	最后發(fā)表

[考研] 293求調(diào)劑 +6	zjl的號 2026-03-16	11/550	2026-03-17 14:27 by houyaoxu
[考研] 材料與化工專碩調(diào)劑 +5	heming3743 2026-03-16	5/250	2026-03-17 14:03 by 勇敢太監(jiān)王公公
[考研] 085600材料與化工 +4	安全上岸！ 2026-03-16	4/200	2026-03-17 14:02 by 勇敢太監(jiān)王公公
[考研] 085601專碩，總分342求調(diào)劑，地區(qū)不限 +3	share_joy 2026-03-16	3/150	2026-03-17 13:41 by houyaoxu
[考研] 一志愿南京大學，080500材料科學與工程，調(diào)劑 +4	Jy? 2026-03-16	4/200	2026-03-17 11:02 by gaoqiong
[考研] 302求調(diào)劑 +4	小賈同學123 2026-03-15	8/400	2026-03-17 10:33 by 小賈同學123
[碩博家園] 深圳大學碩士招生（2026秋，傳感器方向，僅錄取第一志愿） +4	xujiaoszu 2026-03-11	9/450	2026-03-17 10:29 by xujiaoszu
[考研] 328求調(diào)劑，英語六級551，有科研經(jīng)歷 +3	生物工程調(diào)劑 2026-03-16	4/200	2026-03-16 20:13 by Wangjingyue
[考研] 環(huán)境工程調(diào)劑 +6	大可digkids 2026-03-16	6/300	2026-03-16 17:16 by barlinike
[考研] 321求調(diào)劑 +5	大米飯！ 2026-03-15	5/250	2026-03-16 16:33 by houyaoxu
[考研] 0703化學調(diào)劑 290分有科研經(jīng)歷，論文在投 +7	膩膩gk 2026-03-14	7/350	2026-03-16 10:12 by houyaoxu
[考研] 0856求調(diào)劑 +3	劉夢微 2026-03-15	3/150	2026-03-16 10:00 by houyaoxu
[考研] 326求調(diào)劑 +4	上岸的小葡 2026-03-15	5/250	2026-03-16 08:39 by Linda Hu
[考研] 機械專碩調(diào)劑 +3	笨笨兔子 2026-03-12	3/150	2026-03-15 20:02 by 栗子粥?
[考研] 本科南京大學一志愿川大藥學327 +3	麥田耕者 2026-03-14	3/150	2026-03-14 20:04 by 外星文明
[考研] 265求調(diào)劑 +4	威化餅07 2026-03-12	4/200	2026-03-14 17:23 by userper
[考研] 材料與化工085600調(diào)劑求老師收留 +9	jiaanl 2026-03-11	9/450	2026-03-13 20:22 by JourneyLucky
[考研] 求調(diào)劑 +7	18880831720 2026-03-11	7/350	2026-03-13 16:10 by JourneyLucky
[考研] 290求調(diào)劑 +7	ADT 2026-03-12	7/350	2026-03-13 15:17 by JourneyLucky
[考研] 283求調(diào)劑，材料、化工皆可 +8	蘇打水7777 2026-03-11	10/500	2026-03-13 09:06 by Linda Hu

亭亭五月天在线观看,亭亭五月天在线观看,国产最新av一区二区,国产 高清 中文字幕,99re热久久亚洲综合精品成人,熟妇 一区二区三区,一级做a爰片性色毛片武则天,美女的骚穴视频播放,国产美女午夜免费视频

24小時熱門版塊排行榜

pkusiyuan

[資源] 2010Programming.Massively.Parallel.Processors

» 本帖附件資源列表

» 收錄本帖的淘帖專輯推薦

» 猜你喜歡

dbeak

亭亭五月天在线观看,亭亭五月天在线观看,国产最新av一区二区,国产高清中文字幕,99re热久久亚洲综合精品成人,熟妇一区二区三区,一级做a爰片性色毛片武则天,美女的骚穴视频播放,国产美女午夜免费视频