本节书摘来自华章社区《cuda c编程权威指南》一书中的第3章cuda执行模型,作者[美] 马克斯·格罗斯曼(max grossman) ,更多章节内容可以访问云栖社区“华章社区”公众号查看
第3章
cuda执行模型
本章内容:
通过配置文件驱动的方法优化内核
理解线程束执行的本质
增大gpu的并行性
掌握网格和线程块的启发式配置
学习多种cuda的性能指标和事件
了解动态并行与嵌套执行
通过上一章的练习,你已经学会了如何在网格和线程块中组织线程以获得最佳的性能。尽管可以通过反复试验找到最佳的执行配置,但你可能仍然会感到疑惑,为什么选择这样的执行配置会更好。你可能想知道是否有一些选择网格和块配置的准则。本章将会回答这些问题,并从硬件方面深入介绍内核启动配置和性能分析的信息。