CUDA学习（六十三）

2018-02-21 23:50:00

内存声明：

设备和常量内存：

使用<code>__device__</code>或<code>__constant__</code>内存空间说明符在文件范围内声明的内存在使用设备运行时时具有相同的行为。所有内核都可以读取或写入设备变量，无论内核是由主机还是设备运行时初始启动。等同地，所有内核将具有与在模块范围内声明的<code>__constant__</code>相同的视图。

纹理和表面内存：

CUDA支持动态创建的纹理和表面对象1，其中可以在主机上创建纹理参考，传递给内核，由内核使用，然后从主机中销毁。设备运行时不允许从设备代码中创建或销毁纹理或表面对象，但可以在设备上自由使用并自由传送由主机创建的纹理和表面对象。无论它们在哪里创建，动态创建的纹理对象总是有效的，并且可以从父级传递给子级内核。

设备运行时不支持从设备启动的内核中的传统模块范围（即费米架构）纹理和表面。模块范围（遗留）纹理可以从主机创建并在设备代码中用于任何内核，但只能由顶级内核（即从主机启动的）使用。

1：动态创建的纹理和曲面对象是CUDA 5.0引入的CUDA内存模型的补充。有关详细信息，请参阅CUDA编程指南。

共享内存变量声明：

在CUDA中，C / C ++共享内存可以声明为静态大小的文件范围变量或函数范围变量，也可以声明为外部变量，其大小由内核的调用者在运行时通过启动配置参数确定。这两种类型的声明在设备运行时间下均有效。

符号地址：

由于所有全局范围的设备变量都在内核的可见地址空间中，所以设备端符号（即标记为<code>__ device_</code>的那些符号）可以通过简单的＆运算符从内核中引用。这也适用于<code>__constant__</code>符号，但在这种情况下，指针将引用只读数据。

考虑到设备端符号可以直接引用，引用符号的CUDA运行时API（例如cudaMemcpyToSymbol（）或cudaGetSymbolAddress（））是多余的，因此设备运行时不支持。注意这意味着即使在子内核启动之前，也不能在运行的内核中更改常量数据，因为对<code>__constant__</code>空间的引用是只读的。

CUDA学习（六十三）

继续阅读

量子计算机是一种新型计算设备，它采用量子力学原理进行操作和处理数据。其工作原理主要依赖三个重要的量子力学概念：量子叠加态

tensorflow gpu版本查看可用gpu ，指定 gpu ，禁用gpu方法

N卡驱动版本与NVCUDA驱动版本和CUDA toolkit的关系

CUDA学习笔记（LESSON5）——GPU优化CUDA系列笔记GPU优化

TensorFlow多GPU并行计算

.Net开发之并行计算：提升应用程序的计算能力

在CENT OS 7.0 64位系统上源码编译安装OPENCV3.0以及CUDA7.0，支持CUDA开发，并集成QT5.5.0的开发环境

图形处理单元（GPU）的并行计算优势与应用前景

并行计算系统的异构并行有多少种呢？异构计算中引擎并行计算系统的异构并行有多少种呢？GPU、FPGA、DSA、ASIC等引

在Visual Studio中开启OpenMP

OpenMP并行程序编译执行语句

MFC中使用CUDA5.0的方法（VS2010环境）

关于“并发”、“并行”、“串行”的一点理解

对应Intel SSE的android NEON

CUDA 编程指南(Shane Cook) 第9章应用程序性能优化(1) 摘录

VMware(虚拟机)下得Linux 集群