[菜鸟每天来段CUDA_C]向量相加的CUDA实现和顺序执行比较

2023-06-25 21:20:17

本文首先利用CUDA实现了两个50000维向量加法的并行运算，然后对两个向量串行相加，对两者的计算时间做了比较。

1. CUDA 向量相加

A、B为随机生成的长度为50000的数组。核函数：

__global__ void vecAdd(const float* A, const float* B, float* C, int N)
{
      int i = blockDim.x * blockIdx.x + threadIdx.x;
      if (i < N)
      {
          C[i] = A[i] + B[i];
      }
}

调用：

vecAdd<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B, d_C, N);

2. 串行相加

void vecAdd(float* X, float* Y, float* Z, int n)
{
     for (int i=0; i<n; i++)
     {
          Z[i] = X[i] + Y[i];
     }
}

3. 运算时间

CUDA：串行：

[菜鸟每天来段CUDA_C]向量相加的CUDA实现和顺序执行比较

由于CUDA中每个block中的线程数目设置为256，每次有256个核函数的拷贝并行执行。

所以起运行时间比串行执行快了100多倍~

[菜鸟每天来段CUDA_C]向量相加的CUDA实现和顺序执行比较

继续阅读

Ubuntu下安装cuda历程记录

CUDA学习笔记(5) 原子操作

DAT（NIPS 2018）视频目标跟踪源码运行笔记1. 论文基本信息2. 运行环境介绍3. 准备4. 配置5. 运行6. 可能出现的问题及解决方法

Ubuntu16.04+Pytorch1.4.0+cuda10.0的pip安装

【CUDA-C/C++】任意维度矩阵乘

WSL2 的docker里使用显卡的安装

关于安装pytorch的一些问题总结

jetson nano ubuntu 安装opencv4 cuda10 pytorch

Jetson Nano Ubuntu编译OpenCV4.4.0+opencv_contrib(带CUDA)

本科、硕士、博士的区别是什么？

yolov7 tensorrt模型加速部署【实战】

linxu下CUDA静态库-上

《cuda并行程序设计》勘误（3）

《cuda并行程序设计》勘误（2）

ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory（完美解决）

一种解决思路： ImportError: libcublas.so.10.0: cannot open shared object file: No such file