求教CUDA编程中device中动态内存分配问题

陆泽希 2016-04-16 07:40:22

大家好，初学CUDA编程，现在已有C语言代码，在将其用CUDA C改写的时候遇到了内存分配的问题，希望大家可以指点一下，谢谢~~

是这样子的，C语言代码中有个4阶复数矩阵求逆的子函数，其中有这么一句话：

int *a_inv = (int*)malloc(sizeof(int)*N);

并将a_inv这个指针变量作为返回值。在C中这么写应该是没有问题的，但是这个子函数在CUDA中是定义为__device__的，并且在
__global__中需要调用它，那么我该如何在CUDA编程的时候在__device__中动态分配内存呢？

我在网上查了一下，GPU端的内存都是在host端管理的，也就是说我需要用cudamalloc在__device__中分配内存，至于传输是不是就不能用cudamemcpy了？而是要用cudamemcpytosymbol？也就是说，在host分配内存之后如何将分配的空间与在__device__中定义的指针变量联系起来呢？

我不知道我有没有把问题说清楚，有哪里没说清楚的跟我提一下哈，希望大家帮忙解答一下这个问题，再次谢谢~~

...全文

491 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

陆泽希 2016-04-19

打赏
举报

回复

http://bbs.csdn.net/topics/391928275 建议看下这个帖子。。至于关键词高亮，你有没有把.cu文件加入高亮的设置？如果加入的话，就是头文件问题了，你要#include一些CUDA的头文件

chen0yi 2016-04-18

打赏
举报

回复

我也初学~我是过来问楼主咋配置的环境，为啥你的malloc就能变色，我的__global__这些都是未声明

0/ Excel数据处理新利器来了，准备好了吗？1/ 比网红函数VLOOKUP还全面的功能。——查（查询）2/ 取其精华，去其糟粕。——筛（筛选）3/ 拆分就像同学会，拆散一对是一对。——拆（拆分）4/ 天下大势，合久必分，分久必合。——合（合并）5/ 隔空取物，犹如探囊取物——提（提取）6/ 百转千回后的峰回路转。——转（转换）7/ 它判断真假的唯一标准。——判（判断）8/ 人以群分，物以类聚。——聚（聚合）9/ 我自己的难题自己造函数，不求教别人。——技法（自定义函数）

主要是对于GPU、cuda、cuDNN的一些简单的认识，大家可以参考一下哦！

伯克利的贾扬清主导开发，以C++/CUDA代码为主最早的深度学习框架之一，比 TensorFlow、Mxnet、Pytorch等都更早需要进行编译安装。支持命令行、Python和Matlab接口单机多卡、多机多卡等都可以很方便的使用caffe的使用通常是下面的流程：流程相互之间是解耦合的，所以caffe的使用非常优雅简单。优点 & 缺点优点：1.以C++/CUDA/python代码为主，速度快，性能高。2.工厂设计模式，代码结构清晰可读性和拓展性强。

Update: 文章写于一年前，有些地方已经不适合了，最近升级了一下深度学习服务器，同时配置了一下环境，新写了文章，可以同时参考: 从零开始搭建深度学习服务器: 基础环境配置（Ubuntu + GTX 1080 TI + CUDA + cuDNN）从零开始搭建深度学习服务器: 深度学习工具安装（TensorFlow + PyTorch + Torch）这个系列写了好几篇文章，

579

社区成员

2,918

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章