如何在kernel中调用blas库函数处理矩阵,动态并行
各位路过大神好,我想在CUDA的global kernel 函数中调用cublas函数做矩阵计算,但是编译时提示在global函数中无法调用host函数,我知道blas也是利用kernel进行的矩阵运算的处理,因此需要在kernel里面调用kernel,我用的CUDA版本是最新的6.5,照理来讲应该kernel支持动态并行呀,请问有没有什么方式能够处理?
我已经查找了一些资料,但是还是没能找到特别有用的,万不得以当一次伸手党,望各位神牛帮助!!!谢谢