基于TensorRT API实现模型网络时用到CUDA核函数时需要注意的一个问题
TensorRT提供了一些常用的基本API,例如2d和3d卷积、池化、上采样、反卷积(转置卷积)、ReLU和全连接等等,但是更新比较慢,对于新的算子和激活函数没有及时提供实现,至于类似不同输出层多种维度特征数据融合这些复杂一点的组合功能是不可能提供现成的API的,所以这些在自己基于TensorRT API实现某个比较新的模型的网络时是需要自己去实现的。对于这种需要自己定制的部分,TensorRT提供了Plugin机制,也就是提供了几个Plugin接口和超级类分别用于支持输入数据维度是静态的或者动态的,我