社区
CUDA on Linux
帖子详情
cuda的sdk例子中为什么要warm up?
cudars
2010-01-25 08:14:51
cuda的sdk例子代码中为什么要warm up?
是不是如果不用warm up,性能就不好了?
但对于一个具体的应用而言,其触发cuda计算应该是随机的啊。
如果每次的都要warm up,那运行10次warm up10次,运行更多次不是很多次的warm up了?
这样,累计的时间消费不是很厉害?
新手问题,请大家指点,谢谢!
...全文
1008
9
打赏
收藏
cuda的sdk例子中为什么要warm up?
cuda的sdk例子代码中为什么要warm up? 是不是如果不用warm up,性能就不好了? 但对于一个具体的应用而言,其触发cuda计算应该是随机的啊。 如果每次的都要warm up,那运行10次warm up10次,运行更多次不是很多次的warm up了? 这样,累计的时间消费不是很厉害? 新手问题,请大家指点,谢谢!
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
9 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
Maschinenwissen
2010-08-20
打赏
举报
回复
warm up 是把执行相关操作需要的环境准备好,可以提升后续执行速度,但是作为额外开销了。
cudars
2010-02-07
打赏
举报
回复
另外,如果不用warm up。
实际应用中有什么办法尽可能提高cuda计算的性能吗?
看cuda的资料,好像通过warm up,性能会有所提高。
cudars
2010-02-07
打赏
举报
回复
[Quote=引用 6 楼 l7331014 的回复:]
1)实际应用肯定不要做"无用功".
2)可能执行多次测量出来的值偏差较大.(有较大的波动)
[/Quote]
如果这样的话,我看nvidia的sdk例子里面有很多是多次运算取平均值的,而这种做法对实际运算其实没有太大意义。因为工程应用中的计算是一次性买卖,算完就完了——这样一般所说的cuda计算性能提高100倍应该只是计算能力的理论值了。我的应用中,考虑到数据存取等因素,用cuda与不用cuda的性能相差在3倍左右。不知是否正常?
无心人_过过小日子
2010-02-04
打赏
举报
回复
1)实际应用肯定不要做"无用功".
2)可能执行多次测量出来的值偏差较大.(有较大的波动)
cudars
2010-02-04
打赏
举报
回复
如果按两位所说的话,对于CUDA计算,其实不用warm up,而不用warm up,在实际cuda计算中是否会导致实际计算时间比用warm up后,更"准确"地测量"实际"计算所用的时间要长呢?
如果这个说法成立的话,对于实际cuda应用而言,其实际性能提高,并没有warm up后,用nvidia提供的函数测量出来的那么明显?
OpenHero
2010-01-28
打赏
举报
回复
一般在考虑做调试的时候,测试一些数据的时候才会考虑warm up
通常情况下,不用考虑
其实哟一个warm up的过程
无心人_过过小日子
2010-01-27
打赏
举报
回复
[Quote=引用 2 楼 openhero 的回复:]
warm up一般debug的时候用
[/Quote]
warm up和debug没多少关系吧?....
OpenHero
2010-01-27
打赏
举报
回复
warm up一般debug的时候用
无心人_过过小日子
2010-01-25
打赏
举报
回复
ptx代码装入gpu本身也要花费时间的.有了warm up可以更"准确"地测量"实际"计算所用的时间.
实际应用中,从来不warm up的.呵呵.
51c~
CUDA
~合集2
答:第一个用在调用
cuda
_runtime提供的API函数,所以,都会返回一个
cuda
Error_t类型的变量,需要将变量传入到第一个函数,效验调用API是否正常执行。第二个,使用在自己写的核函数时,自己写的,一般没有返回
cuda
Error_t类型变量,不用传参,如果想知道错误,调用getlast
cuda
Error(),获取系统给你报的错,所以,第二个在函数里面点用了getlast
cuda
Error不用传参。
Nvidia-
SDK
-Code-Sample的学习[5]OverLap、一次乌龙
Oerlap即边计算边传输,会节约时间。
例子
是: // OpenCL Kernel Function Naive Implementation for hyptenuse __kernel void VectorHypot(__global float4* fg4A, __global float4* fg4B, __global float4* fg4Hypot, unsigned int u
To
war
dsDataScience 2023 博客
中
文翻译(二百三十五)
你是否曾经想过如何训练一个深度神经网络来完成多项任务?这样的模型被称为多任务架构,相较于使用单独模型来处理每个任务的传统方法,它具有一定的优势。多任务架构是多任务学习的一个子集,这是一种训练模型或模型集合以同时执行多个任务的通用方法。在这篇文章
中
,我们将学习如何训练一个模型同时执行分类和回归任务。本文的代码可以在GitHub找到。动机— 我们为什么要这样做?方法— 我们将如何实现这一目标?
Transformer 自然语言处理(二)
你可能在某个时候需要总结一篇文档,无论是研究文章、财务收益报告还是一系列电子邮件。如果你仔细想想,这需要一系列能力,比如理解长篇文章、推理内容,并产生流畅的文本,其
中
包含原始文档的主要主题。此外,准确总结新闻文章与总结法律合同大不相同,因此能够做到这一点需要一定程度的领域泛化。出于这些原因,文本摘要对于神经语言模型,包括 Transformer 来说,是一项困难的任务。尽管存在这些挑战,文本摘要为领域专家提供了显著加快工作流程的可能性,并被企业用于压缩内部知识、总结合同、自动生成社交媒体发布的内容等。
python虚拟环境配置若干错误及解决办法
研一时跑程序遇到了各种神奇问题,有时候问了别人也是爱莫能助,很是绝望.所以把我的经验分享出来,让大家少走些弯路.
CUDA on Linux
374
社区成员
345
社区内容
发帖
与我相关
我的任务
CUDA on Linux
CUDA on Linux
复制链接
扫一扫
分享
社区描述
CUDA on Linux
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章