CUDA overflow

wts_net 2009-07-02 04:03:43

未处理的异常: 0xC00000FD: Stack overflow,在模拟时候,一进入kernel就出现了这一个异常,这会是什么问题呢?

...全文

114 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

OpenHero 2009-07-11

打赏
举报

回复

有用到了texture，sharedmemory这些的时候，在模拟的时候，需要注意，或者是自己重新开内存。

无心人_过过小日子 2009-07-02

打赏
举报

回复

局部变量定义太多太大了,特别是数组.(合计超过64KB)

本文介绍了如何在星图GPU平台上自动化部署⚖️Lychee-Rerank相关性评分工具，实现高效的本地检索与文档匹配评分。该工具基于Qwen2.5-1.5B模型，可应用于智能问答、内容推荐等场景，帮助用户快速评估查询与文档的相关性，提升信息检索效率。

笔者最近想编译cuda kernel的代码，不知道何种原因，cuda-gdb总是进入不了cuda 的kernel代码。问了身边的大神们，他们表示自己也没有用过cuda-gdb调试程序。他们告诉我最简单的方式就是设置printf输出中间变量。可是笔者有疑惑了，cuda __device__ 打头的函数不是不支持调用host端的函数吗，为何printf能调？我试着在kernel代码中加上print

https://stackoverflow.com/questions/10460742/how-do-cuda-blocks-warps-threads-map-onto-cuda-cores http://www.nvidia.com/content/PDF/fermi_white_papers/NVIDIA_Fermi_Compute_Architecture_Whitepaper

本文介绍了在星图GPU平台上自动化部署Nanbeige4.1-3B 3B参数级通用小语言模型的方法，并重点解析了其WebUI使用中常见的CUDA OOM与Token Overflow错误。通过分析日志与提供解决方案，帮助用户有效利用该模型处理如长文本总结、代码生成等典型应用场景，确保服务稳定运行。

stackoverflow上早有讨论 https://stackoverflow.com/questions/33651810/the-minimum-required-cuda-capability-is-3-5 github上也早有issue https://github.com/tensorflow/tensorflow/issues/25 但是一番折腾发现最靠谱的方法是该改数，重新编译。遂...

591

社区成员

2,925

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章