高通平台使用 QNN 做模型推理,并发请求增多后出现推理队列阻塞,该如何处理?
设置推理请求队列长度上限,超出阈值后做请求分流;采用多推理会话并行机制,拆分并发任务;配置任务优先级,保障核心业务优先执行,同时优化单条推理耗时,从根源缓解队列堆积问题。
7,642
社区成员
6,330
社区内容
加载中
试试用AI创作助手写篇文章吧