6,429
社区成员
发帖
与我相关
我的任务
分享对于像 GLM4.6、YOLO13 这类比较新的模型架构,我们想尽快在骁龙端侧做验证与部署。
想请教 QAIRT 这边对“新模型”的支持节奏一般是怎样的:
• 新模型是否可以直接走现有工具链完成转换与量化?
• 如果能转换,是否意味着也能完整下沉到 NPU/HTP,还是可能出现部分算子不支持导致回退?
从工程角度看,想让这类新模型更顺滑地在端侧落地,需要提前满足哪些条件:比如限制某些算子/激活函数、避免动态 shape、采用更“端侧友好”的模块替代、使用特定导出方式等?
另外,如果遇到不支持的算子,通常是建议“改模型结构”还是“等算子支持/用插件扩展”会更现实?