新模型(GLM4.6、YOLO13):能否直接转换与量化?有哪些前置条件/限制?

weixin_46424698 2025-12-24 17:16:01

对于像 GLM4.6、YOLO13 这类比较新的模型架构,我们想尽快在骁龙端侧做验证与部署。
想请教 QAIRT 这边对“新模型”的支持节奏一般是怎样的:
    •    新模型是否可以直接走现有工具链完成转换与量化?
    •    如果能转换,是否意味着也能完整下沉到 NPU/HTP,还是可能出现部分算子不支持导致回退?

从工程角度看,想让这类新模型更顺滑地在端侧落地,需要提前满足哪些条件:比如限制某些算子/激活函数、避免动态 shape、采用更“端侧友好”的模块替代、使用特定导出方式等?

另外,如果遇到不支持的算子,通常是建议“改模型结构”还是“等算子支持/用插件扩展”会更现实?

...全文
11 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
weixin_38498942 1小时前
  • 打赏
  • 举报
回复
  1. 转换量化:GLM4.6、YOLO13可通过QAIRT现有工具链(导出ONNX→qairt-converter转DLC→量化)转换,但新算子易致部分回退CPU,非完全下沉HTP/NPU。
  2. 前置条件(端侧友好):固定shape、用QAIRT支持算子(如避开小众激活)、敏感层FP16/INT8混合、ONNX导出指定静态维度、量化配足量校准数据。
  3. 算子问题:短期优先改模型(替换/拆分不支持算子),长期等工具链迭代或用插件扩展,前者落地更快。
  4. 支持节奏:新模型先靠ONNX兼容转换,热门架构1–3个月内工具链适配,QAIRT定期更新算子库。

6,429

社区成员

发帖
与我相关
我的任务
社区描述
本论坛以AI、WoS 、XR、IoT、Auto、生成式AI等核心板块组成,为开发者提供便捷及高效的学习和交流平台。 高通开发者专区主页:https://qualcomm.csdn.net/
人工智能物联网机器学习 技术论坛(原bbs) 北京·东城区
社区管理员
  • csdnsqst0050
  • chipseeker
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧