模型转换的完整pipeline是怎样的?从训练到部署中间有哪些坑要注意？

nomomoly 2025-12-24 17:09:09

模型转换的完整pipeline是怎样的?从训练到部署中间有哪些坑要注意？

...全文

10 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 1小时前

打赏
举报

回复

完整pipeline（以PyTorch为例）

训练导出：PyTorch/TF 训练→导出 ONNX（指定适配 Opset，固定输入 shape）；
转浮点 DLC：qairt-converter 将 ONNX 转为浮点 DLC（QNN 图格式）；
量化校准：qairt-quantizer 做 INT4/FP16 量化（配校准数据防掉点）；
生成执行格式：qnn-context-binary-generator 转量化 DLC 为 Context-Binary（NPU 可执行）；
端侧部署：集成 QAIRT API，推送到骁龙设备 NPU/HTP 推理。
核心坑与规避
算子回退：先查 QNN 算子支持清单，自定义算子需适配；用 qnn-context-binary-utility --check 扫描。
量化掉点：用真实校准数据，选 KL 散度而非 Min - Max 统计，必要时做 QAT 。
输入不兼容：固定 batch/shape，导出 ONNX 时禁用动态维度。
性能差：优先 INT4，关闭算子回退，核对 SoC（骁龙 8 Gen2+）与 NPU 算力。
部署异常：用 qnn-net-run --profile 测延迟/功耗，adb logcat 排查初始化失败。

0总结1 什么是模型部署？1 部署流程：2 为什么模型部署这么复杂？3 模型部署学习建议：2 详细介绍:1 模型转换2 模型优化3 模型压缩：剪枝：蒸馏稀疏化量化：4 模型推理与部署：TensorRTOpenVINO3 模型部署优化实例：参考。

‍‍并行计算是大模型训练部署过程中最重要的支撑技术之一，不仅关系大模型的计算效率，还决定了计算平台能否为大模型提供有效支撑。本章首先分析介绍了并行计算与大模型之间的关系以及目前可用的并行计算框架。接下来从实际部署大模型的角度出发，总结了该过程中可能出现的问题及相关可用资源。最后为了更加有效地使用大模型，详细介绍了针对大模型的压缩和加速方法。

作者|Oldpan 编辑|汽车人点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取点击进入→自动驾驶之心【模型部署】技术交流群后台回复【模型部署工程】获取基于TensorRT的分类、检测任务的部署源码！好久没更文了，每次偷懒一段时间再更文的时候，总会感慨技术发展太快了，之前写的东西又有点过时了。尤其是AI领域，变动太快，大家的风向也一直在变，前两年还在VR/XR的搞，今...

本文系统介绍了大模型训练与部署中的并行计算技术。首先分析了模型并行和数据并行两种策略的特点及应用场景，指出混合并行是大模型训练的主流方案。随后对比了Megatron-LM、DeepSpeed、飞桨等主流并行框架的技术特点。在部署环节，重点讨论了模型压缩方法，包括知识蒸馏、剪枝、量化等技术，并分析了当前超大模型压缩面临的挑战。文章最后提供了大模型学习的系统路径，涵盖提示词工程、RAG系统开发、模型训练等关键技能，为AI从业者提供了全面的技术参考。

将一个深度学习模型从实验室带到最终用户手中的过程，可以看作是一次长途旅行。旅途开始于模型的训练，这是为旅行准备必需的知识和能力。随后，模型需要经过多轮的打包与优化，就像打包行李一样，既不能带得太多以至于负担沉重，也不能遗漏关键物品。接着，选择合适的部署环境，就如同选择旅行的目的地，可能是云环境，也可能是边缘设备。在这个过程中，模型会经历各种测试和优化，以确保它能够高效运行，并能够适应环境的变化。

高通开发者论坛

6,429

社区成员

6,049

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章