设备端跑多模态或个性化的 GenAI 应用时,延迟有时候会比较高。这个有没有推荐的优化方法?比如模型拆分、缓存策略、或者 Python API 的调用方式有没有最佳实践?求解答
有,端侧多模态/个性化GenAI延迟优化核心有4类最佳实践:
6,429
社区成员
6,049
社区内容
加载中
试试用AI创作助手写篇文章吧