近期尝试在移动平台部署Llama 2模型,用于本地文本生成。遇到内存占用高、电池消耗快等问题。请问在骁龙平台上部署大模型,有哪些优化策略?比如量化、裁剪,或者调用高通的AI SDK能否解决这些问题?
2,851
社区成员
5,756
社区内容
加载中
试试用AI创作助手写篇文章吧