在本地生成会议摘要(中英混合语音转文本+摘要)时,高通端侧生成式AI如何兼顾速度和内存占用?
可采用“小模型常驻+大模型按需唤醒”的双层策略:ASR与基础摘要常驻运行,复杂总结任务再调用更高参数模型;并通过 KV cache 管理、分块推理和低比特量化控制峰值内存。这样可在终端侧获得更平衡的时延与资源占用。
7,156
社区成员
6,214
社区内容
加载中
试试用AI创作助手写篇文章吧