在本地生成会议摘要（中英混合语音转文本+摘要）时，高通端侧生成式AI如何兼顾速度和内存占用？

我了个乖乖！ 2026-03-26 11:45:43

在本地生成会议摘要（中英混合语音转文本+摘要）时，高通端侧生成式AI如何兼顾速度和内存占用？

...全文

71 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 03-26 17:42

打赏
举报

回复

可采用“小模型常驻+大模型按需唤醒”的双层策略：ASR与基础摘要常驻运行，复杂总结任务再调用更高参数模型；并通过 KV cache 管理、分块推理和低比特量化控制峰值内存。这样可在终端侧获得更平衡的时延与资源占用。

Gemma 4是谷歌发布的开源大语言模型系列，标志着端侧AI从概念验证迈向工程落地的关键转折。其核心创新包括逐层嵌入（PLE）、KV状态复用和双RoPE调度，显著提升参数效率与长文本推理能力。模型提供E2B、E4B、26B MoE和31B Dense四尺寸，分别适配手机、工作站、Agent服务与数据中心场景，并原生支持多模态（可变宽高比视觉编码、五档图像token预算）、音频理解及函数调用。Apache 2.0协议加速企业合规部署，实测覆盖iOS、Jetson、H100等平台，同时揭示中文长文本精度下降、显存OOM、并发延迟飙升等关键工程问题。

GLM-Edge-V-5B是一款拥有50亿参数的开源模型，专为端侧多模态任务设计。它解决了边缘AI在算力与隐私之间的矛盾，具备高效的推理能力和低延迟特性。支持图像描述、视觉问答等任务，并可在多种平台上部署。该模型提升了消费电子和工业领域的智能化水平，标志着边缘AI进入新的发展阶段。

端侧大模型是指在终端设备本地完成推理的大规模AI模型，其核心价值在于低延迟、高隐私、强确定性与离线可用性。技术原理涵盖模型轻量化（如动态KV缓存、混合精度量化）、芯片协同设计（如专用SRAM优化Transformer）、热-电-算联合调度等关键工程突破。相比云端方案，端侧模型在车载场景下可规避网络依赖、GDPR合规风险及响应不确定性，显著提升方言识别率、隧道/沙漠等弱网环境可用率。典型应用已覆盖智能座舱语音交互、多语种混合指令理解、驾驶员状态预测及本地化AI服务扩展。本文聚焦真实量产级落地路径，深度解析高通

谷歌发布Gemma 4系列开源大模型，涵盖E2B/E4B/26B MoE/31B Dense四版本，支持图文音原生多模态、256K超长上下文及4-bit量化部署。实测可在Mac M4、RTX 4090、Mac Studio等设备本地运行，最低仅需3.2GB内存，适配安卓手机与边缘设备。全系采用Apache 2.0协议，允许商用、修改与分发，推动端侧AI普及。

Nexa SDK 是一款开源端侧 AI 开发工具包，支持跨平台（iOS/Android/PC/IoT/汽车）异构计算调度，内置 NexaML 推理引擎与 NexaQuant 模型压缩技术，实现低代码、OpenAI API 兼容的本地大模型部署。它支持 GGUF/MLX 等格式，适配 NPU/GPU/CPU，赋能多模态（LLM/VLM/Vision/Audio/ImageGen）本地运行，兼顾隐私、低延时与高能效。

高通开发者论坛

7,645

社区成员

6,338

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章