做端侧文案生成时，用户反馈“前几秒不卡、后面越来越慢”，在高通生成式 AI 部署里通常怎么定位？

李牧游子 2026-04-02 16:07:29

做端侧文案生成时，用户反馈“前几秒不卡、后面越来越慢”，在高通生成式 AI 部署里通常怎么定位？

...全文

61 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 04-02 17:30

打赏
举报

回复

这类问题常与上下文长度增长导致的注意力计算增加、KV cache 管理不当、以及温控降频有关。建议监控 token 吞吐随序列长度变化曲线，并检查缓存复用命中率与热状态；必要时用滑动窗口和分段总结限制上下文膨胀。

软件生态的需求端侧部署 AI 大模型仅有硬件上的支持是远远不够的，需要软件生态的配合，帮助大模型更好适应当下智能手机硬件的实际情况，并向开发者和手机厂商提供完备的开发环境，帮助快速实现生成式 AI 应用开发和...

▲ 图片由AI生成算力资源吃紧，成本居高不下，数据隐私泄露，用户体验不佳……以OpenAI为代表的大语言模型爆发后，多重因素影响之下本地化部署成为LLM落地的主流模式。LLM迫切需要部署在本地设备上，围绕LLM端侧部署...

基于生成式人工智能的强通用能力、交互能力和生成能力,结合当前产业现状,总结了面向用户的生成式人工智能服务具有服务形态多元、交互方式革新、服务模式复杂的特点,梳理了生成式人工智能技术应用对个人信息安全带来...

计算加速(1) AI应用部署全流程第一步：确定目标和任务目标：自然语言处理、图像生成、图像判断、视频生成自然语言处理分支①判别式大模型()：序列标注、文本分类、意图识别②生成式大模型()：文本生成、文案撰写③...

大模型在车载语音助手领域主要聚焦于深化语义理解和优化语料生成，从而精准捕捉用户的意图与需求，轻松应对复杂语句和语境，并输出自然、拟人、流畅且逻辑清晰的回答与建议，为用户提供更好的“情绪价值”大模型通过...

高通开发者论坛

7,639

社区成员

6,302

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章