目前端侧运行大语言模型 (LLM) 是否靠谱？例如 7B 模型在最新骁龙平台上的 token 速度、功耗大概是什么水平？

nomomoly 2025-12-24 17:06:32

目前端侧运行大语言模型 (LLM) 是否靠谱？例如 7B 模型在最新骁龙平台上的 token 速度、功耗大概是什么水平？

...全文

10 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 1小时前

打赏
举报

回复

端侧运行7B LLM已靠谱（INT4量化+骁龙8 Gen2+ NPU），骁龙8 Elite上解码速度约17.9 tokens/s，8 Gen3约10-12 tokens/s，首token延迟1-1.5s；功耗多在3-6W（NPU为主），无CPU回退时更低。判断端侧可用看三点：支持骁龙8 Gen2+、INT4/FP16量化、用QAIRT工具查无算子回退，同时核对延迟/功耗/内存基线。

这样组合，既能利用大模型的“高情商”，又能保证小模型的“高智商”和“稳准狠”，还省钱省力，是金融AI落地最靠谱的玩法！研究将更加聚焦于提升这些模块的自主性、适应性、可信赖性、以及对资源的高效利用。：让每个人的口袋里的手机、家里的设备，都能拥有接近（甚至在特定领域超越）当前顶级大模型（如ChatGPT、Claude）的智能，但体验上更省电、响应更迅捷、数据更安全、交互更自然。：通过在端侧持续运行和学习的小模型，结合偶尔的云端大模型辅助和知识更新，每个人的AI助理将进化成独一无二的、高度个性化的“数字伴侣”。

零一万物模型官方 Yi-34B 模型本地离线运行部署使用笔记（物理机和docker两种部署方式），200K 超长文本内容，34B 干翻一众 70B 模型，打榜分数那么高，这模型到底行不行？目前最具公信力的 HuggingFace 榜单中，包括 Yi-34B 在内，排在它前面的模型只有 26 个，但是其中 48% （14个）都是 Yi-34B 和 Yi-34B 200K 的变体模型，其中第一名是来自社区用户 fblgit 的 “LLaMa Yi 34B”

可这份热情没能撑过一个月。如今，那台专门升级了显卡的电脑，大模型程序静静躺在硬盘深处，偶尔开机，也只是为了清理缓存。“生成一句话要等10秒，写周报还能把部门名写错，不如直接用GPT-4 API，3秒出结果还靠谱。”小林的话，道出了无数本地部署玩家的心声。

这篇文章深入探讨了如何通过微调技术来优化大语言模型（如 `DeepSeek`）的表现，使其在特定领域或任务中更具优势。文章首先解释了微调的必要性及其在特定领域中的应用场景，并将微调与长文本处理、知识库的使用进行对比，帮助读者理解何时选择微调。接着，文章详细介绍了微调的基本流程，包括选择预训练模型、准备数据集、设置超参数等。通过硅基流动平台，读者可以体验在线微调的流程。最后，文章提供了一个使用 `Colab` 和 `Unsloth` 工具进行本地微调的实战指南，展示了如何从头到尾微调一个算命大师模型，并将其部

现在既能支持传统模型，也能支持大模型的转换，调试工具也比之前版本更完善。A4：对于 Stable Diffusion，我们会先检查模型是否也从多头成功转为单头，同时也有一些蒸馏(distillation)策略，可减少生成步骤，从而提升推理速度。Q5：老师，当模型部署到手机上之后，效果和在PC上不一样，咱们的调试工具有没有什么“一键诊断”之类的便捷功能，帮我们快速定位问题？工具能够显示每一层的执行耗时，以及具体的内存读写情况，并以 summary 文件的形式呈现，方便开发者优化。A11：是完全本地化的。

高通开发者论坛

6,429

社区成员

6,049

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章