ACL'24 LLM in a flash: Efficient Large Language Model Inference with Limited Memory

阿二发 2025-06-14 17:01:14

背景：Apple公司研究里大模型在手机端的推理加速问题

https://aclanthology.org/2024.acl-long.678.pdf

主要挑战：主存空间小，需要将大模型存放在闪存中，按需交换到主存中，但传输速度慢成为主要瓶颈

研究思路：探索大模型推理中的局部性以及神经元的可预测性，尽可能发挥缓存作用和无效交换

实验结论：能够在CPU和GPU分别加速4和20倍推理速度

观察分析：大模型本地化部署，或许能替代siri，是乔布斯理想的智能化方向，也能解决隐私问题；但模型过小难以支持复杂应用，推理加速也是影响大模型本地化部署的瓶颈问题。大模型推理问题会是未来长期研究方向和重点，也是各公司发挥大模型价值的重要阵地。

...全文

23 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

山峰哥 1天前

打赏
举报

回复

文章逻辑如手术刀般精准，案例拆解直击行业痛点，方法论可落地性极强。从底层原理到实操技巧层层递进，读完立刻想实践，堪称领域「避坑指南」与「创新灵感库」的完美结合！

Paper：《Instruction Tuning for Large Language Models: A Survey—大型语言模型的指令调优的综述》翻译与解读目录《Instruction Tuning for Large Language Models: A Survey—大型语言模型的指令调优的综述》翻译与解读 Abstract摘要 1 Introduction引言 2、Methodology方法 3、Datasets数据集：大多都是英文指令

Sutton, S.Schuh, K.Lomeli, L.Mann, E.Perez, N.5547–5569.[Online].[152] J.Austin, A.Odena, M.I.Nye, M.353–355.[177] P.V.ACM, 2022.559–578.Drain, S.Fort, D.4582–4597.Yih, Eds.8410–8423.[240] Q.Zhang, M.Chen, A.He, Y.Cheng, W.

Gemini：一族功能强大的多模态模论文名称：Gemini: A Family of Highly Capable Multimodal Models论文地址：https://arxiv.org/pdf/2312.11805会议：论文方法：该论文介绍了一种新的多模态模型系列，Gemini，在图像、音频、视频和文本理解方面具有非凡的能力。Gemini系列包括Ultra、Pro和Nano三种规模，适用于从复杂的推理任务到设备上的内存受限用例。论文实验结果：在广泛的基准测试中，该论文最先进的Gemini Ultr

O-LoRA阅读笔记，EMNLP2023复旦大学工作。介绍了一种O-LoRA方法，将多个LoRA块正交放置，通过限制LoRA块中A矩阵的正交性（矩阵运算为0）减少不同任务之间的干扰从而解决持续学习中的灾难性遗忘问题。

Large Transformer Model Inference OptimizationLarge transformer models are mainstream nowadays, creating SoTA results for a variety of tasks. They are powerful but very expensive to train and use. The extremely high inference cost, in both time and memory,

通用语言大模型及知识协同技术

50

社区成员

14

社区内容

发帖

与我相关

我的任务

软件工程个人社区重庆·沙坪坝区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章