高通支持Meta Llama 3在骁龙终端上运行

chipseeker 2024-04-24 09:36:45

加精

高通最近宣布支持Meta Llama3在骁龙平台实现终端侧执行

高通和Meta合作优化Meta Llama 3大语言模型，支持在未来的骁龙旗舰平台上实现终端侧执行。
开发者将能够访问高通AI Hub中的资源和工具，以实现在骁龙平台上优化运行Llama 3，从而缩短产品上市时间并充分发挥终端侧AI的优势。
高通技术公司的终端侧AI能力包括行业领先的NPU、CPU和GPU技术组合，赋能生成式AI应用实现即时性、增强的可靠性、隐私性、情境感知个性化和成本效益。

具体的信息参考：Qualcomm-美国高通公司官方网站

Llama3相对Llama2做了以下的技术更新：

1）改进的Transformer架构

Llama 3 模型计算部分的代码和Llama2是一模一样的，也就是主干decoder only，用到了RoPE、SwiGLU、GQA等具体技术，并在 Llama 2 的基础上进行了关键改进。模型使用了 128K （Llama2 32K) 标记词汇表，提高了语言编码的效率，显著提升了性能。Llama3 采用了8K的context window，训练时输入的序列长度增大，推理能支持的序列长度增大（Llama2 4K）。

2）分组查询注意力(Grouped Query Attention)

Llama 3 引入了分组查询注意力 (GQA)，并在 8,192 个标记的- 分组查询注意力(GQA)序列上训练模型，降低了从内存中读取的数据量，所以也就减少了计算单元等待时间，提高了计算利用率,从而提高了模型的推理效率。

...全文