2,851
社区成员




高通最近宣布支持Meta Llama3在骁龙平台实现终端侧执行
具体的信息参考:Qualcomm-美国高通公司官方网站
Llama3相对Llama2做了以下的技术更新:
1)改进的Transformer架构
Llama 3 模型计算部分的代码和Llama2是一模一样的,也就是主干decoder only,用到了RoPE、SwiGLU、GQA等具体技术,并在 Llama 2 的基础上进行了关键改进。模型使用了 128K (Llama2 32K) 标记词汇表,提高了语言编码的效率,显著提升了性能。Llama3 采用了8K的context window,训练时输入的序列长度增大,推理能支持的序列长度增大(Llama2 4K)。
2)分组查询注意力(Grouped Query Attention)
Llama 3 引入了分组查询注意力 (GQA),并在 8,192 个标记的- 分组查询注意力(GQA)序列上训练模型,降低了从内存中读取的数据量,所以也就减少了计算单元等待时间,提高了计算利用率,从而提高了模型的推理效率。