我正在尝试使用NPU在我的Android手机上运行Llama-v3-8B-Chat。将模型导出为优化的Qualcomm格式后，我如何在移动设备上使用自己的提示在本地运行它？非常感谢。

我爱炸鸡和可乐 2024-11-01 15:53:12

我正在尝试使用NPU在我的Android手机上运行Llama-v3-8B-Chat。将模型导出为优化的Qualcomm格式后，我如何在移动设备上使用自己的提示在本地运行它？非常感谢。

...全文

868 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 2024-11-07

打赏
举报

回复

Qualcomm将发布兼容llama3的新变体，以便在设备上运行。
可以随时关注https://github.com/quic/ai-hub-models/tree/main/qai_hub_models/models/llama_v2_7b_chat_quantized/gen_ondevice_llama
在设备上运行llama2的这个帖子。
llama3也将使用类似的工作流程在设备上运行。
注意：您可以将当前的llama3与上述工作流一起使用，但配置文件会发生变化。
请继续关注，一旦我们发布了llama3流，我们将进行更新

使用LLaMA-Factory对Llama3-8B-Chinese-Chat进行微调

LLaMA-Factory是一个开源的大规模语言模型微调框架，设计用于简化大模型的训练过程。它提供了一个统一的平台，支持多种大模型的微调，包括LLaMA、BLOOM、Mistral等，旨在帮助用户快速适应和调整这些模型以适应特定的应用场景。LLaMA-Factory通过提供一套完整的工具和接口，使用户能够轻松地对预训练的模型进行定制化的训练和调整，包括（增量）预训练、指令监督微调、奖励模型训练、PPO训练、DPO训练和ORPO训练等多种训练方法。

Llama.cpp是一个支持多种LLM模型的C++库，而Llama-cpp-python是其Python绑定。通过Llama-cpp-python，开发者可以轻松在Python环境中运行这些模型，特别是在Hugging Face等平台上可用的模型。Llama-cpp-python提供了一种高效且灵活的方式来运行大型语言模型。LLM概念指南。

LLaMA是由Meta AI发布的大语言系列模型，完整的名字是Large Language Model MetaAI。LLaMA按照参数量的大小分为四个型号：LLaMA-7B、LLaMA-13B、LLaMA-30B与LLaMA-65B。LLaMA模型的效果极好，LLaMA-13B在大多数基准测试中的表现都优于GPT-3（175B），且无需使用专门的数据集，只使用公开可用的数据集即可至训练至最优。本工程基于FastChat仓，主要聚焦于LLaMA-7B/13B模型。

探索深度学习的未来，LLaMA-Factory 是您的理想伴侣！这个强大的模型训练和微调平台支持多种前沿语言模型，如 LLaMA、LLaVA 和 ChatGLM，让您轻松构建和优化您的AI应用。凭借灵活的训练方法、先进的优化算法和快速推理能力，LLaMA-Factory 能够满足开发者的多样化需求。安装简单，只需克隆源码、创建 Conda 环境，并配置依赖项即可。在使用过程中，您可以通过直观的 LLaMA Board GUI 进行高效微调，调整学习率和批次大小等参数，确保最佳训练效果。

高通开发者论坛

5,256

社区成员

5,912

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章