部署Llama-3.2-1B推理的时候, 使用QNN的后端时, 运行单击“加载模型”时app应用程序崩溃.

起名困难症患者1 2025-01-17 11:15:14

部署Llama-3.2-1B推理的时候, 使用QNN的后端时, 运行单击“加载模型”时app应用程序崩溃.

我正在按照 [LlamaDemo 教程]在我的 OnePlus 12 手机（24GB RAM，1TB 存储空间）
上部署 Llama-3.2-1B 模型。但是，我遇到了如图问题：

1）. 问题描述
当我单击应用程序中的“加载模型”按钮时，它立即崩溃，没有任何可见的错误消息。
2）. 重现步骤
从 [Hugging Face](https://huggingface.co/meta-llama/Llama-3.2-1B/tree/main) 下载原始模型。
使用教程中描述的以下命令转换模型：
python -m examples.models.llama.export_llama --checkpoint "${MODEL_DIR}/consolidated.00.pth" -p "${MODEL_DIR}/params.json" -kv --disable_dynamic_shape --qnn --pt2e_quantize qnn_16a4w -d fp32 --metadata '{"get_bos_id":128000, "get_eos_ids" [128009, 128001]}' --output_name="test.pte"
然后我完全按照教程进行操作

...全文

723 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 01-20

打赏
举报

回复

这个错误主要是因为Android SDK版本问题, 如 https://github.com/pytorch/executorch/blob/main/examples/demo-apps/android/LlamaDemo/docs/delegates/qualcomm_README.md 所述。请使用 NDK 版本 26.3.11579264 再试一次。

【代码】在huggingface上申请下载使用Llama-3.2-1B。

从Transformer架构的出现，到GPT与BERT系列，再到GPT3.5、文心的发布，再到Llama、Qwen、gemma、deepseek等开源。

Llama 3.2的1B和3B参数版本是一个支持多种语言大型语言模型，其指令调优纯文本模型Llama-3.2-1B-Instruct和Llama-3.2-3B-Instruct，针对多语言对话用例进行了优化，包括代理检索和摘要任务，性能参数如下图所示。把Llama-3.2-1B-Instruct模型的预训练权重下载到本地后，接下来本文将依次介绍基于Optimum Intel工具将Llama-3.2-1B-Instruct进行INT4量化，并完成本地部署。性能不够时，可以升级计算模块提升算力；

本文详细介绍了如何在矩池云平台上快速部署和使用Meta最新发布的多模态模型——Llama-3.2-11B-Vision，用于视觉识别、图像推理等任务。文章首先讲解了如何上传模型和数据，并在亚太1区租用高性能NVIDIA RTX 4090环境，避免下载速度慢的问题。接着提供了具体的代码运行步骤，包括安装依赖、登录Huggingface账户、下载模型和执行图像推理。通过实例演示了该模型的优异表现，生成的文本准确描述了图像内容。最后，文章介绍了如何保存和复用配置好的环境，以提高后续工作的效率。

应用使能套件openMind在华为全联接大会2024的展示吸引了我们的注意。通过专家们的分享，得以了解魔乐社区，也了解到openMind在其中发挥的技术能力和未来发展。通过本次微调的实践，更能体会到openMind套件的魅力。它让微调过程变得更加高效和直观，希望每一位开发者都来尝试它，一起交流经验，更好地提升它的能力。相关链接：[1] openMind Library介绍：[2] openMind Hub Client介绍：。

高通开发者论坛

5,319

社区成员

5,922

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章