2,851
社区成员




efficient-transformers能否使用config.json创建调试模型?
描述问题:
除了为标准 LLM 生成 onnx 模型外,我们还希望能够创建 2 层模型或其他简化模型,以便更快地验证概念。最好是,在这个 repo 的单个实例中,无需手动移动和复制。
重现行为的步骤:
1. 用于运行的命令/使用的脚本
python -m QEfficient.cloud.infer --model_name mistralai/Mixtral-8x7B-v0.1 --batch_size 1 --prompt_len 32 --ctx_len 128 --mxfp6 --num_cores 16 --device_group [0,1,2,3] --prompt "My name is" --mos 1 --aic_enable_depth_first --hf_token=*****
2. 错误详细信息
<config.json> 被覆盖
也无法区分完整层和 2 层的输出目录。
预期行为
希望 config.json 不更新,生成 2 层。完整层也共存,无需手动复制或移动。
在我们努力进行更大的更改以实现这一点的同时,您可以尝试快速生成实验性的 2 层toy model:
您可以在此处向此调用添加参数 num_hidden_layers。类似这样的代码:qeff_auto_model_class.from_pretrained(pretrained_model_name_or_path=pretrained_model_name_or_path, num_hidden_layers=2)
这将使用您上面使用的相同命令生成具有 2 层的模型.
另外这个版本是在11月13日入库的代码, 所以请使用着之后的版本进行调试.