6,666
社区成员
发帖
与我相关
我的任务
分享我在fine-tune一个Llama 2 13B模型用于法律文档分析,4张RTX 3090,训练数据8万条、平均token长度1200,使用DeepSpeed ZeRO-2。现在batch_size=4能跑但太慢,调到8就OOM,法律文档长度又不能截太多。想问下dynamic batching和gradient checkpointing这两个技术在我这个场景下实用吗?dynamic batching在Hugging Face里怎么实现?gradient checkpointing开启后大概能节省多少显存、对训练速度影响多大、跟DeepSpeed会不会冲突?有在类似场景用过的朋友能分享下实际效果吗?
Gradient Checkpoint 是训练技术,推理阶段用不上。 推理阶段显存不足,建议使用:模型量化(INT8/INT4)、分块推理、或者限制上下文(Context)长度。动态 Batch 主要提升吞吐量,对降低单次请求的峰值显存帮助有限。
希望对你有帮助~