以pytorch为框架运行bert，在gpu内存分配遇到问题？在网上找解决方案，说是减小bachsize，减小后还是报错。

Emma_YeNT 2020-11-12 09:11:03

...全文

775 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

伯特蒸馏对于更通用的管道，请遵循库和。我不再支持该项目。该项目是关于BERT蒸馏的。目的是通过便捷的高级API，可再现性和所有GPU新功能，基于任何语言提炼出任何BERT。特征各种损失分布式培训 fp16 使用张量板，wandb等进行日志记录催化剂框架简短查询不久之前，Hugging Face团队发表了有关DistilBERT模型的。这个想法是将知识从大学生模型转移到小学生模型。首先，我们需要训练有素的老师模型。让我们采用6个编码器，而不是12个！我们应该使用教师层初始化小模型的层。不用长时间训练我们的模型来进行隐蔽语言模型任务，我们可以增加我们的偶然损失KL散度和学生与老师之间的余弦损失，因为我们知道老师受过良好的训练。如本文所示，这种方法导致质量下降较小，减小模型尺寸并加快推理速度，尤其是在移动设备上。用法在催化剂框架中，有两种运行实

被深度学习框架逼疯的N大瞬间！何解？.rar

BERT模型从训练到部署全流程

生产中的bert：在生产环境中使用BERT（https：arxiv.orgabs1810.04805）和相关语言模型的资源集合

一个多模态内容理解算法框架，其中包含数据处理、预训练模型、常见模型以及模型加速等模块，方便使用，支持多模态，多任务的统一训练框架

CUDA高性能计算讨论

357

社区成员

615

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章