1
社区成员




课时名称 | 课时知识点 |
---|---|
BERT、GPT 以及 ChatGPT 背后的 RLHF 技术 | 本讲将讲解大规模语言模型预训练的两大范式:BERT 和 GPT,对比分析它们在训 练目标、方式和适用任务上的异同。重点介绍 GPT 的生成式预训练和基于 Transformer Decoder 的自回归建模,并带领大家从零开始构建并训练一个简版 的生成式 GPT 模型。同时,也会演示如何用 Hugging Face 的预训练 GPT 进行下 游任务微调。本讲还将揭秘 ChatGPT 的核心技术:基于人类反馈的强化学习 (RLHF),讲解如何通过引入人类偏好来优化和调教 GPT 模型,使其能够根据指令 完成任务,表现出安全且符合伦理的行为。课程将带领大家复现 RLHF 的关键步骤, 并尝试在一个 |