社区
张岳升的课程社区_NO_1
AIGC大模型理论与工业落地实战
帖子详情
MTP1-Multi-Token-Predict算法的起源和思想
NLP小讲堂
2025-09-02 13:57:48
课时名称
课时知识点
MTP1-Multi-Token-Predict算法的起源和思想
MTP1-Multi-Token-Predict算法的起源和思想MTP1-Multi-Token-Predict算法的起源和思想
...全文
36
回复
打赏
收藏
MTP1-Multi-Token-Predict算法的起源和思想
课时名称课时知识点MTP1-Multi-Token-Predict算法的起源和思想MTP1-Multi-Token-Predict算法的起源和思想MTP1-Multi-Token-Predict算法的起源和思想
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
【AI 天才研究院】DeepSeek R1 核心技术原理之 :MTP(
Multi
-
Token
Predict
ion,多
token
预测)机制
初始映射:将 Transformer 隐状态hth_tht经过下投影和非线性变换得到初始预测隐向量zt1z_{t,1}zt1。逐步递归预测:利用上一预测隐向量与预测
token
的嵌入,经过线性映射和非线性激活生成后续预测隐向量ztlz_{t,l}ztll2Ll2L概率生成:将每一步隐向量通过输出投影生成
token
的概率分布,并计算对应的交叉熵损失。联合损失:将所有预测步的损失平均后作为整体 MTP 损失LMTPLMTP进行反向传播优化。
多令牌预测
Multi
-
Token
Predict
ion(MTP)
多令牌预测
Multi
-
Token
Predict
ion(MTP)
【Module】多令牌预测(
Multi
-
Token
Predict
ion, MTP)
训练时 MTP 模块提供额外训练信号,优化主模型参数,使其学习到更丰富语义和依赖关系,推理时即便丢弃 MTP,主模型能力已提升。:去除 MTP 模块可降低推理计算量,避免潜在干扰,使主模型更专注高效推理。
全面解析DeepSeek
算法
细节(2) —— 多令牌预测(
Multi
Token
Predict
ion)
详解MTP
MTP(
Multi
-
Token
-
Predict
)公式解析以及代码实现
i代表
token
(h的下标 i 始终为1,2,3,4,不随着Module改变),k代表MTP Module(从k=0开始,k=0代表Main Model);比如说在i=1,k=1时:MTP Module1中 t2与拼接得到:比如说在i=1,k=2时:公式2将拼接后的向量送入TRM:eg:. (如图 T=6,k=2)公式3eg:输入到Module1中得到,对应是预测t3的打分;输入到Module2中得到,对应是预测t5的打分;
张岳升的课程社区_NO_1
1
社区成员
99
社区内容
发帖
与我相关
我的任务
张岳升的课程社区_NO_1
复制链接
扫一扫
分享
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章