Y=Wx+b，这么简单的一个线性公式却是人工智能领域的核心。而在transformer模型中，此公式应用在FF前馈神经网络模块。首先，我们来看一下论文中的feed-forward前馈神经网络的数学公式，其公式为FFN（x）=max(0,xW1+b1-CSDN社区

人工智能研究所 2023-12-15 07:45:57

Y=Wx+b，这么简单的一个线性公式却是人工智能领域的核心。而在transformer模型中，此公式应用在FF前馈神经网络模块。首先，我们来看一下论文中的feed-forward前馈神经网络的数学公式，其公式为FFN（x）=max(0,xW1+b1)W2+b2 其公式有三个部分组成，首先是xW1+b1，这个公式虽然看起来很简单，却是AI人工智能领域的核心，我们前期在分享手写数字识别的时候，分享过的一个公式y=Wx+b，其中W是权重，b为bias 偏差，跟这个公式完全一样，其中W1便是一个未知的参数，需要模型训练的矩阵，矩阵维度为[512,2048]。第二部分是max(0,xW1+b1)，一个线性函数与0 取最大值，这个就是神经网络模型标准的relu激活函数最后，经过relu激活函数后，我们再进行一次线性变换，此时的数据矩阵乘以未知矩阵W2，其矩阵维度为[2048,512] 以上便是feed-forward前馈神经网络的公式，而此公式又是如何使用在transformer模型中的？#动图详解Transformer

...全文

121 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

wx + b 就是机器学习中每一个模型背后都在重复使用的“打分公式”，它将输入特征与模型的“判断标准”结合，最终输出一个决策依据。

本文详细介绍了Transformer模型中的Feed-forward前馈神经网络模块。该模块通过两次线性变换（维度从512到2048再到512）和一次ReLU激活函数处理输入数据，同时保持输出维度与输入一致（如[2,5,512]）。文章包含数学...

深度学习领域所谓的“模型”，是一个复杂的数学公式构成的计算步骤。y = ax + b该方程意味着给出常数a、b后，可以通过给出的x求出具体的y。这个根据x求出y的过程就是。在LLM中，x一般是一个句子，如“帮我计算23+20...

因此，使用 y=wx+b 这样的线性函数是为了保持模型的简单性和灵活性，同时使得模型能够适应数据的不同分布，并有效地通过学习调整参数。，在模型中识别出是西瓜的好瓜的比率，recall就是查全率，有多少好瓜被识别出来...

大家好，我是微学AI，今天给大家介绍一下大模型架构大部分是基于Transformer架构的研发出来的，背后的数学原理涉及线性代数、概率论、优化理论等。以下是关键数学原理和公式的详细说明及示例。

动画详解Transformer模型以及变

4

社区成员

94

社区内容

发帖

与我相关

我的任务

transformernlp 个人社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章