5,903
社区成员




① 论文理解【LLM-回归】—— 【NTL】Regress, Don‘t Guess--A Regression-like Loss on Number Tokens for Language Model(云端FFF:[博客] [成就])
[质量分:96;难度等级:未知;新鲜技术:99]
摘要:如下图所示,通过按中间的灰色箭头移动每个点对应的概率密度,可以将蓝色分布转换为红色分布,Wasserstein 距离可以理解为最小化这些箭头的平均平方长度。的信息熵,它和训练 LLM 使用的标准交叉熵只差了一个常数(的信息熵),因此还是缺乏数值感知能力。
② 深度学习-神经网络推理与训练(向前/反向传播)(m0_67703435:[博客] [成就])
[质量分:82;难度等级:未知;新鲜技术:99]
摘要:进一步的,我们将这些元素按顺序以一个列向量的形式表示,最终得到的要求就是:该神经网络模型接受一个包含1000000个数据的向量作为输入,输出图中人物的身份。, 并输出一些数据;如下图所示,左右的差异主要在于隐藏层的数量以及隐藏层中神经元的数量,也就是。