社区
代码骑士学习社区
交流讨论
帖子详情
代码骑士
游戏开发领域优质创作者
2023-03-15 15:47:34
[导数存在性-典例收藏]
...全文
154
回复
打赏
收藏
[导数存在性-典例收藏]
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
什么是大模型?深度解析大语言模型LLM原理,非常详细
收藏
这一篇就够了!
本文系统阐述了大语言模型(LLM)的核心原理与训练方法。文章首先介绍LLM的基本概念,重点解析Transformer架构的创新
性
设计,包括自注意力机制、位置编码等关键技术。随后详细讲解大模型训练的三个关键阶段:预训练、监督微调和强化学习,并通过数学推导展示了前馈传播和反向传播的计算过程。针对LLM训练所需的超大规模计算资源,文章深入分析了数据并行、模型并行、流水线并行等分布式训练策略,比较了DeepSpeed、Megatron等主流框架的特点。最后介绍了vLLM、TRT-LLM等高效推理框架的核心优化技术。
从零开始构建 Transformer 模型,非常详细,
收藏
这篇就够了
这篇由Brandon Rohrer撰写的技术文档《Transformers from Scratch》系统
性
地拆解了Transformer模型的核心原理和实现细节,通过层层递进的数学推导和可视化类比,揭示了Transformer如何通过矩阵运算的巧妙组合实现强大的序列建模能力,为理解现代大语言模型奠定了扎实的理论基础。
TowardsDataScience 博客中文翻译 2016~2018(二百九十六)
在前一篇文章中,我们讨论了如何处理模型不确定
性
。我们描述的方法之一是在推理时使用 dropout。能够估计模型的不确定
性
使我们能够更好地理解模型由于缺乏数据而不知道的东西。所以让我们来测试一下吧!让我们看看独特的标题是否与高不确定
性
有关。我们将把训练集中的每个标题映射到一个密集表示(例如,平均 word2vec 嵌入),并期望该模型对唯一标题不太确定,唯一标题是映射到嵌入空间的稀疏区域的标题。为了测试它,我们通过计算 KDE(核密度估计)来计算稀疏和密集区域。
AI大模型必备知识全攻略:从数学基础到实践应用,程序员
收藏
指南
本文全面介绍了AI大模型必备知识体系,包括数学基础、计算机科学基础、机器学习与深度学习基础、自然语言处理、大模型核心技术等。详细解析了CNN、Transformer、BERT三大模型架构,并探讨了强化学习原理、深度学习发展及智能体应用。内容涵盖从基础理论到实践工具,从核心技术到伦理安全,为学习大模型提供系统化知识框架和清晰学习路径。
必学
收藏
!大语言模型(LLM)基础原理精讲:从零理解Transformer与GPU并行训练
本文系统介绍了大语言模型(LLM)的基础原理,包括Transformer架构、多头注意力机制、前馈传播和反向传播等核心概念。详细解释了文本如何通过神经网络处理,以及大模型为何需要超大规模集群进行训练。重点阐述了GPU并行训练方法,包括数据并行、模型并行、流水线并行和张量并行等技术,并介绍了DeepSpeed、Megatron-LM等并行训练框架及vLLM等推理框架。
代码骑士学习社区
20
社区成员
87
社区内容
发帖
与我相关
我的任务
代码骑士学习社区
有朋自远方来,不亦说乎
复制链接
扫一扫
分享
社区描述
有朋自远方来,不亦说乎
学习
个人社区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
试试用AI创作助手写篇文章吧
+ 用AI写文章