【精彩回顾·北京】Bedrock 开发进阶：re:Invent & Deepseek，探索 AI 无限潜力！

存内计算开发者 2025-03-12 11:31:07

2025 年 2 月 23 日，由亚马逊云科技 User Group 北京社区联合 COC 北京、CSDN 存内计算开发者社区举办的《Bedrock 开发进阶：re:Invent & Deepseek，探索 AI 无限潜力》Meet Up 在北京海淀区中关村鼎好 DH3 - A 座 2 层全球科创路演中心成功举办。本次活动吸引了众多 AI 领域的开发者和爱好者参与，共同探讨生成式 AI 的最新进展和应用场景。

活动会场氛围热烈，让我们一起来回顾一下本次活动的精彩流程吧！

探索 AI 无限潜力精彩集锦！

开场由主持人为我们介绍亚马逊云科技的社区情况和活动。覆盖全球 98 个国家的 470 个亚马逊云科技 User Group 社区，帮助 50 多万名开发者实现自我学习和自我成长，伴随着大模型、生成式 AI 技术的到来，其强大的数据处理、学习泛化与内容生成能力，高质效加速了各行各业 AI 技术的赋能进程，为业务场景、扮演角色提供更多创新性与可能性。人工智能应用正加速扩散，渗透到办公、设计、游戏、影视等多领域。开发者通过本次活动学习新技术、讨论新观点、认识新场景、分享新想法，充分享受亚马逊云科技开发者社区所带来的开放共享的生态福利，接下来活动场地提供方和这次活动的合作者 CSDN 城市社区分别介绍了各自发展的基本情况。让我们感受到了他们对活动的重视，同时也一并感谢场地方中关村鼎好对活动的大力支持。

深圳元始智能 RWKV CTO 与联合创始人刘潇

本次活动邀请到了多位业内专家进行技术分享。深圳元始智能 RWKV CTO 与联合创始人刘潇以《借 Deepseek 来谈谈大语言模型下的 RNN 架构变迁和未来方向》为题，深入探讨了大语言模型下 RNN 架构的发展脉络与未来趋势。

知存科技存算科学家周文涌

知存科技存算科学家周文涌在其分享《大模型时代存内计算的机遇与挑战》中，聚焦于如何构建高效的软件栈以优化大型语言模型的加速，并应对软件挑战。

随着存内计算技术在大型语言模型加速领域的不断探索，研究人员已经提出了多种创新性的加速策略。这些策略主要从算法增强、硬件设计和电路实现等多个层面展开，旨在解决存内计算面临的各种技术挑战。

在算法增强方面，主要的优化策略聚焦于提高整体硬件利用率。通过实施任务重组和负载平衡等技术手段，这些优化方案被整合到架构中以提升系统性能。特别值得注意的是矩阵计算优化技术，它通过改进CIM的利用模式来提高效率。这种方法消除了冗余开销，避免了ADC的使用需求，同时解决了由信号衰减和工艺变化带来的同步问题。研究表明，这种优化策略能显著降低功耗并提高计算效率。此外，通过关注最大的单词和重叠计算块来降低整体计算成本和内存使用，进一步提升了系统性能。

在电路设计层面，差分结构的结合、权重量化和存储器映射的创新应用显著提升了系统性能。这种策略的关键在于在不增加额外硬件开销的情况下提高精度和容错能力。研究表明，这种方法能够有效提高硬件利用率，这对于追求持续高性能的大规模语言模型处理特别重要。创新的权重映射策略和时序优化技术进一步增强了系统的鲁棒性，使其能够更好地应对制造偏差和环境变化。

硬件架构创新方面，研究者提出了一种新的加速器设计，它能高效执行转换器操作。这种设计采用了创新的计算流水线，通过映射和排列方案将转换器映射到ReRAM阵列中。通过这种方式，系统能够在完全并行的情况下执行矩阵乘法，显著提升了计算效率。此外，针对模拟计算中的精度问题，研究者开发了自适应的计算和训练策略，有效提高了系统的容错能力。

为了缓解硬件不一致性带来的挑战，研究者提出了一种新颖的方法：将可编程偏置注入到突触权重中，以提高其对制造变化的抗性。这种方法通过系统重新映射来评估计算的准确性影响，在保持性能的同时提高了系统稳定性。特别是在处理前向传播时，这种方法展现出显著优势，能够在保持高精度的同时实现高效的并行计算。

在实际应用中，这些优化策略往往需要协同使用。例如，在训练过程中，系统可能同时采用基于ReRAM的量化策略和精确的时序控制，以在保持计算精度的同时提高训练效率。研究表明，这种多层面的优化方法可以显著提升系统性能，在某些情况下甚至能实现25倍以上的性能提升。

最近的硬件实现进展也值得关注。例如，研究者已经开发出支持完整存内计算功能的原型芯片，展示了比传统数字设备更快的处理速度和更低的功耗。这些进展不仅验证了存内计算的可行性，也为未来的优化方向提供了重要参考。

总的来说，存内计算加速策略的发展呈现出多元化和系统化的特点。通过算法优化、电路创新和架构改进的协同发展，存内计算技术在大型语言模型加速领域展现出越来越大的应用潜力。随着这些优化策略的不断完善和新技术的持续涌现，存内计算有望在AI加速领域发挥更加重要的作用。

亚马逊云科技资深开发者布道师郑予彬

亚马逊云科技资深开发者布道师郑予彬通过《开放生态下云上 LLM 实践 - Bedrock 与 Deepseek 的应用探索》，展示了在开放生态中如何利用 Bedrock 和 Deepseek 进行云上 LLM 实践。

北京数据项素智能科技有限公司产品经理鲁力

北京数据项素智能科技有限公司产品经理鲁力以《DeepSeek R1 与大模型 workflow 产品思考》为题，分享了大模型 Workflow 产品设计的思考以及企业大模型应用落地实践。

CSDN 存内计算开发者社区布道师 STOR 则在《DeepSeek 技术原理与大模型技术发展趋势》中解读了 DeepSeek 技术原理，并展望了大模型技术的发展趋势。

随着大语言模型的快速发展，传统计算架构面临着严峻的挑战。尽管业界已开发了多种专用处理单元来提升计算效率，如Google的TPU（张量处理单元）和AWS Inferentia等针对特定计算需求的处理器，以及服务于更广泛市场的GPU解决方案，但这些硬件设备在发挥其全部潜力时仍面临着显著瓶颈。

当前的核心挑战主要体现在两个方面：首先是算术密度问题。Transformer架构中独特的缩放点积注意力机制，加之大量全连接（FC）层和密集的内存访问，导致了较低的每字节FLOP计算密度，限制了计算单元的充分利用。其次是执行效率问题。大量的内存占用和低数据传输率造成了内存系统利用率不足，进而导致执行时间延长。特别是在GPU实现中，Transformer的计算复杂度受限于O(dn²/c)（其中n为序列长度，d为特征嵌入维度，c为并行核心数量），这意味着随着序列长度和参数规模的增加，其延迟、内存带宽和功耗都将呈二次方增长。

要从根本上解决当前的效率和扩展性问题，关键在于发展创新性的架构解决方案，深度整合内存与计算过程。这正是存内计算技术的重要机遇所在：通过革新性的架构设计，在提高计算密度和内存带宽的同时，为大规模语言模型的高效部署开辟新的可能。