【存内计算在AI大模型时代应用最佳实践系列】三十一：存算一体是啥新趋势

完美句号社区KOL 2024-02-10 18:16:28

芯片创业热度正酣，值此之时，一股风潮已悄然席卷学术界。关键是一种可以说刚走出实验室不久，国内外均未实现大规模量产的技术——存算一体芯片。

1. 率先迈入B1轮的知存科技，创始人&CEO王绍迪出身北大微电子，2017年获得UCLA电气工程博士学位，同年提前结束博士后研究工作，回国创业。

2. 苹芯科技则由清华校友陈怡然、杨越组队成立。陈怡然现为杜克大学教授，IEEE/ACM Fellow。杨越博士毕业于多伦多大学，还曾任美光科技首席系统架构师。

3. 九天睿芯CEO刘洪杰博士毕业于ETH，师承IEEE Fellow托比亚斯·德尔布鲁克。后者是类眼图像传感器发明人，在神经拟态计算领域有着突出贡献，现在亦是九天睿芯科技顾问。

1. 从AI行业增长迅猛的算力需求说起：

据统计，自2012年开始，AI训练需要的算力每3.5个月就会翻倍，这个速度已远超过摩尔定律的18个月。目前，主流芯片主要依靠不断迭代先进工艺制程，来提升芯片性能，应对AI算力需求。但当制程越来越小，尤其是走到7nm之下后，出现的问题越来越多：

1. 成本持续走高：

根据IC Insights调研机构估算，如果想追赶上台积电在先进制程上的制造能力，起码需要五年时间外加近万亿元的投入。

2. 由物理限制引发的芯片性能问题越发突显：

随着集成电路的尺寸越来越小，栅极电压夹断沟道的难度变大，从而出现严重的电流泄露现象，导致芯片功耗失控，发热严重。此外，当制程走到1nm时，电子会产生“量子隧穿效应”而穿透绝缘层，导致晶体管出现漏电问题。

3. 先进工艺下的芯片并非在所有应用场景中都有优势：

比如大算力、高能耗的特点在AIoT等领域就不适用；可靠性不如成熟制程工艺的问题导致其在工业和军事领域同样缺乏优势。

2. 最根本的问题：

还是芯片运行所依托的冯·诺依曼架构。基于存算分离的设计，即使芯片制程能够不断突破，把处理器的算力做到非常大，但由于存储器的访问速度追不上处理器的处理速度，处理器性能仍会受到严重制约。再加上数据在存储单元和计算单元之间频繁的搬运还带来了过高的无用功耗（占比高达60%-90%），芯片的性能往前迈进困难重重。

因此，人们不得不转变逻辑，希望通过改变底层架构来根本性地解决问题。存算一体的概念由此再度被提及，并很快成为产学研各界破解AI算力困境的“希望之星”。存算一体的概念诞生于1969年，最早由斯坦福研究所的Kautz等人提出。

顾名思义，存算一体就是指计算单元与存储单元融合，在完成数据存储功能的同时可以直接进行计算。这一设计可以从根本上解决冯·诺伊曼瓶颈，在做到低成本、大算力的同时，保持低功耗。

3. 存算一体芯片的关键在于存算一体架构，其核心是电路设计革新：

这两种计算方式采取的存储器不同，前者以SRAM等易失性存储器为主，后者采用Flash和RRAM等优势更大的非易失性存储器。主要有两种计算方式：数字计算和模拟计算。而依照计算单元与存储单元的关系（距离）划分，目前存算一体的技术路线大致可分：

1. 近存计算

2. 存内计算

近存计算是通过将计算资源和存储资源拉近，来实现能效和性能的提升，在广义概念上也被归入存算一体架构。现阶段，近存计算是行业中最容易实现的路线，主要考验的就是先进封装技术。

存内计算则包含两种形式，其计算效率提升已经得到业内的充分认可：

1. 一种计算操作由位于存储器内部的独立计算单元完成，存储单元和计算单元相互独立存在。

2. 一种是在内部存储中添加计算逻辑直接执行数据计算，这种架构数据传输路径最短，能同时满足大模型的计算精度要求。

4. 行业动态：

具体业务方面，各公司基本都是基于传统的Nor Flash或SRAM存储器做存算一体芯片，但由于侧重点各不相同，尚未形成竞争格局。其中九天睿芯专注于神经拟态感存算一体芯片研发，后摩智能做大算力AI芯片，千芯科技聚焦大算力可重构存算一体芯片的架构设计，苹芯科技在基于SRAM做存内计算加速器……

在此之外，国内也出现了一家专门基于新型存储器技术（RRAM）进行存算一体芯片研发的公司：亿铸科技（侧重于大算力AI芯片）。RRAM新型存储器技术在存算一体芯片上具有速度快、结构简单、存储密度大等优势，有望成为未来的发展趋势，目前距离工艺成熟还有2-5年的时间。

存算一体芯片的应用场景主要分为两方面：

1. 是面向端侧，对低功耗需求强烈的场景；

2. 是面向云侧推理，对大算力需求强烈的场景。

目前业内80%的公司优先布局对能效比有高要求的端侧小算力场景（如智能可穿戴设备，智能安防，移动终端，AR/VR），国内在这方面初步实现量产的有两家：知存科技和九天睿芯。相反，大算力场景（如自动驾驶）上的落地还不算特别明显，还处于业内共同努力的阶段。

其中，千芯科技主要融合存算一体与可重构计算，以支持AI芯片的更大算力和可编程灵活性。后摩智能的成品在算力方面已做到数十TOPS，可支持大规模视觉计算模型，已跑通智能驾驶算法模型。

...全文

69 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

浅沫云归 2024-02-14

打赏
举报

回复

支持建设存内计算开发者社区

完美句号社区KOL 2024-02-10

打赏
举报

回复 1

建设存内计算开发者社区

重磅推荐，2025智能运维AIOps与人工智能大模型最佳实践PPT合集，共100份。 1.AI 驱动的大数据自治：智能应对复杂运维挑战.pdf 2.AIOps智能运维进化之路：从深度学习到大模型DeepSeek.pdf 3.DataOps和AIOps在腾讯游戏运维团队的运营实践.pdf 4.DeepSeek 赋能安全运维：智能化转型的实战之道.pdf 5.LLM 在操作系统运维场景的现状、挑战和实践.pdf 6.LLM和Multi-Agent在运维领域的实验探索.pdf 7.PB级数据的智能化运维实践.pdf 8.三位一体构建智能化高可靠精细化的运维体系.pdf 9.全场景自愈运维体系构建.pdf 10.可观测与大模型技术在运营商的融合实践探索.pdf 11.命令行也疯狂：Amazon Q CLI为开发运维插上智能之翼.pdf 12.在新一代运维中台架构之上构建智能场景化运维.pdf 13.在运维团队中普及DataOps和AIOps.pdf 14.基于 AI+大模型的运维智能体探索与实践.pdf 15.基于多个头部客户案例解析大模型在运维领域的落地实践.pptx 16.基于机器学习的数据库智能化运维.pdf 17.大型企业智能运维的探索和实践.pdf 18.大数据海量任务调度和智能运维实践.pdf 19.大模型Agent在AIOps运维场景的实践.pdf 20.大模型Agent技术在金融运维领域应用与思考.pdf 21.大模型及 DeepSeek 在运维场景中的应用.pdf 22.大模型在京东科技智能运维平台上的实践.pdf 23.大模型在华为云数字化运维的全面探索和实践.pptx 24.大模型在超大规模数据库运维中的研究与应用.pdf 25.大模型时代，AIOps 的探索与落地实践.pdf 26.大模型知识库在运维领域的应用和改进.pdf 27.大模型驱动的稳定性保障智能升级实践.pdf 28.大语言模型在 IT 运维领域的建设落地实践.pdf 29.大语言模型在制冷空调系统运维中的应用方法研究.pdf 30.实践BSM运维，AIOps赋能业务价值实现.pdf 31.循序渐进推动运维数字化和智能化.pdf 32.操作系统运维新体系：健康分与自动化诊断.pdf 33.数字化运维平台建设实践.pdf 34.构建运维数字化转型的基石：国信证券 CMDB 数据治理实践.pdf 35.浙江移动AIOpsDev运维转型实践.pdf 36.腾讯运维的AI实践v_0.4.pdf 37.腾讯音乐 DevOps 体系建设：奏响高效运维与创新的交响曲.pdf 38.趣丸科技在运维AI Agent 的探索与实践.pdf 39.58集团在稳定性建设领域的智能运维探索.pdf 40.AIOpsDev新基建，智领价值运维转型.pdf 41.AIopsIT应用监控保障系统开发实战.pdf 42.AIOps园区网络运维实践PDF.pdf 43.AIOps如何服务应用运维.pdf 44.AIOps工具体系建设提升研发效能.pdf 45.AIOps趋势下的运维管理体系变化.pdf 46.DataOps和AIOps在腾讯游戏运维团队的运营实践.pdf 47.ManageOne云管理平台，使能金融智能运营运维.pdf 48.PB级数据的智能化运维实践.pdf 49.万台服务器下的智能运维实践.pdf 50.上海银行业务级智能运维实践.pdf 51.中国电信IT全面上云智能运维体系探索.pdf 52.中国移动灰度发布AIOPS场景实践.pdf 53.中畅数据AIOps一体化平台.pdf 54.云化环境下智能运维实践.pdf 55.以数据为驱动的AIOps平台.pdf 56.保险公司主动运维与智能运维实践.pdf 57.制造业全栈式监控一体化智能运维平台.pdf 58.北京移动面向5G的技术运营中台实践和AIOps探索.pdf 59.华泰证券智能运维体系探索与实践.pdf 60.在新一代运维中台架构之上构建智能场景化运维.pdf 61.在线教育行业从0到1的AIOps之路.pdf 62.在运维团队中普及DataOps和AIOps.pdf 63.基于 AIOps 的大规模微服务轨迹数据分析.pdf 64.基于时序数据的AIOps实践.pdf 65.基于智能运维算法的异常检测应用.pdf 66.基于机器学习的数据库智能化运维.pdf 67.大型企业智能运维的探索和实践.pdf 68.大数据海量任务调度和智能运维实践.pdf 69.大规模微服务集群的智能运维实践.pdf 70.宜信无侵入智能业务运维实践.pdf 71.实践BSM运维，AIOps赋能业务价值实现.pdf 72.平安科技AIOPS建设实践分享.pdf 73.平安科技智能运维探索与思考.pdf 74.循序渐进推动运维数字化和智能化.pdf 75.数据库智能运维（含手机端远程运维）建设实践.pdf 76.日志易-数据驱动的智能运维平台.pdf 77.智能开发高效运维.pdf 78.智能运维AIOps 6大趋势.pdf 79.智能运维体系下的IT运营体系.pdf 80.智能运维分析领域中的算法研究和场景探索.pdf 81.智能运维在高德弹性容量领域的落地实践.pdf 82.智能运维数据化运维构筑智能运维能力.pptx 83.智能运维的实用性和易用性探索.pdf 84.智能运维赋能的58集团系统稳定性建设.pdf 85.民生银行-数据库智能运维实践2.0.pdf 86.浙江移动AIOpsDev运维转型实践.pdf 87.浙江移动基础设施AIOps实践及探索.pdf 88.浙江移动私有云AIOps实践.pdf 89.百万交易系统 AIOps 架构实战.pdf 90.百度AIOps解决方案及行业落地案例.pdf 91.腾讯-为AIOps的普及而重生的基础监控.pdf 92.虎牙直播AIOps探索与实践.pdf 93.迈向智能运维时代-AIOps如何服务应用运维.pdf 94.运维大会之安全运营中的AI智能分析和预警实战.pdf 95.运维行业的变革——数据运营化与智能化.pdf 96.金融业务级智能运维.pdf 97.阿里云弹性计算智能诊断运维体系建设实践.pdf 98.阿里云自然语言处理(NLP)在AIOps中的应用.pdf 99.阿里巴巴智能数据中心AIOps演进.pdf 100.阿里巴巴海量服务器下的基础运维智能化实践.pdf

资料共144份，包括但不限于： 5G+电信: 5G 时代统一的边缘云网建设；红帽开源软件助力电信行业 GPU 应用；基于 5G 车路协同智慧公交解决方案；中国电信 5G 边缘计算推动产业互联网发展；中国移动九天人工智能平台 GPU 推理实践；助力 5G 和边缘计算，深入了解 Cloud XR； DPU 加速 5G； GPU 加速 5G 基站的的 DICT 融合； GPU 加速开源 5G； GPU 加速中国电信 Spark 大数据处理； NVIDIA 加持的 5G 云部署； Rivermax- 带您轻松跨入超高清视频的 IP 时代；高性能计算: 超算集群网络管理神器 — UFM Cyber-AI；基于 CPU-GPU 异构平台的第一性原理密度泛函理论高性能计算；基于 GPU 加速的矩阵离散元方法实现与应用；脑研究之利器：基于 NVIDIA GPU 的全脑尺度直接可视化方法；全新 NVIDIA A100 80GB GPU 加速超大规模 HPC 和 AI 应用；新型超级计算中的高速互联技术； CUBE：高可扩展宇宙学 N 体问题模拟程序； GPU 加速 Paradigm 解决方案； HPC 应用性能分析和调优； RDMA 在分布式存储中的应用；深度学习平台及应用: 用 NVIDIA Jarvis 来构建你的语音助理；安全 AI 平台 GPU 实践和思考；飞桨推理引擎性能优化；高阶信息如何加速神经网络训练？；机智深度学习训练平台及应用；基于 GPU 的机器翻译推理性能优化；基于 Tensor Core 的 CNN INT8 定点训练加速；如何快速搭建全 GPU 加速的 AI 应用；使用 Triton 优化深度学习推理的大规模部署；腾讯“开悟”游戏 AI 平台在 TensorRT 上的最佳实践；语音技术效率优化实践；预训练时代的机器翻译；智能钛机器学习平台计算优化实践； Apache MXNet 2.0：连接深度学习与传统机器学习； Eva 平台在深度学习训练和推理上的实践和优化经验； FastSpeech：高效语音合成的算法设计及优化； GPU 在向量搜索中的应用； Hammer：一体化的模型压缩和 NAS 引擎框架； Lightseq：GPU 高性能序列推理实践； MULTI-INSTANCE GPU（MIG）深度学习最佳用法示例； TurboTransformers：高效的 Transformer 线上推理系统； Whale：统一多种并行化策略的分布式深度学习框架；推荐系统: 爱奇艺使用 GPU 加速 CTR 模型训练的实践；多标签分类：汉明损失和子集精度真的相互冲突吗？；高性能网络加速智能推荐系统；将 HugeCTR Embedding 集成于 TensorFlow；推荐系统推理性能优化在“双十一”中的应用；性能提升 7 倍 + 的高性能 GPU 广告推荐加速系统的落地实现； GPU 加速的数据处理在推荐系统中的应用； Merlin ： GPU 加速的推荐系统框架； Merlin HugeCTR ：深入研究性能优化； Merlin NVTabular：基于 GPU 加速的推荐系统特征工程最佳实践； NVIDIA 助力构建安全和高效的推荐系统； PLE — 一种新的分层萃取多任务学习网络结构； Vearch 的 GPU 方案在海量向量检索系统上的应用创新；智慧金融: 分布式人工智能与金融应用； GPU 数据库在不同行业中的应用； NVIDIA 网络打造超低时延证券解决方案；智慧医疗和生命科学: 3D 医疗影像数据深度学习高效训练与推理架构；基于眼表图像的 COVID-19 快捷风险筛查；人工智能与药物研发；随机对照试验 RCT 验证的消化内镜人工智能；新型冠状病毒的全分子结构；医学影像 + 人工智能的特点、技术与趋势；医学真实世界人工智能研究与实践； AI 技术在医疗健康领域的应用探索； GPU 赋能长读长基因测序； GPU 技术在放射治疗领域的科学研究； NVIDIA Clara Guardian 助力构建智慧医院；自动驾驶: 乘用车自动驾驶产业生态与协作；构建中国特色仿真环境； NVIDIA Drive Sim 帮助解决无人驾驶预期功能安全问题； NVIDIA DRIVEWORKS SDK 中强大的实时传感器数据采集和回放工具助力自动驾驶开发；自主机器和边缘计算: 智能物流机器人 — 小蛮驴；从云到边：边缘智能开启 AI 新时代加速行业落地；多尺度 Jetson AI 端到端解决方案；基于 AI 的工业缺陷检测与分类创新实践；基于 Jetson 的点云加速及在自主机器的应用；基于 Jetson 设备构建可信边缘计算；

除了学术界的深入研究外，产业界也纷纷加入存内计算的布局。CSDN首个存内计算开发者社区来了，基于知存科技领先的存内技术，涵盖最丰富的存内计算内容，以存内技术为核心，史无前例的技术开源内容，囊括云/边/端侧商业化应用解析以及新技术趋势洞察等，邀请业内大咖定期举办线下存内workshop，实战演练体验前沿架构；光电转换作为光互连系统中不可或缺的关键部分，要求高速和高灵敏度的探测器，而传统的冯·诺依曼体系结构却面临着内存与计算单元之间频繁数据传输的问题，导致大量能源的消耗，尤其在资源受限的设备中更为显著。

存算一体开发者社区

4,388

社区成员

386

社区内容

发帖

与我相关

我的任务

其他企业社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

奖品兑换上新：

100积分 - 品牌赞助托特包（单个账号限兑换5个）

200积分-罗技M240无线鼠标（单个账号限兑换3个）

400积分-马歇尔入耳式耳机（单个账号限兑换2个）

600积分-Cherry MIX 3.0键盘（单个账号限兑换2个）

800积分- 雷切Pro游戏手柄（单个账号限兑换1个）

1000积分-小米/Redmi显示器A27 IPS版27英寸100Hz（单个账号限兑换1个）

1200积分-Switch 积分（单个账号限兑换1个）

积分规则：

创作积分：

参与主题征文活动，发布博文获取50积分

1，发布文章获取20积分

2，文章内容加精30积分

互动积分：

1，发布评论互动积分：2积分

2，点赞文章获取积分：1积分

活动积分：

活动参与积分以每场活动规则为准

试试用AI创作助手写篇文章吧

+ 用AI写文章