【存内计算在AI大模型时代应用最佳实践系列】三十一:存算一体是啥新趋势

完美句号 存内计算大使 2024-02-10 18:16:28

芯片创业热度正酣,值此之时,一股风潮已悄然席卷学术界。关键是一种可以说刚走出实验室不久,国内外均未实现大规模量产的技术——存算一体芯片。

1. 率先迈入B1轮的知存科技,创始人&CEO王绍迪出身北大微电子,2017年获得UCLA电气工程博士学位,同年提前结束博士后研究工作,回国创业。

2. 苹芯科技则由清华校友陈怡然、杨越组队成立。陈怡然现为杜克大学教授,IEEE/ACM Fellow。杨越博士毕业于多伦多大学,还曾任美光科技首席系统架构师。

3. 九天睿芯CEO刘洪杰博士毕业于ETH,师承IEEE Fellow托比亚斯·德尔布鲁克。后者是类眼图像传感器发明人,在神经拟态计算领域有着突出贡献,现在亦是九天睿芯科技顾问。


1. 从AI行业增长迅猛的算力需求说起:

据统计,自2012年开始,AI训练需要的算力每3.5个月就会翻倍,这个速度已远超过摩尔定律的18个月。目前,主流芯片主要依靠不断迭代先进工艺制程,来提升芯片性能,应对AI算力需求。但当制程越来越小,尤其是走到7nm之下后,出现的问题越来越多:

1. 成本持续走高:

根据IC Insights调研机构估算,如果想追赶上台积电在先进制程上的制造能力,起码需要五年时间外加近万亿元的投入。

2. 由物理限制引发的芯片性能问题越发突显:

 

随着集成电路的尺寸越来越小,栅极电压夹断沟道的难度变大,从而出现严重的电流泄露现象,导致芯片功耗失控,发热严重。此外,当制程走到1nm时,电子会产生“量子隧穿效应”而穿透绝缘层,导致晶体管出现漏电问题。

3. 先进工艺下的芯片并非在所有应用场景中都有优势:

比如大算力、高能耗的特点在AIoT等领域就不适用;可靠性不如成熟制程工艺的问题导致其在工业和军事领域同样缺乏优势。


2. 最根本的问题:

还是芯片运行所依托的冯·诺依曼架构。基于存算分离的设计,即使芯片制程能够不断突破,把处理器的算力做到非常大,但由于存储器的访问速度追不上处理器的处理速度,处理器性能仍会受到严重制约。再加上数据在存储单元和计算单元之间频繁的搬运还带来了过高的无用功耗(占比高达60%-90%),芯片的性能往前迈进困难重重。

因此,人们不得不转变逻辑,希望通过改变底层架构来根本性地解决问题。存算一体的概念由此再度被提及,并很快成为产学研各界破解AI算力困境的“希望之星”。存算一体的概念诞生于1969年,最早由斯坦福研究所的Kautz等人提出。

顾名思义,存算一体就是指计算单元与存储单元融合,在完成数据存储功能的同时可以直接进行计算。这一设计可以从根本上解决冯·诺伊曼瓶颈,在做到低成本、大算力的同时,保持低功耗。


3. 存算一体芯片的关键在于存算一体架构,其核心是电路设计革新:

这两种计算方式采取的存储器不同,前者以SRAM等易失性存储器为主,后者采用Flash和RRAM等优势更大的非易失性存储器。主要有两种计算方式:数字计算和模拟计算。而依照计算单元与存储单元的关系(距离)划分,目前存算一体的技术路线大致可分:

1. 近存计算

2. 存内计算

近存计算是通过将计算资源和存储资源拉近,来实现能效和性能的提升,在广义概念上也被归入存算一体架构。现阶段,近存计算是行业中最容易实现的路线,主要考验的就是先进封装技术。

存内计算则包含两种形式,其计算效率提升已经得到业内的充分认可:

1. 一种计算操作由位于存储器内部的独立计算单元完成,存储单元和计算单元相互独立存在。

2. 一种是在内部存储中添加计算逻辑直接执行数据计算,这种架构数据传输路径最短, 能同时满足大模型的计算精度要求。


4. 行业动态:

具体业务方面,各公司基本都是基于传统的Nor Flash或SRAM存储器做存算一体芯片,但由于侧重点各不相同,尚未形成竞争格局。其中九天睿芯专注于神经拟态感存算一体芯片研发,后摩智能做大算力AI芯片,千芯科技聚焦大算力可重构存算一体芯片的架构设计,苹芯科技在基于SRAM做存内计算加速器……

在此之外,国内也出现了一家专门基于新型存储器技术(RRAM)进行存算一体芯片研发的公司:亿铸科技(侧重于大算力AI芯片)。RRAM新型存储器技术在存算一体芯片上具有速度快、结构简单、存储密度大等优势,有望成为未来的发展趋势,目前距离工艺成熟还有2-5年的时间。

存算一体芯片的应用场景主要分为两方面:

1. 是面向端侧,对低功耗需求强烈的场景;

2. 是面向云侧推理,对大算力需求强烈的场景。

目前业内80%的公司优先布局对能效比有高要求的端侧小算力场景(如智能可穿戴设备,智能安防,移动终端,AR/VR),国内在这方面初步实现量产的有两家:知存科技和九天睿芯。相反,大算力场景(如自动驾驶)上的落地还不算特别明显,还处于业内共同努力的阶段。

其中,千芯科技主要融合存算一体与可重构计算,以支持AI芯片的更大算力和可编程灵活性。后摩智能的成品在算力方面已做到数十TOPS,可支持大规模视觉计算模型,已跑通智能驾驶算法模型。

...全文
38 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
牵着猫散步的鼠鼠 存内计算先锋 7天前
  • 打赏
  • 举报
回复

支持建设存内计算开发者社区

完美句号 存内计算大使 02-10
  • 打赏
  • 举报
回复 1

建设存内计算开发者社区

资料共144份,包括但不限于: 5G+电信: 5G 时代统一的边缘云网建设; 红帽开源软件助力电信行业 GPU 应用; 基于 5G 车路协同智慧公交解决方案; 中国电信 5G 边缘计算推动产业互联网发展; 中国移动九天人工智能平台 GPU 推理实践; 助力 5G 和边缘计算,深入了解 Cloud XR; DPU 加速 5G; GPU 加速 5G 基站的的 DICT 融合; GPU 加速开源 5G; GPU 加速中国电信 Spark 大数据处理; NVIDIA 加持的 5G 云部署; Rivermax- 带您轻松跨入超高清视频的 IP 时代; 高性能计算: 超算集群网络管理神器 — UFM Cyber-AI; 基于 CPU-GPU 异构平台的第一性原理密度泛函理论高性能计算; 基于 GPU 加速的矩阵离散元方法实现与应用; 脑研究之利器:基于 NVIDIA GPU 的全脑尺度直接可视化方法; 全 NVIDIA A100 80GB GPU 加速超大规模 HPC 和 AI 应用型超级计算中的高速互联技术; CUBE:高可扩展宇宙学 N 体问题模拟程序; GPU 加速 Paradigm 解决方案; HPC 应用性能分析和调优; RDMA 在分布式存储中的应用; 深度学习平台及应用: 用 NVIDIA Jarvis 来构建你的语音助理; 安全 AI 平台 GPU 实践和思考; 飞桨推理引擎性能优化; 高阶信息如何加速神经网络训练?; 机智深度学习训练平台及应用; 基于 GPU 的机器翻译推理性能优化; 基于 Tensor Core 的 CNN INT8 定点训练加速; 如何快速搭建全 GPU 加速的 AI 应用; 使用 Triton 优化深度学习推理的大规模部署; 腾讯“开悟”游戏 AI 平台在 TensorRT 上的最佳实践; 语音技术效率优化实践; 预训练时代的机器翻译; 智能钛机器学习平台计算优化实践; Apache MXNet 2.0:连接深度学习与传统机器学习; Eva 平台在深度学习训练和推理上的实践和优化经验; FastSpeech:高效语音合成的算法设计及优化; GPU 在向量搜索中的应用; Hammer:一体化的模型压缩和 NAS 引擎框架; Lightseq:GPU 高性能序列推理实践; MULTI-INSTANCE GPU(MIG)深度学习最佳用法示例; TurboTransformers:高效的 Transformer 线上推理系统; Whale:统一多种并行化策略的分布式深度学习框架; 推荐系统: 爱奇艺使用 GPU 加速 CTR 模型训练的实践; 多标签分类:汉明损失和子集精度真的相互冲突吗?; 高性能网络加速智能推荐系统; 将 HugeCTR Embedding 集成于 TensorFlow; 推荐系统推理性能优化在“双十一”中的应用; 性能提升 7 倍 + 的高性能 GPU 广告推荐加速系统的落地实现; GPU 加速的数据处理在推荐系统中的应用; Merlin : GPU 加速的推荐系统框架; Merlin HugeCTR :深入研究性能优化; Merlin NVTabular:基于 GPU 加速的推荐系统特征工程最佳实践; NVIDIA 助力构建安全和高效的推荐系统; PLE — 一种的分层萃取多任务学习网络结构; Vearch 的 GPU 方案在海量向量检索系统上的应用; 智慧金融: 分布式人工智能与金融应用; GPU 数据库在不同行业中的应用; NVIDIA 网络打造超低时延证券解决方案; 智慧医疗和生命科学: 3D 医疗影像数据深度学习高效训练与推理架构; 基于眼表图像的 COVID-19 快捷风险筛查; 人工智能与药物研发; 随机对照试验 RCT 验证的消化内镜人工智能; 型冠状病毒的全分子结构; 医学影像 + 人工智能的特点、技术与趋势; 医学真实世界人工智能研究与实践AI 技术在医疗健康领域的应用探索; GPU 赋能长读长基因测序; GPU 技术在放射治疗领域的科学研究; NVIDIA Clara Guardian 助力构建智慧医院; 自动驾驶: 乘用车自动驾驶产业生态与协作; 构建中国特色仿真环境; NVIDIA Drive Sim 帮助解决无人驾驶预期功能安全问题; NVIDIA DRIVEWORKS SDK 中强大的实时传感器数据采集和回放工具助力自动驾驶开发; 自主机器和边缘计算: 智能物流机器人 — 小蛮驴; 从云到边:边缘智能开启 AI 时代 加速行业落地; 多尺度 Jetson AI 端到端解决方案; 基于 AI 的工业缺陷检测与分类创实践; 基于 Jetson 的点云加速及在自主机器的应用; 基于 Jetson 设备构建可信边缘计算

74

社区成员

发帖
与我相关
我的任务
社区描述
首个存内开发者社区,是整合产学研各界资源优势,搭建的学习与实践平台,提供存内架构学习,平台算法部署实践,存内计算线下训练以及AI时代大模型追踪,从理论到实践,供开发者体验未来第三极算力架构。
其他 企业社区
社区管理员
  • 存内计算开发者
  • Hundred++
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  • 积分规则:

 

创作积分:

1,发布文章获取20积分

2,文章内容加精30积分

互动积分:

1,发布评论互动积分:2积分

2,点赞文章获取积分:1积分

 

  • 积分兑换:

100积分 兑换品牌赞助托特包 (每个ID限定5份)

600积分 兑换Cherry Mix3.0键盘 (每个ID限定4份)

1200积分 兑换Switch (每个ID限定2台)

试试用AI创作助手写篇文章吧