NVIDIA 技术博客：使用 Bottlerocket 和基于 NVIDIA 的 Amazon EC2 实例大规模部署 AI 工作负载

nvdev 2022-11-18 11:46:09

这篇文章最初发表在 NVIDIA 技术博客上。有关此类的更多内容，请参阅最新的 概括 新闻和教程。

在大规模生产中部署人工智能支持的服务，如基于语音的助手、电子商务产品推荐和呼叫中心自动化，是一项挑战。在降低运营成本的同时提供最佳的最终用户体验需要考虑多个因素。其中包括底层基础设施的组成和性能、基于用户需求扩展资源的灵活性、集群管理开销和安全性。

为了应对大规模部署人工智能的挑战，企业 IT 团队已采用 Kubernetes （ K8s ）进行容器编排和 NVIDIA 加速计算，以满足生产人工智能部署的性能需求。此外，人们越来越关注操作系统（ OS ）在生产基础设施中的作用。生产环境的主机操作系统对安全性、资源利用率以及调配和扩展额外资源所需的时间有直接影响。随着用户需求的增加，这会影响用户体验、安全性和部署成本。

Botterocket ：基于 Linux 的容器优化操作系统

Bottlerocket 是 AWS 开发的基于 Linux 的最小开源操作系统，专门为运行容器而构建。它非常强调安全性，只包括运行容器的基本软件。

这减少了攻击面和漏洞的影响，从而减少了满足节点合规性要求的工作量。此外， Bottlerocket 的最小主机占用空间有助于提高节点资源利用率和引导时间。

对 Bottlerocket 的更新只需一步，必要时可以回滚。这将降低错误率，并改善容器应用程序的正常运行时间。它们还可以使用容器编排服务（如 Amazon 弹性库伯内特斯服务（ EKS ）和 Amazon 弹性容器服务（ ECS ））实现自动化。

在 NVIDIA GPU 支持的 Amazon EC2 实例中使用瓶装火箭

AWS 和 NVIDIA 已经合作，使 Bottlerocket 能够支持所有由 NVIDIA 供电的系统 Amazon EC2 实例包括 P4d 、 P3 、 G4dn 和 G5 。这种支持将 NVIDIA 驱动的 GPU 实例的计算能力与容器优化操作系统的优势结合起来，可以在 K8s 集群上大规模部署 AI 模型。

其结果是增强了安全性和更快的启动时间，尤其是在运行人工智能工作负载时，实时扩展其他基于 GPU 的实例。

An illustration of the various applications that can be deployed. 图 1 ：集装箱化 GPU 优化应用程序可以部署在 K8s 集群上，使用对 NVIDIA 供电的 Amazon EC2 实例的 Bottlerocket 支持.

对 NVIDIA GPU 的支持以 GPU 优化的 AMI 的形式提供。这包括 NVIDIA 驱动程序、 K8s GPU 设备插件，以及内置在基础映像中的 containerd 运行时。

AMI 提供了提供和注册自我管理节点的一切， NVIDIA 支持的 GPU 实例和 Amazon EKS 集群的虚拟操作系统。

此外，您还可以利用 AWS 市场上的 NVIDIA NGC 目录中的 NVIDIA 优化软件，这是一个用于预训练模型、脚本、掌舵图以及各种 AI 和 HPC 软件的中心。

对于 AWS 上的人工智能推理部署，您可以利用 NVIDIA Triton 推理服务器 .使用开源推理服务软件在任何 CPU 或 CPU 基础设施上部署来自多个框架的经过培训的人工智能模型，包括 TensorFlow 、 TensorRT 、 PyTorch 、 ONNX 、 XGBoost 和 Python 。

从 AWS 了解更多关于 NVIDIA GPU 瓶装火箭支持的信息。

阅读原文

...全文