在微软 Foundry 上推出 Fireworks AI：将高性能、低延迟的开源模型推理服务引入 Azure

微软技术分享

优质创作者: 编程框架技术领域

领域专家: 操作系统技术领域

2026-03-19 18:54:39

各行业的组织都在越来越多地采用开源模型作为标准化方案，以更好地掌控性能、成本、自定义能力，以及企业部署所需的安全性和合规性要求。开源模型让团队能够灵活为各类工作负载选择合适的架构，并且随着自身需求的发展，避免被单一模型供应商锁定。

https://ai.azure.com/

然而，随着应用范围不断扩大，仅凭性能已不再足够。团队需要一种统一的方式来快速评估模型、在生产环境中安全地运行它们，并持续对其进行优化，而无需重建基础设施或分散工具链。很多时候，企业都不得不搭建定制的服务支撑架构，这不仅拖慢了创新速度，还让规模化和持续推进变得更加困难。

微软Foundry旨在解决这一挑战。它作为AI领域统一的记录系统和企业控制平面，将模型、智能体、评估、部署与治理整合为一体化体验。借助微软Foundry，团队能够放心地从实验阶段过渡到生产阶段，选用最贴合自身需求的模型和框架，同时依托稳定一致的运营基础。

今日，我们宣布在微软Foundry平台上推出Fireworks AI的公开预览版，将高性能开源模型推理功能引入Azure。此次整合体现了微软Foundry的整体发展方向：为开发者提供一个统一平台，使其不仅能高效运行开源模型，还能对其进行定制化，并将其作为完整的企业级AI生命周期的一部分投入实际应用。

微软Foundry平台上的Fireworks AI模型：开源模型的一站式平台

Fireworks AI 为开源模型提供行业领先的推理能力，而微软 Foundry 则让这一性能能够在企业级规模下投入使用。通过微软 Foundry 访问 Fireworks AI，团队可获得一个统一且可靠的控制平面，用于评估、部署、定制和运营开源模型，并与其余人工智能技术栈协同工作。

随着开源模型不断成熟，定制化的范畴正逐渐超越训练环节。开发团队需要一套统一的方法，在生产环境中对模型进行配置、部署、优化、管理和迭代，同时避免工具或基础设施的碎片化。微软 Foundry 为这些定制化和运营工作流的标准化提供了环境，而 Fireworks AI 则提供了大规模运行开源模型所需的性能与效率。这意味着开发团队可以借助开源模型从实验阶段顺利推进至生产阶段，无需整合各类独立工具、协议和部署路径。

Fireworks AI 与微软 Foundry 携手，打造出一套更完整、更可持续的开源模型协作方案，将快速高效的推理与一个旨在长期支持企业级开源模型运营的平台相结合。

借助部署在 Foundry 上的 Fireworks AI，开发者可以获得顶尖的开源模型推理能力，包括针对自定义权重模型的优化部署方案。Fireworks AI 是开源模型高性能推理领域的市场领导者。其引擎已实现互联网级规模的运行，每日处理超 13 万亿个令牌，每秒可支撑约 18 万个请求，在大型模型上每秒能生成超 1000 个令牌，这一性能还得到了 人工智能分析 顶级基准测试性能的证实。如今，这一性能已在 Foundry 平台上开放使用。

开发者如今可登录 Foundry 并通过 Fireworks AI 访问这些开源模型：

DeepSeek V3.2
OpenAI gpt-oss-120b
基米K2.5
MiniMax M2.5（新增）

这为 Foundry 带来了一种全新的开源模型（MiniMax M2.5），该模型支持无服务器功能，并为已广受欢迎的开源模型提供了优化的推理能力。

借助微软 Foundry 中的 Fireworks AI，开发人员可以：

通过零日访问和支持更快地评估模型： 通过 Foundry 借助单一 Azure 端点访问 Fireworks AI 最先进的开源模型，立即开始构建。
优化推理：对开源模型的请求由 Fireworks 高吞吐量推理集群提供支持，可在具备 Azure 级治理能力的前提下实现高性能运行。
运行你已信赖的模型：借助自带权重（BYOW）功能，你可以上传并注册在其他地方训练的量化或微调权重，而无需更改服务栈。

为你的工作负载选择合适的定价模式：可使用无服务器、按令牌付费的推理功能，通过数据区域标准版安全快速地进行试验；也可选择预配吞吐量单元（PTU），搭配基础模型或自定义模型实现可预测的稳态性能。无论你是为了敏捷性还是效率进行优化，都能在无需管理基础设施的情况下获得灵活性。
依托企业级信任与规模开展运营：我们致力于帮助客户快速构建可投入生产的人工智能应用，同时保障最高级别的安全与防护。Foundry 为智能体开发、评估与部署提供全流程工作空间，涵盖统一治理、可观测性及适配智能体的工具链。

Fireworks 与人工智能应用的未来

微软 Foundry 正在不断演进，以支持开源模型的全生命周期——从早期评估到生产运营，再到持续优化。随着团队扩大开源模型的使用规模，拥有一个统一且适配企业需求的基础变得愈发重要。

将 Fireworks AI 集成到微软 Foundry 后，开发人员如今就能获得高性能推理能力，同时依托一个旨在逐步支持更深度定制和企业级运营的平台进行开发。这种方案让团队有信心采用开源模型，不仅是为了它们当下的功能，更是为了随着 AI 愿景的拓展，实现自身的成长、适配与可靠运营。我们期待看到开发人员和企业如何借助微软 Foundry 上的 Fireworks AI，打造下一代智能应用。