科学的自适应推理AI模型

优质创作者: 编程框架技术领域

领域专家: 操作系统技术领域

2025-08-24 13:32:48

作者： Newman Cheng ， Microsoft Discovery and Quantum 高级软件工程师，OCTO； Gordon Broadbent ， Microsoft Discovery and Quantum 高级技术项目经理； Steven Truitt ，首席项目经理； William Chappell ， MDQ 首席技术官

在具有挑战性的科学领域中，解锁比推理模型更可控、更可解释的自适应认知行为

具备强大推理、规划和执行能力的长期运行的 LLM 智能体，有可能通过高影响力的进步来改变科学发现，例如开发新材料或药物。随着这些智能体变得更加自主，确保有效的人工监督和明确的责任制变得越来越重要，这带来了一些挑战，必须加以应对才能充分释放其变革力量。当今的长期推理方法通常是在训练后阶段（最终用户部署之前）建立的，通常由模型提供商制定。因此，这些智能体的预期行为由模型开发者预先设定，最终用户几乎无法控制。

在微软，我们正在开创一个可持续操控的虚拟科学家的愿景。为了实现这一愿景，我们创造了一种能力，让非推理模型能够发展思维模式，从而允许科学家控制和定制。我们的方法是一种通过原位优化的认知循环 (CLIO)，它不依赖于强化学习后训练来开发推理模式，但仍能获得与人类最终考试 (HLE) 评估结果相同的性能。值得注意的是，我们将 OpenAI GPT-4.1 在纯文本生物学和医学领域的基础模型准确率从8.55%提升到了22.37%，绝对增幅为13.82%（相对增幅为161.64%），超过了 o3（高）。这表明，无需进一步后训练而开发的基于优化的自适应人工智能系统，在适应性、可解释性和控制力至关重要的领域，可以与经过后训练的模型相媲美。

图 1. OpenAI 的 GPT-4.1 与 CLIO、o3 以及没有工具的 GPT-4.1 在 HLE 生物学和医学问题上的正面比较

通过内部自我反思进行现场优化，实现自适应推理

模型开发已从使用强化学习人工反馈 (RLHF) 进行答案对齐发展到强化学习中的外部评分 (RLVR)。近期方法在利用内在奖励训练推理模型 (RLIR) 方面展现出良好前景。传统上，这些推理过程是在训练后过程中学习的，在进行任何用户交互之前。虽然当今的推理模型在训练阶段需要额外的数据，并且限制了用户在推理生成过程中的控制，但 CLIO 的方法允许用户从头开始控制推理，而无需额外的数据。相反，CLIO 通过在运行时创建反射循环来生成自身所需的数据。这些反射循环可用于 CLIO 自定义的各种活动，包括想法探索、内存管理和行为控制。最有趣的是 CLIO 能够利用先前的推理来调整未来的行为，处理不确定性并在必要时发出警告进行纠正。通过这种开放式架构的推理方法，我们减轻了对进一步进行模型后训练以实现所需推理行为的必要性。进行新颖的科学发现通常没有先前建立的推理模式，更不用说足够大的高质量数据语料库来进行训练。

播客系列

人工智能测试与评估：从科学和工业中学习

了解微软如何从其他领域学习，以推进评估和测试作为人工智能治理的支柱。

立即收听

在新标签页中打开

CLIO 通过不断反思进展、提出假设并评估多种发现策略来进行推理。在 HLE 测试中，CLIO 被特别引导遵循科学方法作为指导框架。我们的研究表明，为语言模型配备自适应推理功能可以增强其解决问题的能力。这不仅为科学问题的质量带来了净收益，也为最终用户提供了接触和控制的机会。

图 2. CLIO 可以在其自我制定的推理过程中提出关键的不确定性领域，使用图形结构平衡多种不同的观点。

控制不确定性：建立对人工智能的信任

像 CLIO 这样的协同推理系统对于科学发现至关重要，因为它们提供的功能远不止准确性。诸如解释内部推理结果之类的能力在科学领域是标准配置，并且存在于当前的推理模型方法中。然而，诸如展示完整的工作（包括最终结果、内部思维过程、用于支持可重复性或校正的不确定性阈值以及指示不确定性）等要素尚未得到普遍应用。当前的模型和系统并不具备这种与生俱来的谦逊。相反，我们仅存的模型能够产生令人信服的结果，无论正确与否。正确时，结果具有价值。错误时，对科学过程而言是危险的。因此，理解模型或系统的不确定性是我们在 CLIO 中原生开发的一个关键方面。

另一方面，精心设计的推理系统往往会因为发出过多的警告而导致用户过度饱和。我们在 CLIO 中启用了无需提示的控制旋钮，以设置发出不确定性警告的阈值。这使得 CLIO 能够在适当的时间点为自己和最终用户标记不确定性。这也使科学家能够通过评论重新审视 CLIO 的推理路径，在推理过程中编辑信念，并从所需的时间点重新执行。最终，这为科学家建立了基础信任，使他们能够以科学上可辩护且严谨的方式使用它们。

CLIO 的表现如何？

我们利用 HLE 中基于文本的生物学和医学问题对 CLIO 进行了评估。在该领域，我们展示了相比 OpenAI 的 o3 模型，准确率相对提升了61.98% ，净提升了8.56% ，并且显著优于 OpenAI 的 GPT-4.1 等基础补全模型，同时实现了必要的可解释性和控制性。这项技术适用于所有模型，在 OpenAI 的 GPT-4o 模型中也表现出类似的提升，但我们观察到该模型在 HLE 级别的问题上表现不佳。平均而言，GPT-4.1 被认为无法胜任 HLE 规模的问题（<9%），而 GPT-4o 的原生准确率不到 2%。通过利用 CLIO，我们使其在与顶级推理模型的较量中达到了接近最佳水平。CLIO 的递归特性使系统能够更广泛、更深入地思考，确保在回答时能够覆盖问题。在 GPT-4.1 中，仅使用认知循环递归，我们发现整体性能的准确率就提高了 5.92%。为了更深入地思考，我们允许 CLIO 集成不同的演化，并使用GraphRAG智能地从最佳方法中选择。这种认知模式的扩展比非集成方法提高了 7.90%。

瀑布图展示了思考努力对 CLIO 有效性的影响。

图 3.思考努力对 CLIO 有效性的影响。

此外，CLIO 的设计提供了不同的控制旋钮，例如，针对给定问题，需要多少时间思考以及使用哪种技术。在图 3 中，我们展示了这些控制旋钮及其对 GPT-4.1 和 GPT-4o 性能的提升。在本例中，我们分析了一组生物医学问题（重点是免疫学）的性能。CLIO 提升了 GPT-4o 的基础性能，使其与免疫学问题的最佳推理模型相媲美。我们观察到，CLIO 的性能比基础模型 GPT-4o 提高了13.60% 。这一结果表明，CLIO 与模型无关，类似于微软 AI Diagnostic Orchestrator（MAI-DxO）的性能。（在新标签页中打开）的方法和相应的性能提升。

对科学和可靠发现的影响

未来的科学发现需要的不仅仅是基于知识和原始计算能力的推理。本文将展示 CLIO 如何不仅提升模型性能，更能为科学家建立新的控制层。在我们即将开展的研究中，我们将展示 CLIO 如何提升药物发现领域中高价值科学问题的工具效用，而药物发现领域需要专为科学语言设计的精准工具。虽然我们的实验专注于科学发现，但我们相信 CLIO 可以应用于任何领域。在金融分析、工程和法律服务等领域解决问题的专家，或许可以从具有透明、可控推理方法的 AI 系统中受益。最终，我们设想 CLIO 成为混合 AI 堆栈中持久的控制层，该堆栈将传统的完成和推理模型与外部存储系统以及高级工具调用相结合。即使 AI 堆栈中的组件不断发展，CLIO 所实现的这些持续制衡机制也将继续保持其价值。这种智能且可控的科学决策与工具优化的结合，是最近发布的Microsoft Discovery 平台的基础。（在新标签页中打开）。

在微软，我们致力于推进赢得科学家信任的人工智能研究，赋能他们探索新的知识前沿。我们的工作证明了，当我们将创新与可信度以及以人为本的愿景相结合，就能创造无限可能，引领人工智能辅助科学发现的未来。我们诚邀科研界和科学界与我们携手共创未来。

更多信息：

要了解更多关于我们方法的详细信息，请阅读我们与本博客同时发布的预印本论文。我们正在将这项工作提交外部同行评审，并鼓励合作伙伴探索在 Microsoft Discovery 中使用 CLIO。如需了解更多关于微软在这方面的研究或联系我们的团队，请联系discoverylabs@microsoft.com。

致谢

我们非常感谢 Jason Zander 和 Nadia Karim 的支持。我们也衷心感谢 Microsoft Discovery 和 Quantum 内部和外部的同事们分享的见解和反馈，其中包括 Allen Stewart、Yasser Asmi、David Marvin、Harsha Nori、Scott Lundberg 和 Phil Waymouth。

...全文