NVIDIA 技术博客：开始使用适用于企业解决方案的大型语言模型

nvdev 2024-02-01 18:19:28

这篇文章最初发表在 NVIDIA 技术博客上。有关此类的更多内容，请参阅最新的 对话式人工智能/自然语言处理 新闻和教程。

大型语言模型 (LLM)是在具有数千亿参数的互联网级数据集上进行训练的深度学习算法。LLM 可以读取、写入、编码、绘制和增强人类创造力，以提高各行各业的生产力，并解决世界上最棘手的问题。

LLM 被广泛应用于各行各业，从零售到医疗健康，以及各种任务。它们学习蛋白质序列的语言，以生成新的可行化合物，从而帮助科学家开发创新的救命疫苗。它们帮助软件程序员根据自然语言描述生成代码并修复错误。它们还提供生产力 Co-Pilot，以便人类可以更好地完成他们擅长的工作 – 创建、提问和理解。

A prompt is submitted into a large language model and can be leveraged for many different use cases, from content generation to summarization, translation, classification, or chatbots. 图 1.LLM 用于生成内容、总结、翻译、分类和回答问题等

要在企业应用程序和工作流中有效利用 LLM，需要了解模型选择、自定义、优化和部署等关键主题。本文将探讨以下企业 LLM 主题：

组织如何使用 LLM
使用、自定义或构建 LLM？
从基础模型开始
创建自定义语言模型
将 LLM 连接到外部数据
保持 LLM 的安全和正常运行
在生产环境中优化 LLM 推理
开始使用 LLM

无论您是希望构建自定义模型的数据科学家，还是探索 LLM 在组织中的潜力的首席数据官，请继续阅读以获取宝贵见解和指导。

组织如何使用 LLM

LLM 被用于各种跨行业应用，基于从海量数据集中获得的知识，高效地识别、汇总、翻译、预测和生成文本及其他形式的内容。例如，公司正在利用 LLM 开发类似聊天机器人的界面，以支持用户进行客户查询，提供个性化建议，并协助进行内部知识管理。

LLM 还有可能扩大 AI 在各行各业和企业中的覆盖范围并推动新一波的研究、创意和生产力浪潮。它们可以帮助生成复杂的解决方案，以解决诸如healthcare和chemistry.LLM 还可用于创建重塑的搜索引擎、辅导聊天机器人、合成工具、营销材料等等。

ServiceNow 与 NVIDIA 的协作将有助于将自动化提升到新的水平，从而提高生产力并更大限度地提高业务影响。正在探索的生成式 AI 用例包括开发智能虚拟助理和代理，以帮助回答用户问题和解决支持请求，以及使用生成式 AI 自动解决问题、生成知识库文章和进行聊天摘要。

瑞典的一个联盟正在使用 NVIDIA NeMo Megatron 开发先进的语言模型，并将提供给北欧地区的所有用户。该团队的目标是训练具有高达 1750 亿参数的 LLM，该 LLM 可以处理北欧语言(瑞典语、丹麦语、挪威语，可能还有冰岛语)中的各种语言任务。

该项目被视为一项战略资产，在一个涵盖近 200 个国家/地区和数千种语言的世界中，它是数字主权的基石。如需了解详情，请参阅国王的瑞典：AI 在斯堪的那维亚重写书籍。

韩国领先的移动运营商 KT 使用 NVIDIA DGX SuperPOD 平台和 NVIDIA NeMo 框架。NeMo 是一个端到端的云原生企业框架，可提供预构建组件，用于构建、训练和运行自定义 LLM。

KT 的 LLM 已被用于提高对该公司 AI 驱动的扬声器 GiGA Genie 的理解，该扬声器可以控制电视、提供实时交通更新，并根据语音命令完成其他家庭辅助任务。有关详细信息，请参阅“Hangul 不会挂断电话：KT 借助 NVIDIA AI 训练智能扬声器和客户呼叫中心”。

关键资源

使用、自定义或构建 LLM？

组织可以选择使用现有 LLM、自定义预训练 LLM，或从头开始构建自定义 LLM.使用现有 LLM 可提供快速且经济高效的解决方案，同时自定义预训练 LLM 可让组织针对特定任务调整模型并嵌入专有知识。从头开始构建 LLM 具有极高的灵活性，但需要大量的专业知识和资源。

NeMo 提供了多种定制技术，并针对语言和图像应用程序的模型大规模推理进行了优化，具有多 GPU 和多节点配置。有关更多详情，请参阅借助 NVIDIA NeMo 释放企业就绪型 LLM 的强大功能。

NeMo 使企业能够简单、经济高效且快速地开发生成式 AI模型。它可以在所有主要的云平台上使用，包括 Google Cloud 的 A3 实例，以及由NVIDIA H100 Tensor Core GPU大规模构建、自定义和部署的 LLM。如需了解详情，请参阅在 GPU 加速的 Google Cloud 上使用 NVIDIA NeMo 简化生成式 AI 开发。

如果您想通过易用的界面在浏览器中快速试用生成式 AI 模型（例如 Lama 2），请访问 NVIDIA AI Playground。

关键资源

从基础模型开始

基础模型是大型 AI 模型，通过自监督式学习对大量未标记数据进行训练。例如 Lama 2、GPT-3 和 Stable Diffusion。

这些模型可以处理各种任务，例如图像分类、自然语言处理和问答，并且准确度非常高。

这些基础模型是构建更专业、更复杂的自定义模型的起点。组织可以自定义基础模型，使用特定于域的已标记数据，为特定用例创建更准确和上下文感知的模型。

基础模型通过在可能跟随输入的所有项目上生成概率分布，然后从该分布中随机选择下一个输出，从而从单个提示中生成大量独特的响应。模型使用上下文来放大随机化。模型每次生成概率分布时，都会考虑最后生成的项目，这意味着每个预测都会影响接下来的每个预测。

NeMo 支持 NVIDIA 训练的基础模型以及社区模型，例如 Llama 2、Falcon LLM 和 MPT。您可以直接在 NVIDIA AI Playground 中免费体验各种经过优化的社区和 NVIDIA 构建的基础模型。然后，您可以使用专有企业数据自定义基础模型，从而生成一个适合您的业务和领域的模型。

关键资源

构建自定义语言模型

企业通常需要自定义模型来根据其特定用例和领域知识定制#语言处理功能。自定义 LLM 使企业能够在特定行业或组织环境中更高效、更准确地生成和理解文本。它们使企业能够创建与品牌语音保持一致的个性化解决方案，优化工作流程，提供更精确的见解，并提供增强的用户体验，最终在市场中赢得竞争优势。

NVIDIA NeMo 是一个功能强大的框架，它提供了一系列组件，可以在本地或所有领先的云服务提供商中构建和训练自定义的 LLM。这包括 NVIDIA DGX 云。其中包括从提示学习到高效参数调优，再到通过人类反馈 (RLHF) 增强学习的一套定制技术。NVIDIA 还发布了一种名为 SteerLM 的技术，允许在推理期间进行调整。

训练 LLM 时，始终存在其变为“垃圾输入，垃圾输出”的风险。大部分工作是获取和整理用于训练或自定义 LLM 的数据。

NeMo 数据管理员是一款可扩展的数据整理工具，它可以帮助您为预训练的 LLM 整理万亿令牌的多语种数据集。这款工具允许您使用精确或模糊的方法删除预处理和重复的数据集，从而确保模型基于独特的文档进行训练，可能大幅降低训练成本。

关键资源

将 LLM 连接到外部数据

将 LLM 连接到外部企业数据源可增强其功能。这使 LLM 能够执行更复杂的任务，并利用自上次训练以来创建的数据。

检索增强生成 (RAG) 是一种架构，使 LLM 能够使用当前经过精心策划的特定领域数据源，这些数据源易于添加、删除和更新。借助 RAG，外部数据源被处理为向量(使用嵌入模型)，并放入向量数据库，以便在推理时快速检索。

除了降低计算和财务成本外，RAG 还提高了准确性，并使 AI 驱动的应用程序更加可靠和可信赖。GPU 加速向量搜索由于其在 LLM 和生成式 AI 中的应用，已成为 AI 领域的热门话题之一。

关键资源

加速向量搜索：将 GPU 驱动的索引与 RAPIDS RAFT 结合使用

保持 LLM 正常运行并确保其安全

为确保大语言模型 (LLM) 的行为符合预期结果，必须建立指南、监控其性能并根据需要进行自定义。这涉及定义道德界限、解决训练数据中的偏差，以及根据预定义的指标定期评估模型的输出（通常与护栏功能配合使用）。有关更多信息，请参阅NVIDIA 实现可信、安全可靠的大型语言模型对话系统。

NVIDIA 为了满足这一需求，开发了一个开源工具包，NeMo 护栏，它可以帮助开发者确保其生成式 AI 应用准确、合适且安全。该工具包提供了一个可以与所有 LLM（包括 OpenAI 的 ChatGPT）配合使用的框架，使开发者能够更轻松地构建安全可靠的 LLM 对话系统，从而充分利用基础模型。

对于 AI 驱动的生成式应用来说，保持 LLM 的安全至关重要。NVIDIA 还推出了加速型机密计算，这是一项突破性的安全功能，可在缓解威胁的同时，为 AI 工作负载提供 NVIDIA H100 Tensor Core GPU 前所未有的加速。此功能可确保敏感数据即使在处理过程中也保持安全和受保护。

关键资源

在生产环境中优化 LLM 推理

优化 LLM 推理涉及模型量化、硬件加速和高效部署策略等技术。模型量化可减少模型的内存占用，而硬件加速则利用 GPU 等专用硬件来加快推理速度。高效的部署策略可确保生产环境中的可扩展性和可靠性。

NVIDIA TensorRT-LLM 是一个开源软件库，它能在 NVIDIA 加速计算上为大型 LLM 推理提供强大的支持。用户可以利用它将模型权重转换为新的 FP8 格式，并编译模型，以便利用 NVIDIA H100 GPU 优化的 FP8 内核。相比于 NVIDIA A100 GPU，TensorRT-LLM 可以将推理性能提升 4.6 倍。它提供了一种更快、更高效的 LLM 运行方式，使其更易于访问且更具成本效益。

这些自定义生成式 AI 流程涉及将模型、框架、工具包等整合在一起。其中许多工具都是开源工具，需要时间和精力来维护开发项目。该流程可能会变得异常复杂和耗时，尤其是在尝试跨多个环境和平台进行协作和部署时。

NVIDIA AI 工作台通过提供用于管理数据、模型、资源和计算需求的单一平台，帮助简化此流程。这可让开发者实现无缝协作和部署，从而快速创建经济高效、可扩展的生成式 AI 模型。

NVIDIA 和 VMware 正在携手合作，以转变基于 VMware Cloud Foundation 构建的现代数据中心，并将 AI 引入每个企业。借助 NVIDIA AI Enterprise 套件和 NVIDIA 最先进的 GPU 和数据处理器 (DPU)，VMware 客户可以安全地运行现代加速工作负载和现有的企业应用程序，NVIDIA 认证系统。