使用 NVIDIA Maxine 改善实时通信体验

nvdev 2022-06-28 16:39:52

实时通信应用程序（如虚拟协作和内容创建应用程序）的音频和视频质量是衡量用户实时通信体验的真正标准。他们严重依赖网络带宽和用户设备质量。

狭窄的网络带宽和低质量的设备会产生不稳定且嘈杂的音频和视频输出。由于用户同时产生和消费音频和视频，因此可损坏流的数量增加，这一问题往往变得更加复杂。用户通过部署内容创建工具进一步加剧了音频和视频拥塞。

为了使您能够增强实时通信应用程序的实时音频和视频质量， NVIDIA Maxine提供 GPU – 加速 SDK 来执行以下操作：

改进标准麦克风和网络摄像头经验通过视频效果、音频效果和 AR SDK 功能。
支持将多个音频、视频和增强现实功能实时链接到端到端管道中使用 Maxine 构建新的或集成到已构建的端到端管道中。
包括转录和翻译当与 NVIDIA Riva一起使用 Maxine 时，这是一个用于构建对话 AI 应用程序的 SDK 。

简言之， Maxine 为具有高音频和视频质量的虚拟协作和内容创建应用程序提供了最高的性能，无论是在 PC 机、内部部署还是在具有 GPU 的云数据中心。

在本文中，您将了解：

用户在使用 Maxine SDK 进行实时通信应用时体验到的音频和视频增强功能。
使用 Maxine 、 NVIDIA 视频编解码器 SDK和 Riva 构建端到端管道的好处。
Maxine SDK 的真实示例在视频会议、内容创建和实时流媒体应用程序中提供了集成功能。

End-to-end pipeline with Maxine and Riva SDKs 图 1 。与 Maxine 和 Riva SDK 的端到端管道

将标准音频和视频设备转换为智能设备

NVIDIA Maxine 由视频特效 SDK 、音频特效 SDK 和 AR SDK 组成，具有 GPU – 经过数十万小时培训开发的最先进的人工智能加速功能。

使用Maxine 视频效果 SDK，您可以将标准网络摄像头输入转换为高质量视频。视频改进如下：

图像更清晰，细节更丰富，通过 Maxine 超分辨率和放大功能实现。
显著降低网络摄像头传感器类型、曝光和低照度造成的视频噪音集成了 Maxine 视频降噪功能。
块状伪影、响声和蚊子噪音消除应用 Maxine 伪影减少功能。
用户选择的虚拟背景，通过虚拟背景功能启用（图 2 ）。

The illustration of virtual background implementation 图 2 。虚拟背景实现的说明

有关如何使用标准网络摄像头输入运行这些效果并将其集成到应用程序中的更多信息，请参阅将嘈杂的低分辨率视频转换为高质量视频，为最终用户带来迷人的体验。

Maxine 音频效果 SDK提供的人工智能模型可以消除几乎任何类型的音频噪音–阻碍窄带、宽带和超宽带音频，并提高通话质量。使用 Maxine 解决音频质量差问题的好处如下：

没有不必要的背景噪音例如交流噪音、建筑噪音、交通噪音或键盘敲击声。有关通过噪声消除功能消除的背景噪声类型的完整列表的更多信息，请参阅关于背景噪声抑制效果。
没有无法理解的声音或声音失真，也就是说，在具有反射表面的大空间中说话时，不会出现混响。此效果可通过 Maxine Room 回声消除功能实现。

为了获得更好的端到端质量，您可以组合 Maxine audio effects 功能。有关如何构建具有卓越音质的虚拟协作和内容创建应用程序的更多信息，请参阅为虚拟协作和内容创建应用程序实现无噪音音频。

Maxine 增强现实 SDK使您能够从网络摄像头视频中创建有趣且引人入胜的 AR 效果，并在应用程序中使用这些效果来吸引用户、了解用户情绪或创建 3D 照片逼真的化身。

Maxine AR SDK 提供人脸跟踪、人脸地标跟踪和人脸网格功能（图 3 ）。

Illustration of Maxine AR face-related features including: Face Tracking, Face Landmark Tracking, and Face Mesh 图 3 。 Maxine AR 人脸相关特征示意图

面跟踪在面周围创建边界框，并随时间跟踪面位置。
人脸地标跟踪识别鼻子、眼睛和嘴唇等面部特征，并实时跟踪它们。
人脸网格用 3D 网格表示人脸， 3D 网格模拟用户实时变化的人脸，可用于人脸身份验证和构建化身。

人脸跟踪和人脸地标跟踪可用于跟踪驾驶员注意力，或用于面罩和眼镜检测应用。

使用 Maxine Body Pose Estimation 功能，您可以创建用于理解用户姿势的应用程序，并将其用于人体活动识别、运动传输和实时虚拟交互。

快速构建实时的端到端管道

在构建音频和视频管道时，开发人员通常自定义 AI 模型以实现所需的音频和视频效果。此外，他们的管道必须支持多种平台，如嵌入式、 PC 和服务器，还必须满足低延迟和高吞吐量的视频处理要求。事实证明，这样的管道是计算密集型的。通常在运营成本和音频和视频流质量之间进行权衡。

NVIDIA Maxine 及其周围的生态系统完全有能力应对这一挑战。通过利用 NVIDIA GPU s 提供的加速功能和最先进的 AI 模型功能，您可以构建提供更好用户体验的应用程序，同时管理相关成本。这就是它的工作原理。

Maxine AI 功能

NVIDIA Maxine 的核心是三个 SDK ，它们提供多种 AI 功能。这些功能提高了视频分辨率，消除了音频和视频中的噪音，并提供了独特的功能。

围绕 Maxine 的 NVIDIA 生态系统由两个关键产品 NVIDIA 视频编解码器 SDK和 NVIDIA Riva 组成。

使用视频编解码器 SDK ，您可以访问提供硬件加速编码和解码功能的 NVNC 和 NVDEC API 。
使用 NVIDIA Riva ，您可以构建对话 AI ，通过提供转录和翻译等功能来帮助增强虚拟协作体验。

所有这些特性都是 GPU 加速的，因此可以处理的介质量远远高于基于 CPU 的管道。

例如，考虑一下德国的一个生产层经理，他与美国的高管们在关键业务决策上进行远程互动。工厂往往位于互联网连接有限的偏远地区，生产车间往往是淹没在大量背景噪音中的大房间。

使用 Maxine 噪音消除功能，经理可以消除生产车间的背景噪音。
通过消除房间回声，他们可以消除音频混响。
通过 Riva 翻译，生产车间经理和高管可以用他们喜欢的语言进行沟通。
通过视频噪声消除和超分辨率，一个嘈杂的 360p 视频被转换成清晰的 1440p 视频。
经理可以用干净的背景掩盖生产车间的杂乱。

图 4 强调了使用和不使用 Maxine 时用户体验的巨大差异。

Video conferencing pipeline with Maxine ecosystem including Maxine, Video Codec, and Riva 图 4 。具有 Maxine 生态系统的视频会议管道：Maxine,视频编解码器和Riva

模块化 Maxine 设计产品的优势在于，您可以轻松选择和集成现有管道中所需的 SDK ，或者从头开始构建新的端到端管道。 Maxine 和围绕 Maxine 的生态系统使您能够快速构建一个高吞吐量的端到端管道，接收嘈杂的数据流，并将其实时转换为一种无噪音、高质量、高实用性的体验，可供所有设备使用。

使用 Maxine SDK 的增压应用程序的真实示例

为了展示如何集成 Maxine 特性，我们选择了几个实际示例，每个主要用例一个。

阿瓦亚空间

阿瓦亚空间是一个基于 CPaaS 的现代会议和工作流协作平台，提供高清晰度视频会议、视频合成、会议录制、实时转录和云级别的持久协作。

Avaya 的目标是实现大规模提供实时、高质量媒体服务的民主化，无论用户的设备质量如何，也不管用户在世界各地的位置如何，以浏览器为第一体验。为了实现这些目标并优化媒体处理， Avaya 将底层基于云的 CPaaS 与 NVIDIA Maxine 技术相结合。

通过将一系列 GPU 连接到容器和虚拟机的云部署，可实现 100% 的正常运行时间。服务器根据需求进行旋转，便于与数千名参与者进行大规模、实时、双向视频交互会议。

Avaya 使用 Maxine Noise Remove 功能来满足计算成本高、延迟有限的预算，以满足人们对干净清晰的音频的需求，而无背景噪音，并且由于设备质量低和网络性能差，对音频和语音间隙的容忍度较低。与传统的 DSP 方法相比， Maxine 噪声消除功能更强大，涵盖范围更广。它可以在不在端点上运行的情况下实现低延迟，但尽可能靠近网络边缘。此外，由于基于 AI 的算法延迟低于 40ms ，因此音频管道中没有缓冲。

Avaya 还使用独特的 Maxine 虚拟背景功能，将多个扬声器叠加在演示文稿上，以获得更具吸引力的演示文稿。最终用户不必拥有特殊的硬件或下载任何软件。他们可以在任何设备上实现这一点，并且可以灵活地创建不同类型的布局。

借助 Maxine 虚拟背景功能， Avaya 为移动和处于复杂体位的扬声器提供强大的视频分割。有关 Maxine 如何使 Avaya 提供专业、高质量、无处不在、可从任何平台访问的最终用户体验的更多信息，请参阅 Avaya 最近的 GTC 课程 NVIDIA 的 Maxine 如何改变我们的沟通方式。

Notch

Notch是一种用于 3D 、 VFX 和实时事件视觉效果的实时图形工具。为舞台表演创造效果通常需要一个单独的昂贵摄像头和跟踪解决方案来跟踪身体运动。在某些情况下，生成视觉效果对于处理完整的摄影机提要（包括背景）变得很棘手。

通过 Maxine 实时人脸跟踪和身体姿势估计功能， Notch 使艺术家能够通过减少对定制硬件跟踪系统的需求，大大简化现场活动舞台的设置。取而代之的是，凹口可以使用标准的摄像设备。用户可以进一步使用骨骼体数据的运动捕捉装备来控制 3D 角色动画（图 5 ）。

The Maxine Body Pose Estimation feature enables entire human body tracking in 3D real time 图 5 。 Maxine Body Pose Estimation 功能可在 3D 实时跟踪整个人体

通过 Maxine AI 驱动的虚拟背景功能， Notch 用户可以创建视频处理效果，将人与背景分开，并将处理仅应用于舞台上的人才或背景本身。这一简单的过程具有高分辨率和精度，适用于复杂条件，如深色衣服和复杂的照明条件。有关更多信息，请参阅演示视频切口 0 . 9 . 23 . 195 NVIDIA 贴片释放走查。