技术分享官 2024-03-23 17:17:06

OpenAI 全新发布文生视频模型 Sora，功能有多强大？

Sora是一种扩散模型，它能够通过从一开始看似静态噪声的视频出发，经过多步骤的噪声去除过程，逐渐生成视频。Sora不仅能够一次性生成完整的视频，还能延长已生成的视频。通过让模型能够预见多帧内容，团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。与GPT模型类似，Sora采用了Transformer架构，从而实现了卓越的性能扩展。OpenAI把视频和图像分解为较小的数据单元——「patches」，每个「patches」相当于GPT中的一个「token」。