【大模型评测基准】视频生成模型权威评测基准VBench

司南评测 2025-02-27 14:17:31

VBench，视频生成模型权威评测基准，用于评估多模态大模型的视频生成质量，包含 16 个视频生成维度及 1 个人类偏好注释数据集。

亮点一览：

包含16个分层和解耦的评测维度
评测方案与人类的观感与评价对齐
代码及提示词体系全面开源
简单部署，一键安装

最新发布的 VBench++ 支持更广泛的视频生成任务，包括文本生成视频和图像生成视频，并配有一套自适应的图像套件，以便在不同的设置下进行公平评估。不仅评估技术质量，还评估生成模型的可信度，从而提供对模型性能的全面评估。

司南评测集社区已收录VBench，感兴趣的友友欢迎下载使用！

https://hub.opencompass.org.cn/dataset-detail/VBench

...全文

550 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

VBench评测基准由多家知名机构联合发布，旨在全面评估视频生成模型性能。其包含16个分层评测维度，确保评估全面细致，同时贴近人类感知。VBench已全面开源，支持一键安装，为视频生成技术的创新与迭代提供参考。VBench++进一步扩展评测任务，关注模型可信度，为视频生成模型能力提升提供方向。

VBench是由上海人工智能实验室等机构提出的视频生成模型评测基准，涵盖内容忠实度、运动质量、视频美学和生成可信度四大类共16个维度。该框架依托视觉语言模型实现自动化评估，评分结果与人类主观评价高度一致。其核心价值在于提供细粒度、可解释、场景感知的性能诊断能力，支持模型短板定位、跨模型对比及技术趋势分析，已成为业界公认的权威评测工具。

本文系统梳理当前主流大模型评测体系，涵盖文本生成（Chatbot Arena、MMLU、Arena-Hard、LiveBench、LiveCodeBench）、视频生成与理解（VBench、Video-MME）、语音识别（Open ASR Leaderboard）及多模态综合能力（MMBench）五大方向。重点剖析各榜单的设计理念、评估维度、适用场景与局限性，强调交叉验证与业务适配的重要性，为模型选型提供结构化决策依据。

阿里旗下通义万相视频生成模型发布2.1版重磅升级，有极速版和专业版。它在处理复杂运动、文字生成等方面表现出色，登顶VBench。此次升级在架构、训练、评估等方面全方位优化，有望推动视频生成领域迎来新变革。

权威评测机构VBench Leaderboard发布的图生视频榜单中，百度旗下团队开发的Steamer-I2V以89.38%的总分登顶。该模型结合多领域技术，针对精准画面控制、高清画质、中文语义理解优化，能将静态图像转为动态视频，在多个评选维度表现出色。

12,307

社区成员

1,253

社区内容

发帖

与我相关

我的任务

大数据人工智能开源个人社区天津·武清区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章