存内计算开发者 2024-08-30 19:14:16

中文大模型基准测评2024上半年报告

其中qwen2-7b（70亿参数）取得62分，打败了上一代版本的qwen1.5-32b（320亿参数），qwen2-1.5b（15亿参数）打败了Llama-2-13B-Instruct（130亿参数），展现了更小尺寸的模型的极致性能。国内模型也经历了波澜壮阔的14个月的迭代周期，其中Top1的模型经历了8次易主，不断提升国内模型的最强战力。国内大模型理科表现优异的模型，如Qwen2-72B、AndesGPT和山海大模型4.0稍落后于GPT-4-Turbo-0409，均取得76分的高分。