代码收藏家技术教程 2025-02-12

【Deepseek】大语言模型评测指标详解

DeepSeek-V3重磅发布：性能暴增3倍，价格却只有其他大模型的1/5！深度解析与实测

MMLU-Pro (EM)

全称：Massive Multitask Language Understanding Professional
评测内容：专业领域的多任务语言理解能力
EM (Exact Match)：完全匹配的准确率
特点：比普通MMLU更专业，难度更高

GPQA-Diamond (Pass@1)

全称：General Programming Questions Assessment
评测内容：通用编程问题解决能力
Pass@1：第一次尝试就通过的比率
特点：测试模型解决实际编程问题的能力

MATH 500 (EM)

全称：Mathematics Assessment Test
评测内容：高等数学问题解决能力
EM (Exact Match)：答案完全正确的比率
特点：包含各类数学题目，测试数学推理能力

AIME 2024 (Pass@1)

全称：American Invitational Mathematics Examination
评测内容：美国数学邀请赛级别的数学题
Pass@1：一次通过率
特点：非常高难度的数学竞赛题目

Codeforces (Percentile)

评测内容：编程竞赛平台的问题解决能力
Percentile：百分位数评分
特点：
真实竞赛平台的题目
考验算法和问题解决能力
分数表示超过多少百分比的其他参与者

SWE-bench Verified (Resolved)

全称：Software Engineering Benchmark
评测内容：软件工程实践能力
Resolved：成功解决的问题比率
特点：
测试实际软件开发场景
包含代码修复、重构等任务
验证解决方案的正确性

评分方式说明

EM (Exact Match)
要求答案完全正确
不接受部分正确
分数表示完全正确的比例
Pass@1
首次尝试通过率
不计入多次尝试才成功的情况
更严格的评估标准
Percentile
百分位数评分
表示超过其他参与者的比例
反映相对表现水平
Resolved
问题解决率
包含验证过的解决方案
注重实际应用效果