【Deepseek】大语言模型评测指标详解
DeepSeek-V3重磅发布:性能暴增3倍,价格却只有其他大模型的1/5!深度解析与实测
- MMLU-Pro (EM)
全称:Massive Multitask Language Understanding Professional
评测内容:专业领域的多任务语言理解能力
EM (Exact Match):完全匹配的准确率
特点:比普通MMLU更专业,难度更高
- GPQA-Diamond (Pass@1)
全称:General Programming Questions Assessment
评测内容:通用编程问题解决能力
Pass@1:第一次尝试就通过的比率
特点:测试模型解决实际编程问题的能力
- MATH 500 (EM)
全称:Mathematics Assessment Test
评测内容:高等数学问题解决能力
EM (Exact Match):答案完全正确的比率
特点:包含各类数学题目,测试数学推理能力
- AIME 2024 (Pass@1)
全称:American Invitational Mathematics Examination
评测内容:美国数学邀请赛级别的数学题
Pass@1:一次通过率
特点:非常高难度的数学竞赛题目
- Codeforces (Percentile)
评测内容:编程竞赛平台的问题解决能力
Percentile:百分位数评分
特点:
真实竞赛平台的题目
考验算法和问题解决能力
分数表示超过多少百分比的其他参与者
- SWE-bench Verified (Resolved)
全称:Software Engineering Benchmark
评测内容:软件工程实践能力
Resolved:成功解决的问题比率
特点:
测试实际软件开发场景
包含代码修复、重构等任务
验证解决方案的正确性
评分方式说明
EM (Exact Match)
要求答案完全正确
不接受部分正确
分数表示完全正确的比例
Pass@1
首次尝试通过率
不计入多次尝试才成功的情况
更严格的评估标准
Percentile
百分位数评分
表示超过其他参与者的比例
反映相对表现水平
Resolved
问题解决率
包含验证过的解决方案
注重实际应用效果
想要了解更多?赶快加入我的知识星球吧!
⏰ 1月特惠即将结束! 原价199,现在仅需99元 限时特惠,机不可失!
🌟 在我的知识星球,你将获得:
- 专业干货分享
- 成长加速器
- 社群特权
- 实战演练
🎯 加入星球,你将收获: 更快的成长速度 更广的视野格局 更强的解决方案 更优的职业发展
作者:AI新纪元