预览榜(占位数据) — rubric 已定稿,正式双评委跑分后将替换为 C 级实测分。请勿对外引用排名。
数学推理场景榜
样本量 N=12 · 2026-05-20 · 方法论 · docs/benchmarks/cn-math-reasoning.md
| 排名 | 模型 | 总分 | 答案 | 步骤 | 表述 | 评测日 |
|---|---|---|---|---|---|---|
| 1 | DeepSeek-R1DeepSeek | 4.62 | 4.59 | 4.68 | 4.56 | 2026-05-20 |
| 2 | o3-miniOpenAI | 4.58 | 4.65 | 4.54 | 4.62 | 2026-05-20 |
| 3 | Claude 3.7 SonnetAnthropic | 4.55 | 4.52 | 4.61 | 4.49 | 2026-05-20 |
| 4 | GPT-4.1OpenAI | 4.52 | 4.59 | 4.48 | 4.56 | 2026-05-20 |
| 5 | Qwen3-Max阿里云 | 4.45 | 4.37 | 4.46 | 4.55 | 2026-05-20 |
| 6 | DeepSeek-V3DeepSeek | 4.40 | 4.37 | 4.46 | 4.34 | 2026-05-20 |
| 7 | GPT-4oOpenAI | 4.35 | 4.32 | 4.41 | 4.29 | 2026-05-20 |
| 8 | GLM-4-Plus智谱AI | 4.28 | 4.30 | 4.18 | 4.27 | 2026-05-20 |
| 9 | Kimi 最新档月之暗面 | 4.22 | 4.30 | 4.17 | 4.27 | 2026-05-20 |
| 10 | QwQ-32B阿里云 | 4.15 | 4.23 | 4.10 | 4.20 | 2026-05-20 |
| 11 | GPT-4o-miniOpenAI | 3.88 | 3.95 | 3.84 | 3.92 | 2026-05-20 |
| 12 | Gemini 2.0 FlashGoogle | 3.82 | 3.74 | 3.83 | 3.92 | 2026-05-20 |
占位分 · 中文应用题 · 正式双评委前勿引用