预览榜(占位数据) — rubric 已定稿,正式双评委跑分后将替换为 C 级实测分。请勿对外引用排名。
代码生成场景榜
样本量 N=15 · 2026-05-20 · 方法论 · docs/benchmarks/cn-code-generation.md
| 排名 | 模型 | 总分 | 正确性 | 可读性 | 边界处理 | 效率 | 评测日 |
|---|---|---|---|---|---|---|---|
| 1 | Claude 3.7 SonnetAnthropic | 4.55 | 4.52 | 4.61 | 4.49 | 4.58 | 2026-05-20 |
| 2 | GPT-4.1OpenAI | 4.52 | 4.59 | 4.48 | 4.56 | 4.45 | 2026-05-20 |
| 3 | DeepSeek-V3DeepSeek | 4.48 | 4.45 | 4.54 | 4.42 | 4.51 | 2026-05-20 |
| 4 | DeepSeek-R1DeepSeek | 4.45 | 4.37 | 4.46 | 4.55 | 4.43 | 2026-05-20 |
| 5 | Qwen2.5-Max阿里云 | 4.42 | 4.44 | 4.32 | 4.41 | 4.50 | 2026-05-20 |
| 6 | GPT-4oOpenAI | 4.38 | 4.30 | 4.39 | 4.48 | 4.36 | 2026-05-20 |
| 7 | GLM-4-Plus智谱AI | 4.35 | 4.32 | 4.41 | 4.29 | 4.38 | 2026-05-20 |
| 8 | Claude 3.5 SonnetAnthropic | 4.32 | 4.29 | 4.38 | 4.26 | 4.35 | 2026-05-20 |
| 9 | CodestralMistral | 4.28 | 4.30 | 4.18 | 4.27 | 4.36 | 2026-05-20 |
| 10 | DeepSeek-Coder-V2DeepSeek | 4.25 | 4.22 | 4.31 | 4.19 | 4.28 | 2026-05-20 |
| 11 | Qwen3-Max阿里云 | 4.20 | 4.17 | 4.26 | 4.14 | 4.23 | 2026-05-20 |
| 12 | GPT-4o-miniOpenAI | 3.95 | 4.02 | 3.91 | 3.99 | 3.88 | 2026-05-20 |
| 13 | Llama 3.3 70B InstructMeta | 3.88 | 3.95 | 3.84 | 3.92 | 3.81 | 2026-05-20 |
| 14 | Mistral LargeMistral | 3.82 | 3.74 | 3.83 | 3.92 | 3.80 | 2026-05-20 |
| 15 | InternLM2.5-20B上海AI实验室 | 3.75 | 3.67 | 3.76 | 3.85 | 3.73 | 2026-05-20 |
占位分 · 公式模拟 · 正式跑分前勿引用