cnaimodel中国版 AI 模型排行

预览榜（占位数据） — rubric 已定稿，正式双评委跑分后将替换为 C 级实测分。请勿对外引用排名。

代码生成场景榜

样本量 N=15 · 2026-05-20 · 方法论 · docs/benchmarks/cn-code-generation.md

排名	模型	总分	正确性	可读性	边界处理	效率	评测日
1	Claude 3.7 SonnetAnthropic	4.55	4.52	4.61	4.49	4.58	2026-05-20
2	GPT-4.1OpenAI	4.52	4.59	4.48	4.56	4.45	2026-05-20
3	DeepSeek-V3DeepSeek	4.48	4.45	4.54	4.42	4.51	2026-05-20
4	DeepSeek-R1DeepSeek	4.45	4.37	4.46	4.55	4.43	2026-05-20
5	Qwen2.5-Max阿里云	4.42	4.44	4.32	4.41	4.50	2026-05-20
6	GPT-4oOpenAI	4.38	4.30	4.39	4.48	4.36	2026-05-20
7	GLM-4-Plus智谱AI	4.35	4.32	4.41	4.29	4.38	2026-05-20
8	Claude 3.5 SonnetAnthropic	4.32	4.29	4.38	4.26	4.35	2026-05-20
9	CodestralMistral	4.28	4.30	4.18	4.27	4.36	2026-05-20
10	DeepSeek-Coder-V2DeepSeek	4.25	4.22	4.31	4.19	4.28	2026-05-20
11	Qwen3-Max阿里云	4.20	4.17	4.26	4.14	4.23	2026-05-20
12	GPT-4o-miniOpenAI	3.95	4.02	3.91	3.99	3.88	2026-05-20
13	Llama 3.3 70B InstructMeta	3.88	3.95	3.84	3.92	3.81	2026-05-20
14	Mistral LargeMistral	3.82	3.74	3.83	3.92	3.80	2026-05-20
15	InternLM2.5-20B上海AI实验室	3.75	3.67	3.76	3.85	3.73	2026-05-20

占位分 · 公式模拟 · 正式跑分前勿引用