cnaimodel中国版 AI 模型排行

预览榜（占位数据） — rubric 已定稿，正式双评委跑分后将替换为 C 级实测分。请勿对外引用排名。

数学推理场景榜

样本量 N=12 · 2026-05-20 · 方法论 · docs/benchmarks/cn-math-reasoning.md

排名	模型	总分	答案	步骤	表述	评测日
1	DeepSeek-R1DeepSeek	4.62	4.59	4.68	4.56	2026-05-20
2	o3-miniOpenAI	4.58	4.65	4.54	4.62	2026-05-20
3	Claude 3.7 SonnetAnthropic	4.55	4.52	4.61	4.49	2026-05-20
4	GPT-4.1OpenAI	4.52	4.59	4.48	4.56	2026-05-20
5	Qwen3-Max阿里云	4.45	4.37	4.46	4.55	2026-05-20
6	DeepSeek-V3DeepSeek	4.40	4.37	4.46	4.34	2026-05-20
7	GPT-4oOpenAI	4.35	4.32	4.41	4.29	2026-05-20
8	GLM-4-Plus智谱AI	4.28	4.30	4.18	4.27	2026-05-20
9	Kimi 最新档月之暗面	4.22	4.30	4.17	4.27	2026-05-20
10	QwQ-32B阿里云	4.15	4.23	4.10	4.20	2026-05-20
11	GPT-4o-miniOpenAI	3.88	3.95	3.84	3.92	2026-05-20
12	Gemini 2.0 FlashGoogle	3.82	3.74	3.83	3.92	2026-05-20

占位分 · 中文应用题 · 正式双评委前勿引用