预览榜(占位数据) — rubric 已定稿,正式双评委跑分后将替换为 C 级实测分。请勿对外引用排名。
JSON 结构化抽取榜
样本量 N=10 · 2026-05-20 · 方法论 · docs/benchmarks/cn-json-extraction.md
| 排名 | 模型 | 总分 | 字段完整 | 类型正确 | 中文键名 | 评测日 |
|---|---|---|---|---|---|---|
| 1 | GPT-4.1OpenAI | 4.50 | 4.58 | 4.45 | 4.55 | 2026-05-20 |
| 2 | Claude 3.7 SonnetAnthropic | 4.48 | 4.45 | 4.54 | 4.42 | 2026-05-20 |
| 3 | GPT-4oOpenAI | 4.45 | 4.37 | 4.46 | 4.55 | 2026-05-20 |
| 4 | Qwen2.5-Max阿里云 | 4.40 | 4.37 | 4.46 | 4.34 | 2026-05-20 |
| 5 | DeepSeek-V3DeepSeek | 4.35 | 4.32 | 4.41 | 4.29 | 2026-05-20 |
| 6 | GLM-4-Plus智谱AI | 4.32 | 4.29 | 4.38 | 4.26 | 2026-05-20 |
| 7 | Gemini 2.5 ProGoogle | 4.28 | 4.30 | 4.18 | 4.27 | 2026-05-20 |
| 8 | 文心 ERNIE 4.0百度 | 4.20 | 4.17 | 4.26 | 4.14 | 2026-05-20 |
| 9 | 豆包 Pro字节跳动 | 4.15 | 4.23 | 4.10 | 4.20 | 2026-05-20 |
| 10 | GPT-4o-miniOpenAI | 3.90 | 3.87 | 3.96 | 3.84 | 2026-05-20 |
占位分 · schema 完整率 · 正式跑分前勿引用