方法论与评测标准

📊 数据来源分级

CNValue = norm(场景分) − 0.4 × norm(log(输出¥/M))，α=0.4 可在后续版本调整。场景分来自 C 级人工评测，价格为 A 级官方页。

8 模型 × 固定中文 prompt × 流式 3 次取 tokens/s 中位数；不代表全负载下的 SLA。

10 条公文类 prompt；评委 2 人；不计入 CN 指数时可单独看榜单。

电商短文案：标题、卖点、促销话术，5 类商品 × 4 prompts。

双评委 1–5 分，四维度各 25% 权重后合成总分。

按各模型官方 API 价 × 评测 token 估算；见模型详情价格表。

人工样本，不代表 GMV；参数默认档因厂商而异。

v2 评测：20 条 prompt（5 类商品 × 4 条），快照 2026-05-20，存档路径 archive/runs/2026-05-20/cn-ecom-copy-v2/。详见项目内 docs/benchmarks/cn-ecom-copy-v2.md。

15 prompts：Python/TS 补全、单测、Bug 修复、SQL。四维度：正确性 40%、可读性 25%、边界 20%、效率 15%。当前为占位分，正式双评委后替换。

文档 docs/benchmarks/cn-code-generation.md · 预览榜

12 道中文应用题；答案 50%、步骤 30%、表述 20%。不追求英文 MATH/GSM8K 复刻。

10 条中文非结构化文本 → 固定 schema；字段完整 40%、类型 35%、中文键名 25%。

cnaimodel 可能接受赞助，但赞助商不参与评分与排名算法。所有赞助都会在相应内容中明确标注。