方法论

📊 数据来源分级

级别标签说明
A官方文档厂商公开价、参数页
B自测本站在固定机房的延迟等
C人工评测场景 rubric 打分
D用户投票Arena / 问卷

💰 价格数据更新

  • 每周更新 2 次(周二、周五)
  • 每条价格记录都有 source_url 可追溯
  • 历史价格会被保留,可查询历史变化

CN 性价比指数

CNValue = norm(场景分) − 0.4 × norm(log(输出¥/M)),α=0.4 可在后续版本调整。场景分来自 C 级人工评测,价格为 A 级官方页。

速度抽样(B 级)

8 模型 × 固定中文 prompt × 流式 3 次取 tokens/s 中位数;不代表全负载下的 SLA。

公文写作场景

10 条公文类 prompt;评委 2 人;不计入 CN 指数时可单独看 榜单

场景榜评测标准 · 电商文案

评什么

电商短文案:标题、卖点、促销话术,5 类商品 × 4 prompts。

怎么打

双评委 1–5 分,四维度各 25% 权重后合成总分。

成本

按各模型官方 API 价 × 评测 token 估算;见模型详情价格表。

局限

人工样本,不代表 GMV;参数默认档因厂商而异。

📝 电商文案场景评分维度

  • 相关性 (25%):文案与产品/场景的匹配程度,是否准确传达产品特性
  • 吸引力 (25%):文案的创意和吸引力,是否能激发购买欲望
  • 合规性 (25%):避免夸大宣传和违规用语,符合广告法要求
  • 长度控制 (25%):符合平台要求,简洁有力

v2 评测:20 条 prompt(5 类商品 × 4 条),快照 2026-05-20,存档路径 archive/runs/2026-05-20/cn-ecom-copy-v2/。 详见项目内 docs/benchmarks/cn-ecom-copy-v2.md

查看电商文案榜 →

代码生成场景(预览)

15 prompts:Python/TS 补全、单测、Bug 修复、SQL。四维度:正确性 40%、可读性 25%、边界 20%、效率 15%。 当前为占位分,正式双评委后替换。

文档 docs/benchmarks/cn-code-generation.md · 预览榜

数学推理场景(预览)

12 道中文应用题;答案 50%、步骤 30%、表述 20%。不追求英文 MATH/GSM8K 复刻。

预览榜

JSON 结构化抽取(预览)

10 条中文非结构化文本 → 固定 schema;字段完整 40%、类型 35%、中文键名 25%。

预览榜

⚖️ 利益冲突声明

cnaimodel 可能接受赞助,但赞助商不参与评分与排名算法。 所有赞助都会在相应内容中明确标注。