方法论
📊 数据来源分级
| 级别 | 标签 | 说明 |
|---|---|---|
| A | 官方文档 | 厂商公开价、参数页 |
| B | 自测 | 本站在固定机房的延迟等 |
| C | 人工评测 | 场景 rubric 打分 |
| D | 用户投票 | Arena / 问卷 |
💰 价格数据更新
- 每周更新 2 次(周二、周五)
- 每条价格记录都有 source_url 可追溯
- 历史价格会被保留,可查询历史变化
CN 性价比指数
CNValue = norm(场景分) − 0.4 × norm(log(输出¥/M)),α=0.4 可在后续版本调整。场景分来自 C 级人工评测,价格为 A 级官方页。
速度抽样(B 级)
8 模型 × 固定中文 prompt × 流式 3 次取 tokens/s 中位数;不代表全负载下的 SLA。
公文写作场景
10 条公文类 prompt;评委 2 人;不计入 CN 指数时可单独看 榜单。
场景榜评测标准 · 电商文案
评什么
电商短文案:标题、卖点、促销话术,5 类商品 × 4 prompts。
怎么打
双评委 1–5 分,四维度各 25% 权重后合成总分。
成本
按各模型官方 API 价 × 评测 token 估算;见模型详情价格表。
局限
人工样本,不代表 GMV;参数默认档因厂商而异。
📝 电商文案场景评分维度
- •相关性 (25%):文案与产品/场景的匹配程度,是否准确传达产品特性
- •吸引力 (25%):文案的创意和吸引力,是否能激发购买欲望
- •合规性 (25%):避免夸大宣传和违规用语,符合广告法要求
- •长度控制 (25%):符合平台要求,简洁有力
v2 评测:20 条 prompt(5 类商品 × 4 条),快照 2026-05-20,存档路径 archive/runs/2026-05-20/cn-ecom-copy-v2/。 详见项目内 docs/benchmarks/cn-ecom-copy-v2.md。
代码生成场景(预览)
15 prompts:Python/TS 补全、单测、Bug 修复、SQL。四维度:正确性 40%、可读性 25%、边界 20%、效率 15%。 当前为占位分,正式双评委后替换。
文档 docs/benchmarks/cn-code-generation.md · 预览榜
数学推理场景(预览)
12 道中文应用题;答案 50%、步骤 30%、表述 20%。不追求英文 MATH/GSM8K 复刻。
JSON 结构化抽取(预览)
10 条中文非结构化文本 → 固定 schema;字段完整 40%、类型 35%、中文键名 25%。
⚖️ 利益冲突声明
cnaimodel 可能接受赞助,但赞助商不参与评分与排名算法。 所有赞助都会在相应内容中明确标注。