ONGOING
持续测回归,不看一次性排名
它持续跑同类 case,适合看模型会不会变懒、上下文读取是否退化,而不是只看一次分数。
[ BENCHMARK // LIVE ARENA ]
[ BENCHMARK // WHAT IT MEASURES ]
ONGOING
它持续跑同类 case,适合看模型会不会变懒、上下文读取是否退化,而不是只看一次分数。
SCOPE
它不直接判断编码结果是否准确、数学题是否能做对,或文本输出是否刚好满足某个业务要求。
TOOLS
它主要看 read、write、search 这类工具调用行为。这里分数低,通常说明模型不适合 agent。
LAZY
如果模型在读够信息前就开始写,会被扣分。现在不少一线模型会被 nerf,这一项就是为了尽快看出这种变化。
CASE
标准由 case 里的 prompt、rootfs 和 scoring rule 决定。你可以自己改 case,按不同场景和标准重跑。
LIMITS
延迟、成本、吞吐、长上下文极限、多工具编排稳定性,以及真实仓库里的副作用控制,目前都不直接算进分数。
EXPLAIN
每个 case 的加减分都对应明确行为。回看规则,就能知道分数为什么变化。
[ CASES // FAILURE PATTERNS ]
Agent 在真实场景中常见的行为失误
PATTERN 01
PATTERN 02
PATTERN 03
[ UPDATES // RECENT CHANGES ]
这里只记影响 benchmark 解读的最近变动。
2026-04-19 23:00 UTC
2026-04-17 02:00 UTC
search_text 工具,并提升了难度。2026-04-12
2026-04-11
2026-04-10