LLMSnare

基于行为的 LLM / AI Agent Benchmark 工具

基于工具调用逻辑,可量化的基准测评

[ BENCHMARK // LIVE ARENA ]

LLMSnare Arena

打开 Arena

[ BENCHMARK // WHAT IT MEASURES ]

测什么,不测什么

ONGOING

持续测回归,不看一次性排名

它持续跑同类 case,适合看模型会不会变懒、上下文读取是否退化,而不是只看一次分数。

SCOPE

不直接测能力上限

它不直接判断编码结果是否准确、数学题是否能做对,或文本输出是否刚好满足某个业务要求。

TOOLS

偏向 tool calling 场景

它主要看 read、write、search 这类工具调用行为。这里分数低,通常说明模型不适合 agent。

LAZY

会查模型是否偷懒

如果模型在读够信息前就开始写,会被扣分。现在不少一线模型会被 nerf,这一项就是为了尽快看出这种变化。

CASE

Case-driven,可自定义标准

标准由 case 里的 prompt、rootfs 和 scoring rule 决定。你可以自己改 case,按不同场景和标准重跑。

LIMITS

这些维度当前不直接衡量

延迟、成本、吞吐、长上下文极限、多工具编排稳定性,以及真实仓库里的副作用控制,目前都不直接算进分数。

EXPLAIN

每次加减分都能解释

每个 case 的加减分都对应明确行为。回看规则,就能知道分数为什么变化。

[ CASES // FAILURE PATTERNS ]

识别的失误行为

Agent 在真实场景中常见的行为失误

P-01

PATTERN 01

还没了解清楚就动手

例如:要求按 style guide 完成写作,但模型根本没先读 style guide 文件,直接开始写,说明它指令跟随不好。
P-02

PATTERN 02

明知是歧路,偏要走

例如:有时候指令有少许错误,但工具调用其实足够把正确上下文找回来;如果它看到正确信息后还坚持原来的错路,就说明恢复能力差。
P-03

PATTERN 03

逻辑陷入在歧义里

例如:模型发现了歧义,但根据上下文能得出正确结论;如果它进行了很多次无效探索,甚至依然错误,则说明行为有问题。

[ UPDATES // RECENT CHANGES ]

更新日志

这里只记影响 benchmark 解读的最近变动。

2026-04-19 23:00 UTC

把更新频率改成每 3 小时一次,并移除 Claude Sonnet 4.5Claude Opus 4.5

2026-04-17 02:00 UTC

新增 Claude Opus 4.7;移除 OpenAI GPT 4.1Claude Haiku 4.5;新增 search_text 工具,并提升了难度。

2026-04-12

新增 Google 的 Gemma 4 31B 和小米的 Mimo v2 Pro 两个模型。

2026-04-11

由于太多模型拿满分,所以提升了难度。

2026-04-10

LLMSnare 线上 benchmark 启动。