LLMSnare

基于行为的 LLM / AI Agent Benchmark 工具

基于工具调用逻辑，可量化的基准测评

下载 GitHub

[ BENCHMARK // LIVE ARENA ]

LLMSnare Arena

打开 Arena

[ BENCHMARK // WHAT IT MEASURES ]

测什么，不测什么

ONGOING

持续测回归，不看一次性排名

它持续跑同类 case，适合看模型会不会变懒、上下文读取是否退化，而不是只看一次分数。

SCOPE

不直接测能力上限

它不直接判断编码结果是否准确、数学题是否能做对，或文本输出是否刚好满足某个业务要求。

TOOLS

偏向 tool calling 场景

它主要看 read、write、search 这类工具调用行为。这里分数低，通常说明模型不适合 agent。

LAZY

会查模型是否偷懒

如果模型在读够信息前就开始写，会被扣分。现在不少一线模型会被 nerf，这一项就是为了尽快看出这种变化。

CASE

Case-driven，可自定义标准

标准由 case 里的 prompt、rootfs 和 scoring rule 决定。你可以自己改 case，按不同场景和标准重跑。

LIMITS

这些维度当前不直接衡量

延迟、成本、吞吐、长上下文极限、多工具编排稳定性，以及真实仓库里的副作用控制，目前都不直接算进分数。

EXPLAIN

每次加减分都能解释

每个 case 的加减分都对应明确行为。回看规则，就能知道分数为什么变化。

[ CASES // FAILURE PATTERNS ]

识别的失误行为

Agent 在真实场景中常见的行为失误

P-01

PATTERN 01

还没了解清楚就动手

例如：要求按 style guide 完成写作，但模型根本没先读 style guide 文件，直接开始写，说明它指令跟随不好。

P-02

PATTERN 02

明知是歧路，偏要走

例如：有时候指令有少许错误，但工具调用其实足够把正确上下文找回来；如果它看到正确信息后还坚持原来的错路，就说明恢复能力差。

P-03

PATTERN 03

逻辑陷入在歧义里

例如：模型发现了歧义，但根据上下文能得出正确结论；如果它进行了很多次无效探索，甚至依然错误，则说明行为有问题。

[ UPDATES // RECENT CHANGES ]

更新日志

这里只记影响 benchmark 解读的最近变动。

2026-05-20 18:30 JST

移除 Grok 4.1；新增 Gemini 3.5 Flash 和 GPT 5.5。

2026-05-07 11:30 JST

新增 DeepSeek V4 Pro 和 DeepSeek V4 Flash。

2026-04-19 23:00 UTC

把更新频率改成每 3 小时一次，并移除 Claude Sonnet 4.5 和 Claude Opus 4.5。

2026-04-17 02:00 UTC

新增 Claude Opus 4.7；移除 OpenAI GPT 4.1 和 Claude Haiku 4.5；新增 search_text 工具，并提升了难度。

2026-04-12

新增 Google 的 Gemma 4 31B 和小米的 Mimo v2 Pro 两个模型。

2026-04-11

由于太多模型拿满分，所以提升了难度。

2026-04-10

LLMSnare 线上 benchmark 启动。