LLMSnare Arena

把线上 benchmark 时间线和最近变动放在同一页里看。

[ BENCHMARK // LIVE ARENA ]

线上 Benchmark

看看目前的主流模型的持续 Benchmark 结果

Normalized Scores

[ UPDATES // RECENT CHANGES ]

这里只记影响 benchmark 解读的最近变动。

2026-05-20 18:30 JST

移除 Grok 4.1；新增 Gemini 3.5 Flash 和 GPT 5.5。

2026-05-07 11:30 JST

新增 DeepSeek V4 Pro 和 DeepSeek V4 Flash。

2026-04-19 23:00 UTC

把更新频率改成每 3 小时一次，并移除 Claude Sonnet 4.5 和 Claude Opus 4.5。

2026-04-17 02:00 UTC

新增 Claude Opus 4.7；移除 OpenAI GPT 4.1 和 Claude Haiku 4.5；新增 search_text 工具，并提升了难度。

2026-04-12

新增 Google 的 Gemma 4 31B 和小米的 Mimo v2 Pro 两个模型。

2026-04-11

由于太多模型拿满分，所以提升了难度。

2026-04-10

LLMSnare 线上 benchmark 启动。