Normalized Scores
LLMSnare Arena
把线上 benchmark 时间线和最近变动放在同一页里看。
[ BENCHMARK // LIVE ARENA ]
线上 Benchmark
看看目前的主流模型的持续 Benchmark 结果
筛选维度
比较模型
手工挑几个模型做对比。最多 5 个。
[ UPDATES // RECENT CHANGES ]
更新日志
这里只记影响 benchmark 解读的最近变动。
2026-04-19 23:00 UTC
把更新频率改成每 3 小时一次,并移除 Claude Sonnet 4.5 和 Claude Opus 4.5。
2026-04-17 02:00 UTC
新增 Claude Opus 4.7;移除 OpenAI GPT 4.1 和 Claude Haiku 4.5;新增
search_text 工具,并提升了难度。2026-04-12
新增 Google 的 Gemma 4 31B 和小米的 Mimo v2 Pro 两个模型。
2026-04-11
由于太多模型拿满分,所以提升了难度。
2026-04-10
LLMSnare 线上 benchmark 启动。