ONGOING
単発の順位ではなく、回帰を継続して見る
似た case を継続的に回すので、モデルが怠けるようになったか、文脈の読み方が退化したかを追えます。単発の点数だけを見る benchmark ではありません。
[ BENCHMARK // LIVE ARENA ]
[ BENCHMARK // WHAT IT MEASURES ]
ONGOING
似た case を継続的に回すので、モデルが怠けるようになったか、文脈の読み方が退化したかを追えます。単発の点数だけを見る benchmark ではありません。
SCOPE
コード出力が正しいか、数学問題を解けるか、生成テキストが業務要件に合うかを直接判定するものではありません。
TOOLS
LLMSnare は read、write、search などのツール呼び出し行動を主に見ます。ここで低得点なら、agent には向かないことが多いです。
LAZY
十分な情報を読む前に書き始めると減点されます。主要モデルが nerf されたような変化を早めに察知することも、この項目の目的です。
CASE
基準は case 内の prompt、rootfs、scoring rule で決まります。自分で case を変えて、別の場面や基準で再実行できます。
LIMITS
遅延、コスト、スループット、長文脈の限界、複数ツール編成の安定性、実 repo での副作用制御は、今は直接の採点対象ではありません。
EXPLAIN
各 case の加点と減点は、明示的な行動に結び付いています。ルールを見れば、なぜ点数が動いたかを追えます。
[ CASES // FAILURE PATTERNS ]
Agent が実際の場面で起こしやすい行動上の失敗
PATTERN 01
PATTERN 02
PATTERN 03
[ UPDATES // RECENT CHANGES ]
benchmark の読み方に関わる最近の変更だけを載せています。
2026-04-19 23:00 UTC
2026-04-17 02:00 UTC
search_text ツールを加え、難易度も引き上げました。2026-04-12
2026-04-11
2026-04-10