LLMSnare

行動ベースの LLM / AI Agent Benchmark ツール

ツール呼び出しの振る舞いに基づく、定量化可能な Benchmark です。

[ BENCHMARK // LIVE ARENA ]

結果は Arena で見る

Arena を開く

[ BENCHMARK // WHAT IT MEASURES ]

測るもの、測らないもの

ONGOING

単発の順位ではなく、回帰を継続して見る

似た case を継続的に回すので、モデルが怠けるようになったか、文脈の読み方が退化したかを追えます。単発の点数だけを見る benchmark ではありません。

SCOPE

能力上限を直接測るものではない

コード出力が正しいか、数学問題を解けるか、生成テキストが業務要件に合うかを直接判定するものではありません。

TOOLS

tool calling 寄りの benchmark

LLMSnare は read、write、search などのツール呼び出し行動を主に見ます。ここで低得点なら、agent には向かないことが多いです。

LAZY

怠惰な早書きを検出する

十分な情報を読む前に書き始めると減点されます。主要モデルが nerf されたような変化を早めに察知することも、この項目の目的です。

CASE

Case-driven で基準を変えられる

基準は case 内の prompt、rootfs、scoring rule で決まります。自分で case を変えて、別の場面や基準で再実行できます。

LIMITS

今は直接点数に入れていない軸

遅延、コスト、スループット、長文脈の限界、複数ツール編成の安定性、実 repo での副作用制御は、今は直接の採点対象ではありません。

EXPLAIN

加点も減点も理由を追える

各 case の加点と減点は、明示的な行動に結び付いています。ルールを見れば、なぜ点数が動いたかを追えます。

[ CASES // FAILURE PATTERNS ]

識別する失敗行動

Agent が実際の場面で起こしやすい行動上の失敗

P-01

PATTERN 01

十分に把握しないまま手を動かす

たとえば、style guide に沿って書くよう求められているのに、model が style guide のファイルを読まずに書き始める場合です。これは指示追従が弱いことを示します。
P-02

PATTERN 02

誤った道だと分かっていても進む

たとえば、指示に少し誤りがあっても、tool calling だけで正しい文脈は取り戻せることがあります。それでも正しい情報を見たあとに元の誤った道を進み続けるなら、回復力が弱いということです。
P-03

PATTERN 03

曖昧さに論理がはまり込む

たとえば、model が曖昧さに気付いていても、周辺の文脈から正しい結論は出せる場合があります。それでも低価値な探索を何度も続け、なお誤るなら、行動に問題があります。

[ UPDATES // RECENT CHANGES ]

更新ログ

benchmark の読み方に関わる最近の変更だけを載せています。

2026-04-19 23:00 UTC

更新頻度を 3 時間ごとに変更し、Claude Sonnet 4.5Claude Opus 4.5 を削除しました。

2026-04-17 02:00 UTC

Claude Opus 4.7 を追加し、OpenAI GPT 4.1Claude Haiku 4.5 を削除し、新しい search_text ツールを加え、難易度も引き上げました。

2026-04-12

Google の Gemma 4 31B と Xiaomi の Mimo v2 Pro の 2 モデルを追加しました。

2026-04-11

満点を取るモデルが増えたため、難易度を引き上げました。

2026-04-10

LLMSnare のライブ benchmark を開始しました。