Benchmark

Software engineering benchmark that measures real repository issue resolution.

Kärkitulos 80,8 %
Mediaani 79,6 %
Tuloshaitari 70,8 % - 80,8 %

Tulostaulukko

Näytä myös vanhat mallit (20)

Oletuksena mukana ovat vain ajantasaiset julkiset mallit. Avaa halutessasi myös vanhemmat ja poistuvat rivit.

SijaMalliTulosLähde
#1
Claude Opus 4.6 Anthropic
80,8 % Anthropic · Päivitetty 21.3.2026
#2
Gemini 3.1 Pro Google DeepMind
80,6 % Google · Päivitetty 21.3.2026
#379,6 % Anthropic · Päivitetty 21.3.2026
#4
Claude Haiku 4.5 Anthropic
73,3 % Anthropic · Päivitetty 21.3.2026
#570,8 % xAI · Päivitetty 21.3.2026

Tietoa benchmarkista

Päivitetty
21.3.2026

Testi