Benchmark

SWE-Bench Pro mittaa pitkäkestoisia ohjelmistokehitystehtäviä oikeissa avoimen lähdekoodin koodikannoissa. Se on vaikeampi ja realistisempi koodausbenchmark kuin SWE-Bench Verified, joten erot agenttimallien välillä näkyvät selvemmin.

Pitkäkestoinen ohjelmistokehitys
Kärkitulos 57,7 %
Mediaani 36,81 %
Tuloshaitari 1,51 % - 57,7 %

Tulostaulukko

SijaMalliTulosLähde
#1
GPT-5.4 OpenAI
57,7 % OpenAI · Päivitetty 5.3.2026
#256,8 % OpenAI · Päivitetty 5.3.2026
#3
GPT-5.2 OpenAI
55,6 % OpenAI · Päivitetty 5.3.2026
#4
Claude Opus 4.5 Anthropic
45,89 % Scale Labs · Päivitetty 16.1.2026
#543,6 % Scale Labs · Päivitetty 16.1.2026
#6
Gemini 3 Pro Preview Google DeepMind
43,3 % Scale Labs · Päivitetty 16.1.2026
#7
Claude Sonnet 4 Anthropic
42,7 % Scale Labs · Päivitetty 16.1.2026
#8
GPT-5 (High) OpenAI
41,78 % Scale Labs · Päivitetty 16.1.2026
#941,04 % Scale Labs · Päivitetty 16.1.2026
#10
Claude Haiku 4.5 Anthropic
39,45 % Scale Labs · Päivitetty 16.1.2026
#1138,7 % Scale Labs · Päivitetty 16.1.2026
#12
MiniMax 2.1 MiniMax
36,81 % Scale Labs · Päivitetty 16.1.2026
#13
Gemini 3 Flash Google DeepMind
34,63 % Scale Labs · Päivitetty 16.1.2026
#14
GPT-5.2 OpenAI
29,94 % Scale Labs · Päivitetty 16.1.2026
#15
Kimi K2 Instruct Moonshot AI
27,67 % Scale Labs · Päivitetty 16.1.2026
#1621,41 % Scale Labs · Päivitetty 16.1.2026
#17
GPT-OSS-120B OpenAI
16,2 % Scale Labs · Päivitetty 16.1.2026
#18
DeepSeek V3.2 DeepSeek
15,56 % Scale Labs · Päivitetty 16.1.2026
#19
Gemma 3 27B IT Google DeepMind
11,38 % Scale Labs · Päivitetty 16.1.2026
#2011,18 % Scale Labs · Päivitetty 16.1.2026
#21
GLM-4.6 Zhipu AI
9,67 % Scale Labs · Päivitetty 16.1.2026
#225,24 % Scale Labs · Päivitetty 16.1.2026
#23
Codestral Mistral AI
1,51 % Scale Labs · Päivitetty 16.1.2026

Tietoa benchmarkista

Mitä tämä mittaa
Pitkäkestoinen ohjelmistokehitys
Lähde
Scale Labs
Päivitetty
16.1.2026

SWE-Bench Pro on Scale Labsin benchmark pitkäkestoisille ohjelmistokehitystehtäville avoimissa koodikannoissa. Se on tarkoituksella selvästi vaikeampi kuin SWE-Bench Verified ja mittaa paremmin, miten hyvin agenttimallit selviytyvät monivaiheisista oikean maailman koodaustehtävistä.

Lähdesivun viimeisin julkinen päivitys on 16.1.2026. Scale kertoo samalla sivulla, että useimmat mallit on ajettu uncapped cost -asetuksella ja 250 turnin rajalla, kun taas harmaaksi merkityt rivit on ajettu capped cost -asetuksella ja 50 turnin rajalla.

Scale näyttää omalla sivullaan myös Rank (UB) -sijan, joka ottaa huomioon luottamusvälit. Tällä sivulla tuloslista järjestetään suoraan ratkaisuprosentin mukaan. Sama listaus sisältää lisäksi OpenAI:n 5.3.2026 raportoimat SWE-Bench Pro (Public) -rivit, ja lähde näkyy jokaisella rivillä erikseen.

By