SWE-Bench Pro mittaa pitkäkestoisia ohjelmistokehitystehtäviä oikeissa avoimen lähdekoodin koodikannoissa. Se on vaikeampi ja realistisempi koodausbenchmark kuin SWE-Bench Verified, joten erot agenttimallien välillä näkyvät selvemmin.
Tulostaulukko
| Sija | Malli | Tulos | Lähde |
|---|---|---|---|
| #1 | 57,7 % | ||
| #2 | 56,8 % | ||
| #3 | 55,6 % | ||
| #4 | 45,89 % | ||
| #5 | 43,6 % | ||
| #6 | 43,3 % | ||
| #7 | 42,7 % | ||
| #8 | 41,78 % | ||
| #9 | 41,04 % | ||
| #10 | 39,45 % | ||
| #11 | 38,7 % | ||
| #12 | 36,81 % | ||
| #13 | 34,63 % | ||
| #14 | 29,94 % | ||
| #15 | 27,67 % | ||
| #16 | 21,41 % | ||
| #17 | 16,2 % | ||
| #18 | 15,56 % | ||
| #19 | 11,38 % | ||
| #20 | 11,18 % | ||
| #21 | 9,67 % | ||
| #22 | 5,24 % | ||
| #23 | 1,51 % |
Tietoa benchmarkista
- Mitä tämä mittaa
- Pitkäkestoinen ohjelmistokehitys
- Lähde
- Scale Labs
- Päivitetty
- 16.1.2026
- Linkki
- Avaa lähde
SWE-Bench Pro on Scale Labsin benchmark pitkäkestoisille ohjelmistokehitystehtäville avoimissa koodikannoissa. Se on tarkoituksella selvästi vaikeampi kuin SWE-Bench Verified ja mittaa paremmin, miten hyvin agenttimallit selviytyvät monivaiheisista oikean maailman koodaustehtävistä.
Lähdesivun viimeisin julkinen päivitys on 16.1.2026. Scale kertoo samalla sivulla, että useimmat mallit on ajettu uncapped cost -asetuksella ja 250 turnin rajalla, kun taas harmaaksi merkityt rivit on ajettu capped cost -asetuksella ja 50 turnin rajalla.
Scale näyttää omalla sivullaan myös Rank (UB) -sijan, joka ottaa huomioon luottamusvälit. Tällä sivulla tuloslista järjestetään suoraan ratkaisuprosentin mukaan. Sama listaus sisältää lisäksi OpenAI:n 5.3.2026 raportoimat SWE-Bench Pro (Public) -rivit, ja lähde näkyy jokaisella rivillä erikseen.
