OSWorld Verified

By

maalis 20, 2026
Benchmark

Computer use benchmark for desktop and operating-system task completion.

Kärkitulos 75 %
Mediaani 72,7 %
Tuloshaitari 72,5 % - 75 %

Tulostaulukko

Näytä myös vanhat mallit (2)

Oletuksena mukana ovat vain ajantasaiset julkiset mallit. Avaa halutessasi myös vanhemmat ja poistuvat rivit.

SijaMalliTulosLähde
#1
GPT-5.4 OpenAI
75 % OpenAI · Päivitetty 21.3.2026
#2
Claude Opus 4.6 Anthropic
72,7 % Anthropic · Päivitetty 21.3.2026
#372,5 % Anthropic · Päivitetty 21.3.2026

Tietoa benchmarkista

Päivitetty
21.3.2026

By