Toolathlon

By

maalis 21, 2026
Benchmark

Benchmark for tool use and multi-step agent workflows.

Kärkitulos 54,6 %
Mediaani 54,6 %
Tuloshaitari 54,6 % - 54,6 %

Tulostaulukko

Näytä myös vanhat mallit (4)

Oletuksena mukana ovat vain ajantasaiset julkiset mallit. Avaa halutessasi myös vanhemmat ja poistuvat rivit.

SijaMalliTulosLähde
#1
GPT-5.4 OpenAI
54,6 % OpenAI · Päivitetty 21.3.2026

Tietoa benchmarkista

Päivitetty
21.3.2026

By