Benchmark
Benchmark for tool use and multi-step agent workflows.
Kärkitulos 54,6 %
Mediaani 54,6 %
Tuloshaitari 54,6 % - 54,6 %
Tulostaulukko
| Sija | Malli | Tulos | Lähde |
|---|---|---|---|
| #1 | 54,6 % |
Tietoa benchmarkista
- Päivitetty
- 21.3.2026
Benchmark for tool use and multi-step agent workflows.
Oletuksena mukana ovat vain ajantasaiset julkiset mallit. Avaa halutessasi myös vanhemmat ja poistuvat rivit.
| Sija | Malli | Tulos | Lähde |
|---|---|---|---|
| #1 | GPT-5.4 OpenAI | 54,6 % | OpenAI · Päivitetty 21.3.2026 |