tau2-bench Telecom

By

maalis 20, 2026
Benchmark

Agent benchmark focused on realistic telecom support workflows.

Kärkitulos 100 %
Mediaani 98,65 %
Tuloshaitari 97,9 % - 100 %

Tulostaulukko

Näytä myös vanhat mallit (4)

Oletuksena mukana ovat vain ajantasaiset julkiset mallit. Avaa halutessasi myös vanhemmat ja poistuvat rivit.

SijaMalliTulosLähde
#1100 % xAI · Päivitetty 21.3.2026
#2
GPT-5.4 OpenAI
98,9 % OpenAI · Päivitetty 21.3.2026
#3
Claude Opus 4.6 Anthropic
98,4 % Anthropic · Päivitetty 21.3.2026
#497,9 % Anthropic · Päivitetty 21.3.2026

Tietoa benchmarkista

Päivitetty
21.3.2026

By