tau2-bench Retail

By

maalis 20, 2026
Benchmark

Agent benchmark focused on realistic retail support workflows.

Kärkitulos 91,7 %
Mediaani 90,55 %
Tuloshaitari 89,4 % - 91,7 %

Tulostaulukko

SijaMalliTulosLähde
#191,7 % Anthropic · Päivitetty 21.3.2026
#2
Claude Opus 4.6 Anthropic
89,4 % Anthropic · Päivitetty 21.3.2026

Tietoa benchmarkista

Päivitetty
21.3.2026

By