CRUXEval

By

maalis 20, 2026
Benchmark

Code reasoning and execution benchmark.

Kärkitulos 89,6 %
Mediaani 89,6 %
Tuloshaitari 89,6 % - 89,6 %

Tulostaulukko

SijaMalliTulosLähde
#1
Codestral Mistral AI
89,6 % Mistral AI · Päivitetty 21.3.2026

Tietoa benchmarkista

Lähde
Mistral AI
Päivitetty
21.3.2026

By