HumanEval

By

maalis 16, 2026
Benchmark

HumanEval mittaa toimivan koodin tuottamista ohjelmointitehtävissä. Tulos kertoo ennen kaikkea koodigeneroinnin käytännön osuvuudesta.

Koodigenerointi
Kärkitulos 86,6 %
Mediaani 86,6 %
Tuloshaitari 86,6 % - 86,6 %

Tulostaulukko

Näytä myös vanhat mallit (6)

Oletuksena mukana ovat vain ajantasaiset julkiset mallit. Avaa halutessasi myös vanhemmat ja poistuvat rivit.

SijaMalliTulosLähde
#1
Codestral Mistral AI
86,6 % Mistral AI · Päivitetty 21.3.2026

Tietoa benchmarkista

Mitä tämä mittaa
Koodigenerointi
Päivitetty
21.3.2026

By