Benchmark
HumanEval mittaa toimivan koodin tuottamista ohjelmointitehtävissä. Tulos kertoo ennen kaikkea koodigeneroinnin käytännön osuvuudesta.
Koodigenerointi
Kärkitulos 86,6 %
Mediaani 86,6 %
Tuloshaitari 86,6 % - 86,6 %
Tulostaulukko
| Sija | Malli | Tulos | Lähde |
|---|---|---|---|
| #1 | 86,6 % |
Tietoa benchmarkista
- Mitä tämä mittaa
- Koodigenerointi
- Päivitetty
- 21.3.2026
- Linkki
- Avaa lähde
