Benchmark-hubi

Benchmark-hubi kokoaa kaikki julkaistut benchmark-sivut ja niiden validoidut tulosrivit yhteen näkymään.

Esikatselussa näytetään jokaisesta benchmarkista vain kärkiosa. Varsinaiselta benchmark-sivulta näet koko tulostaulukon.

35 benchmarkia 123 validoitua tulosriviä
Näytä myös vanhat mallit (229)

Avaa tarvittaessa mukaan myös vanhemmat ja poistuvat mallit benchmark-esikatseluihin.

Aider Polyglot

Coding benchmark focused on multi-language editing performance.

Score (%)
SijaMalliYhtiöTulos
Ei julkaistuja rivejä tässä benchmarkissa.

Näytä kaikki tulokset | 21.3.2026

AIME 2024

Advanced mathematical reasoning benchmark based on AIME 2024.

Score (%)
SijaMalliYhtiöTulos
Ei julkaistuja rivejä tässä benchmarkissa.

Näytä kaikki tulokset | 21.3.2026

AIME 2025

AIME 2025 mittaa olympiatason matemaattista ongelmanratkaisua. Se on hyvä signaali mallin kyvystä ratkaista vaikeita monivaiheisia tehtäviä.

Score (%) 3 julkaistua mallia
SijaMalliYhtiöTulos
#1 Grok 4xAI91,7 %
#2 GPT-5 miniOpenAI91,1 %
#3 GPT-5 nanoOpenAI85,2 %

Näytä kaikki tulokset | 21.3.2026

ARC-AGI-3

ARC-AGI-3 mittaa, kuinka hyvin tekoälyagentti oppii uuden interaktiivisen ympäristön säännöt kokeilemalla ja ratkaisee tehtävän ihmisen kaltaisella tehokkuudella.

Score (%) 4 julkaistua mallia
SijaMalliYhtiöTulos
#1 GPT-5.4OpenAI0,26 %
#2 Claude Opus 4.6Anthropic0,23 %
#3 Gemini 3.1 ProGoogle DeepMind0,22 %

Näytä kaikki tulokset | 25.3.2026

GPQA

GPQA mittaa vaikeaa luonnontieteellistä päättelyä asiantuntijatasoisilla kysymyksillä. Se palkitsee harkintaa, ei pelkkää muistia.

Score (%) 10 julkaistua mallia
SijaMalliYhtiöTulos
#1 GPT-5.4 proOpenAI94,4 %
#2 Gemini 3.1 ProGoogle DeepMind94,3 %
#3 GPT-5.4OpenAI92,8 %

Näytä kaikki tulokset | 21.3.2026

HumanEval

HumanEval mittaa toimivan koodin tuottamista ohjelmointitehtävissä. Tulos kertoo ennen kaikkea koodigeneroinnin käytännön osuvuudesta.

Score (%) 1 julkaistu malli
SijaMalliYhtiöTulos
#1 CodestralMistral AI86,6 %

Näytä kaikki tulokset | 21.3.2026

MMLU-Pro

Harder MMLU variant focused on expert-level knowledge and reasoning.

Score (%)
SijaMalliYhtiöTulos
Ei julkaistuja rivejä tässä benchmarkissa.

Näytä kaikki tulokset | 21.3.2026

MMMU

Multimodal benchmark for advanced visual and textual reasoning.

Score (%)
SijaMalliYhtiöTulos
Ei julkaistuja rivejä tässä benchmarkissa.

Näytä kaikki tulokset | 21.3.2026

SWE-Bench Pro (julkinen aineisto)

SWE-Bench Pro mittaa pitkäkestoisia ohjelmistokehitystehtäviä oikeissa avoimen lähdekoodin koodikannoissa. Se on vaikeampi ja realistisempi koodausbenchmark kuin SWE-Bench Verified, joten erot agenttimallien välillä näkyvät selvemmin.

Ratkaisuprosentti (%) 23 julkaistua mallia
SijaMalliYhtiöTulos
#1 GPT-5.4OpenAI57,7 %
#2 GPT-5.3 CodexOpenAI56,8 %
#3 GPT-5.2OpenAI55,6 %

Näytä kaikki tulokset | 16.1.2026