Humanity’s Last Exam

By

maalis 20, 2026
Benchmark

Humanity's Last Exam mittaa laaja-alaista huipputason päättelyä matematiikasta humanistisiin aloihin. Se on tarkoituksella vaikea, joten erot mallien välillä näkyvät siinä tavallista selvemmin.

Laaja-alainen huipputason päättely
Kärkitulos 48,4 %
Mediaani 36,75 %
Tuloshaitari 8,7 % - 48,4 %

Tulostaulukko

Näytä myös vanhat mallit (20)

Oletuksena mukana ovat vain ajantasaiset julkiset mallit. Avaa halutessasi myös vanhemmat ja poistuvat rivit.

SijaMalliTulosLähde
#1
Gemini 3.1 Deep Think Google DeepMind
48,4 % Google · Päivitetty 21.3.2026
#2
Gemini 3.1 Pro Google DeepMind
44,4 % Google · Päivitetty 21.3.2026
#3
GPT-5.4 pro OpenAI
42,7 % OpenAI · Päivitetty 21.3.2026
#4
Claude Opus 4.6 Anthropic
40 % Anthropic · Päivitetty 21.3.2026
#5
GPT-5.4 OpenAI
39,8 % OpenAI · Päivitetty 21.3.2026
#6
Gemini 3 Flash Google DeepMind
33,7 % Google · Päivitetty 21.3.2026
#733,2 % Anthropic · Päivitetty 21.3.2026
#8
Grok 4 xAI
25,4 % xAI · Päivitetty 21.3.2026
#9
GPT-5 mini OpenAI
16,7 % OpenAI · Päivitetty 21.3.2026
#10
GPT-5 nano OpenAI
8,7 % OpenAI · Päivitetty 21.3.2026

Tietoa benchmarkista

Mitä tämä mittaa
Laaja-alainen huipputason päättely
Päivitetty
21.3.2026

By