GPQA

By

maalis 16, 2026
Benchmark

GPQA mittaa vaikeaa luonnontieteellistä päättelyä asiantuntijatasoisilla kysymyksillä. Se palkitsee harkintaa, ei pelkkää muistia.

Tieteellinen päättely
Kärkitulos 94,4 %
Mediaani 90,15 %
Tuloshaitari 71,2 % - 94,4 %

Tulostaulukko

Näytä myös vanhat mallit (29)

Oletuksena mukana ovat vain ajantasaiset julkiset mallit. Avaa halutessasi myös vanhemmat ja poistuvat rivit.

SijaMalliTulosLähde
#1
GPT-5.4 pro OpenAI
94,4 % OpenAI · Päivitetty 21.3.2026
#2
Gemini 3.1 Pro Google DeepMind
94,3 % Google · Päivitetty 21.3.2026
#3
GPT-5.4 OpenAI
92,8 % OpenAI · Päivitetty 21.3.2026
#4
Claude Opus 4.6 Anthropic
91,3 % Anthropic · Päivitetty 21.3.2026
#5
Gemini 3 Flash Google DeepMind
90,4 % Google · Päivitetty 21.3.2026
#689,9 % Anthropic · Päivitetty 21.3.2026
#7
Grok 4 xAI
87,5 % xAI · Päivitetty 21.3.2026
#8
Gemini 3.1 Flash-Lite Google DeepMind
86,9 % Google · Päivitetty 21.3.2026
#9
GPT-5 mini OpenAI
82,3 % OpenAI · Päivitetty 21.3.2026
#10
GPT-5 nano OpenAI
71,2 % OpenAI · Päivitetty 21.3.2026

Tietoa benchmarkista

Mitä tämä mittaa
Tieteellinen päättely
Päivitetty
21.3.2026

By