ARC-AGI-3

By

maalis 25, 2026
Benchmark

ARC-AGI-3 mittaa, kuinka hyvin tekoälyagentti oppii uuden interaktiivisen ympäristön säännöt kokeilemalla ja ratkaisee tehtävän ihmisen kaltaisella tehokkuudella.

Kärkitulos 0,26 %
Mediaani 0,23 %
Tuloshaitari 0 % - 0,26 %

Tulostaulukko

SijaMalliTulosLähde
#1
GPT-5.4 OpenAI
0,26 % ARC Prize Leaderboard · Päivitetty 25.3.2026
#2
Claude Opus 4.6 Anthropic
0,23 % ARC Prize Leaderboard · Päivitetty 25.3.2026
#3
Gemini 3.1 Pro Google DeepMind
0,22 % ARC Prize Leaderboard · Päivitetty 25.3.2026
#40 % ARC Prize Leaderboard · Päivitetty 25.3.2026

Tietoa benchmarkista

Lähde
ARC Prize
Päivitetty
25.3.2026

ARC-AGI-3 on ARC Prize Foundationin uusin benchmark, joka siirtää painopisteen staattisista tehtäväkuvista interaktiivisiin ympäristöihin. Malli ei saa valmiita ohjeita oikeasta ratkaisusta, vaan sen pitää päätellä ympäristön toimintalogiikka kokeilemalla, rakentaa toimiva strategia ja mukauttaa toimintaansa palautteen perusteella.

Tämä tekee ARC-AGI-3:sta hyvän testin erityisesti agenttimaiselle päättelylle. Benchmark ei mittaa vain sitä, osaako malli tunnistaa kuvioita, vaan myös sitä, pystyykö se oppimaan täysin uuden "pelin" lennosta, suunnittelemaan useita siirtoja eteenpäin ja korjaamaan hypoteesejaan, jos ensimmäinen idea ei toimi.

Mitä tulokset kertovat?

ARC Prize -leaderboardilla tulos esitetään prosentteina. Nykyiset frontier-mallit ovat ARC-AGI-3:ssa yhä hyvin matalalla tasolla, mikä kertoo benchmarkin vaikeudesta: muutaman kymmenyksenkin tulos voi riittää kärkeen. Siksi tätä benchmarkia kannattaa lukea ennen kaikkea suhteellisena erottelijana siitä, mikä malli näyttää tällä hetkellä parasta interaktiivista ongelmanratkaisua.

Miksi benchmark on kiinnostava?

ARC-AGI-3 täydentää hyvin esimerkiksi ARC-AGI-2:ta. Siinä missä aiempi versio painotti abstraktia päättelyä staattisissa tehtävissä, ARC-AGI-3 testaa, miten hyvin agentti toimii muuttuvassa ympäristössä, jossa eteneminen vaatii kokeiluja, muistia ja strategista mukautumista.

By