ARC-AGI-3 mittaa, kuinka hyvin tekoälyagentti oppii uuden interaktiivisen ympäristön säännöt kokeilemalla ja ratkaisee tehtävän ihmisen kaltaisella tehokkuudella.
Tulostaulukko
| Sija | Malli | Tulos | Lähde |
|---|---|---|---|
| #1 | 0,26 % | ||
| #2 | 0,23 % | ||
| #3 | 0,22 % | ||
| #4 | 0 % |
Tietoa benchmarkista
- Lähde
- ARC Prize
- Päivitetty
- 25.3.2026
- Linkki
- Avaa lähde
ARC-AGI-3 on ARC Prize Foundationin uusin benchmark, joka siirtää painopisteen staattisista tehtäväkuvista interaktiivisiin ympäristöihin. Malli ei saa valmiita ohjeita oikeasta ratkaisusta, vaan sen pitää päätellä ympäristön toimintalogiikka kokeilemalla, rakentaa toimiva strategia ja mukauttaa toimintaansa palautteen perusteella.
Tämä tekee ARC-AGI-3:sta hyvän testin erityisesti agenttimaiselle päättelylle. Benchmark ei mittaa vain sitä, osaako malli tunnistaa kuvioita, vaan myös sitä, pystyykö se oppimaan täysin uuden "pelin" lennosta, suunnittelemaan useita siirtoja eteenpäin ja korjaamaan hypoteesejaan, jos ensimmäinen idea ei toimi.
Mitä tulokset kertovat?
ARC Prize -leaderboardilla tulos esitetään prosentteina. Nykyiset frontier-mallit ovat ARC-AGI-3:ssa yhä hyvin matalalla tasolla, mikä kertoo benchmarkin vaikeudesta: muutaman kymmenyksenkin tulos voi riittää kärkeen. Siksi tätä benchmarkia kannattaa lukea ennen kaikkea suhteellisena erottelijana siitä, mikä malli näyttää tällä hetkellä parasta interaktiivista ongelmanratkaisua.
Miksi benchmark on kiinnostava?
ARC-AGI-3 täydentää hyvin esimerkiksi ARC-AGI-2:ta. Siinä missä aiempi versio painotti abstraktia päättelyä staattisissa tehtävissä, ARC-AGI-3 testaa, miten hyvin agentti toimii muuttuvassa ympäristössä, jossa eteneminen vaatii kokeiluja, muistia ja strategista mukautumista.
