Google sekä Gemini 2,5 Pro yllättivät
Google on ollut AI-kielimallikilvassa hieman jälkijunassa, mutta viimein Alphabetin väki sai valoa risukasaan, kun Gemini 2.5 pro siirtyi Humanity´s Last Exam -benchmarkin kärkeen. Humanity’s Last Exam -benchmark testin tavoitteena on arvioida, miten lähelle asiantuntijatasoa nykyiset tekoälymallit (LLM) pääsevät haastavissa ja suljetuissa kysymyksissä, jotka ulottuvat historiasta, matematiikan ja luonnontieteiden kautta lingvistiikkaan sekä yleistietoon. Tulokset osoittavat, että moni malleista yltää vielä varsin keskinkertaiseen suoritukseen.

Erityisesti Gemini 2,5 -malli on vakuuttanut tehollaan ja nopeudellaan.
Twitterissä Alex Volkov (Thursd/AI) (@altryne) hehkuttaa mallin suoritusta:
Wow wow, Gemini 2.5 is absolutely crushing it on the Thinking Benchmark with tough questions!
Not only is this model getting the highest score on these I’ve tested so far, but also,
look at that incredible latency difference! This model is SO much faster than DeepSeek R1 & o3
Vaikka Gemini 2.5 pro saavutti erinomaisia tuloksia tiettyjen “Thinking Benchmark” -testien osalta, Humanity’s Last Exam -datassa sen kalibrointi (mitä varmemmaksi malli ilmoittautuu, sitä useammin se onkin väärässä) on edelleen haaste. Monella muullakin huippumallilla on sama ongelma: ne vastaavat liian suurella itsevarmuudella, mutta tulos jää kuitenkin tarkkuuden osalta vaisuksi.
OpenAI:n O1 Pro ja Deep Researchin mallit
Vaikka Humanity’s Last Examin virallista tulosta ei ole vielä julkaistu OpenAI:n O1 Pro- ja Deep Researchin uusista huippumalleista, ennakotietojen mukaan ne ovat menestyneet erittäin hyvin epävirallisissa testeissä. Muutamien twiittaajien mukaan ne päihittävät Googlen Gemini 2.5 -malli haastavissa erikoisaloihin liittyvissä kysymyksissä. Kuten vertailusta voidaan todeta, myös Grok-3 ja DeepSeek-R1 pärjäävät testissä hyvin, mutta eivät kuitenkaan ole selkeästi tekoälymaailman parhaita työkaluja, toisin kuin taustavoimansa haluavat väittää. Tekoälytieto alkaa seuraamaan Benchmark -vertailutilannetta säännöllisesti, jotta pysyt ajan tasalla siitä, mikä malli pärjää parhaiten erilaisissa testiasetelmissa.
Tulossa benchmark-opas
Tekoälytieto tulee jatkossa julkaisemaan opasartikkelin, jossa käydään läpi eri testien taustaa, vertailukriteereitä ja pisteytysjärjestelmiä. Siinä pureudutaan tarkemmin muun muassa Humanity’s Last Examin, sekä muiden ajankohtaisten testien tuloksiin. Bencmark-katsauksestamme saat siis helposti ajantasaisen ja puolueettoman näkemyksen siitä, mikä tekoälytyökalu on tällä hetkellä markkinoiden paras.
Yhteenveto
Tekoälytiedon foorumilla

