Tekoälytieto logo
💬 Keskustele aiheesta
Tekoälytiedon foorumilla

Toisen ja kolmannen vuosineljänneksen 2025 aikana tekoälymallien kehitys kiihtyi ennennäkemättömän vauhdikkaaksi. Googlen uuden nahkan luonti Gemini 2.5 Pro -mallilla ja Elon Muskin XAI-yhtiön Grok 4, nostivat nämä yhtiöt OpenAI:n rinnalle kärkikolmikkoon. XAi on nyt Grok-mallillaan johtavien tekoäly-yhtiöiden joukossa myös objektiivisilla mittareilla, eikä pelkästään toimitusjohtajansa omissa tarinoissa.

Humanity’s Last Exam -benchmark testin tavoitteena on arvioida, miten lähelle asiantuntijatasoa nykyiset tekoälymallit (LLM) pääsevät haastavissa ja suljetuissa kysymyksissä, jotka ulottuvat historiasta, matematiikan ja luonnontieteiden kautta lingvistiikkaan sekä yleistietoon. Tulokset osoittavat, että moni malleista yltää vielä varsin keskinkertaiseen suoritukseen.

USA:n mallit hallitsevat Humanity’s Last Exam ‑testin tuloslistaa: Grok 4 Heavy (44,4 %) ja Grok 4 työkalujen kanssa (38,6 %) ovat selvässä johdossa. Niitä seuraavat OpenAI:n O3 Deep Research (26,6 %), Grok 4 (25,4 %) ja O3 Pro (24,9 %). Gemini 2,5 Pro (21,1 %) ja O3 (20,0 %) jatkavat tiiviissä kilpailussa.

HLE-tuloskaavio (USA kolmoisjohdossa)

HLE-tulokset kesällä 2025

2025 vuoden aikana useat mallit rikkoivat aiemmat tulosennätykset. OpenAI:n O3 Pro ‑malli ylsi 24,9 % tulokseen, ja O3 mini ‑malli 13 %:iin. Aiemmin keväällä yhtiön monivaiheinen O3 Deep Research ‑agentti kohosi listan kärkeen 26,6 % tuloksella, kun taas Grok 4 saavutti 25,4 % ilman työkaluja. Raskaampi Grok 4 Heavy ‑versio kipusi 44,4 % tulokseen, ja sama malli työkalujen kanssa paransi 38,6 % tulokseen. Tulokset osoittavat, kuinka nopeasti agenttien ja työkalujen lisääminen parantaa mallien suoritusta. O1 Pro ‑mallin arvioitu 8 % tulos ja monet pienemmät mallit jäävät selvästi kärjen taakse.

Keskeiset trendit

Päättely ja koodaus: Vuoden 2025 aikana LLM-mallit ovat edistyneet huomattavasti monimutkaisessa päättelyssä ja koodauksessa. Grok 4:n 88 % GPQA-tulos, Gemini 2.5 Pro:n 84 % GPQA-tulos ja GPT‑4.5 Orionin 85 % MMLU-Pro-tulos osoittavat, että huipputasolla erot ovat pieniä, mutta toiminnot ovat laajentuneet esimerkiksi koodauspohjaisiin työtehtäviin.

Monimodaalisuus ja kontekstin pituus: Suuret kielimallit eivät enää rajoitu pelkkään tekstiin. Gemini 2.5 Pro tulkitsee tekstiä, kuvia, ääntä ja videoita ja tarjoaa ennätyksellisen miljoonan tokenin kontekstin. Pitkien asiakirjojen analysointi yhdellä syötteellä helpottuu, ja tulevaisuudessa multimodaalinen tuki laajenee kohti videoita ja striimattua dataa.

Kustannus vs. suorituskyky: Huippumallit eroavat hinnaltaan. Gemini 2.5 Pro maksaa noin 2 dollaria per miljoona ulostulo-tokenia, kun GPT‑4o:n hinta on noin dollaria. Kesäkatsauksissa huomautettiin myös, että Gemini Flash on yksi halvimmista, mutta hitaista vaihtoehdoista, kun taas DeepSeek on erittäin nopea mutta hieman vähemmän kyvykäs.

Nousijat ja yllättäjät

Kesäkuussa 2025 huomion varasti Moonshot AI:n Kimi K2, joka voitti luovan kirjoittamisen benchmarkit ja ohitti niin DeepSeek v3:n kuin Gemini 2.5 Pro:n. Vaikka malli ei vielä kilpaile suurimpien kanssa päättelytehtävissä, se osoittaa, että kevyemmät agenttimallit voivat erikoistua tietyille alueille ja saavuttaa niissä huipputason suorituskyvyn.

Vaikutukset käyttäjille ja kehittäjille

Käyttäjille kasvava mallikirjo tuo valinnan vaikeutta. Pienissä projekteissa DeepSeek ja Kimi voivat tarjota kustannustehokkaan ratkaisun, kun taas tutkimuksessa ja monimutkaisissa ohjelmointitehtävissä O3 Pro, Gemini 2.5 Pro ja Grok 4 Heavy tarjoavat syvemmän analyysin. Kehittäjät joutuvat tasapainottelemaan hintojen, latenssin ja tarkkuuden välillä; esimerkiksi agenttipohjaiset mallit, kuten O3 Deep Research ja Grok 4 Heavy, ovat hitaampia mutta selkeästi älykkäämpiä.

Q4/2025 tulee olemaan mielenkiintonen

On mielenkiintoista nähdä millaisen tuloksen OpenAI nokittaa GPT-5 mallillaan. Tällä hetkellä kärki on tasainen ja suuria eroja lippulaivamallien välille ei ole tällä hetkellä helppoa löytää. Mitä tekee puolestaan Google? Entä kiinalaiset yhtiöt, nousevatko ne takaisin haastamaan amerikkalaisia perivihollisiaan?

Benchmark -opas tulossa

Tekoälytieto tulee jatkossa julkaisemaan opasartikkelin, jossa käydään läpi eri testien taustaa, vertailukriteereitä ja pisteytysjärjestelmiä. Siinä pureudutaan tarkemmin muun muassa Humanity’s Last Examin, sekä muiden ajankohtaisten testien tuloksiin. Bencmark-katsauksestamme saat siis helposti ajantasaisen ja puolueettoman näkemyksen siitä, mikä tekoälytyökalu on tällä hetkellä markkinoiden paras.

💬 Keskustele aiheesta
Tekoälytiedon foorumilla