BullshitBench v2

By

maalis 26, 2026
Benchmark

BullshitBench v2 mittaa, tunnistaako malli tarkoituksella virheellisen tai ristiriitaisen pyynnön ja osaako se sanoa selkeästi vastaan sen sijaan, että jatkaisi väärän oletuksen pohjalta.

Kärkitulos 89 %
Mediaani 45 %
Tuloshaitari 2 % - 89 %

Tulostaulukko

Näytä myös vanhat mallit (19)

Oletuksena mukana ovat vain ajantasaiset julkiset mallit. Avaa halutessasi myös vanhemmat ja poistuvat rivit.

SijaMalliTulosLähde
#189 % BullshitBench v2 · Päivitetty 17.3.2026
#2
Claude Opus 4.6 Anthropic
83 % BullshitBench v2 · Päivitetty 17.3.2026
#3
Claude Haiku 4.5 Anthropic
71 % BullshitBench v2 · Päivitetty 17.3.2026
#467 % BullshitBench v2 · Päivitetty 17.3.2026
#556 % BullshitBench v2 · Päivitetty 17.3.2026
#6
GPT-5.4 OpenAI
48 % BullshitBench v2 · Päivitetty 17.3.2026
#7
GPT-5.4 pro OpenAI
42 % BullshitBench v2 · Päivitetty 17.3.2026
#8
GPT-5 Codex OpenAI
39 % BullshitBench v2 · Päivitetty 17.3.2026
#9
Gemini 3.1 Pro Google DeepMind
37 % BullshitBench v2 · Päivitetty 17.3.2026
#10
Gemini 3.1 Flash-Lite Google DeepMind
11 % BullshitBench v2 · Päivitetty 17.3.2026
#1110 % BullshitBench v2 · Päivitetty 17.3.2026
#12
Mistral Large 3 Mistral AI
2 % BullshitBench v2 · Päivitetty 17.3.2026

Tietoa benchmarkista

Lähde
BullshitBench
Päivitetty
17.3.2026

BullshitBench v2 testaa mallin kykyä pysäyttää tilanne silloin, kun käyttäjän pyyntö on tarkoituksella rikkinäinen, ristiriitainen tai muuten vailla järkevää perustaa. Hyvä malli ei tällöin lähde itsevarmasti jatkamaan virheellisen oletuksen päältä, vaan huomauttaa ongelmasta selvästi ja ohjaa keskustelun takaisin oikeille raiteille.

Tekoälytiedossa näytämme BullshitBenchin julkisen v2-version Clear Pushback -tuloksen. Se kertoo käytännössä, kuinka usein malli sanoo hölynpölylle napakasti vastaan sen sijaan, että se yrittäisi miellyttää käyttäjää väärällä tai harhaanjohtavalla vastauksella.

Miten tulosta kannattaa lukea?

Korkeampi prosentti on tässä benchmarkissa parempi. Se ei tarkoita, että malli olisi kaikessa "älykkäämpi", vaan että se on varovaisempi ja luotettavampi tilanteissa, joissa käyttäjän lähtöoletus on selvästi pielessä. Siksi BullshitBench täydentää hyvin perinteisiä päättely- ja koodausbenchmarkeja: se mittaa erityisesti mallin kykyä olla menemättä mukaan virheeseen.

By