BullshitBench, le test qui révèle les vraies limites des modèles d’IA

Un BS Benchmark teste la capacité des IA à rejeter les questions sans sens. Claude domine, ChatGPT échoue. 70 modèles d’IA testés sur des questions absurdes. Seuls 2 dépassent 60% de rejet.

Source