BullshitBench

Version

Compare benchmark results, failure patterns, and example responses across benchmark versions.

By Peter Gostev

Domain Scope

Overall

Filters

Search Org Reasoning Technique

Judges: Loading... Loading... Loading...

Outcome:

Variants:

Model visibility

Search models

BullshitBench: Pushing Back on Bullshit by Model

Clear Pushback Partial Challenge Accepted Nonsense

Green rate (%) for each model across the 5 domain groups. Darker green = higher detection. Click any cell to see example responses.

Detection mix by domain to compare overall vs each domain at a glance.

Release date vs. green rate (clear pushback %) for all organizations. Best model per release date shown.

Best per release date only

Every tested model plotted by release date vs. green rate.

Average reasoning tokens used vs. green rate. More reasoning tokens = model "thinking harder".

Public total parameter counts vs. green rate. The x-axis uses a log scale so 8B through 1T remain readable.

Activated parameter counts from public sources vs. green rate. Dense models appear when active parameters equal total.

Rank	Model	Org	Reasoning	Model Size	Green %	Amber %	Red %	Mix	Avg Tokens	Avg Cost	Rows

Average detection rate across all models for each BS technique. Lower = harder for models to detect.

Question Model A Model B View