Vergelijk
naast elkaar.
2-4 modellen · alle metrics · per benchmark.
← Andere modellen kiezen ↳ Vergelijking
01 Geen modellen geselecteerd
Ga terug naar de Arena en vink 2 tot 4 modellen aan om te vergelijken. Met meer dan 4 wordt het te druk op één scherm.
→ Naar de Arena A De geselecteerde modellen
B Aggregaat-metrics beste = blauw · slechtste = gedimd
C Throughput per benchmark tokens/sec · 9 benches
D Quality-breakdown MMLU-Pro · GPQA-Diamond · HumanEval
E De korte versie