Qwen-3.6-35B-A3B
De BF16-baseline van het 35B-A3B-MoE, schoner referentiepunt zonder quantisatie-twijfel. Op chat haal je ongeveer de helft van wat de FP8-versie doet, op 25k context idem dito. De 3B active-parameters helpen, maar bandwidth-gebonden decode betaalt de volle BF16-prijs. 70 GB aan weights laat weinig over voor KV-cache, dus voor lange context wordt het krap. Goed startpunt voor accuracy-werk, voor productie pak je gewoon de FP8-variant.
De quality-component van de Arena-score. Niet zelf gemeten, uit de officiële model-cards van de vendor. Voor cross-model vergelijking met consistente eval-harness is Artificial Analysis een nuttige derde partij. Het gemiddelde van de drie benchmarks komt 1-op-1 in de Score-formule terug (zwaarder gewogen in Aggregaat/Agent, lichter in Batch).
5 closed-loop tests met llama-benchy en 4 open-loop tests met vllm bench serve. Per benchmark de tokens/sec (decode throughput) en TTFT p50. TTFT vertaalt direct in UX-gevoel, tps in capaciteit. Klap "view command" uit voor het exacte commando.
Chat
Korte prompt, lang antwoord. De vorm die als normale chat moet aanvoelen, TTFT bepaalt of het "snappy" is.
RAG · 8k context
Middelgrote context, een paar documentchunks met antwoord van normale lengte. Toont prefill-kosten zonder de muur te raken.
Lange output / agents
Korte instructie, veel output. Code-generation, rapporten of gestructureerde agent-output. Stress-test voor decode throughput.
Grote context · 25k
Stress-test met grote prompts. Niet per se chatmateriaal, wel exact waar de prefill-muur zichtbaar wordt en TTFT instort.
Multi-turn · kantoorwerk
Vijf beurten per gesprek, tien gesprekken parallel. Dicht bij hoe een team dit echt gebruikt, met groeiende context per turn.
Realistische kantoor-baseline
Random dataset · 4000 tokens in, 500 tokens uit · request-rate 0.3, burstiness 0.7. Een rustig kantoor.
Echte gesprekken · ShareGPT
ShareGPT V3 · gemiddeld 228 tokens per turn · natuurlijk variërend per gesprek. Wat real users doen, niet een synthetische random distributie.
Maandagochtend-piek
Random · 4000 in / 500 uit · request-rate 1.5 req/s, burstiness 1.0, max 25 parallel. Wanneer iedereen tegelijk inlogt, zien we de queue groeien?
Reasoning workload
Lange chain-of-thought outputs · 1k in / 4k uit · trage rate (0.2 req/s) want elke request kost veel decode-budget. Test of TTFT stabiel blijft.
Schoon referentiepunt zonder quant-twijfel
Geen vraag of edge-case-Python lijdt onder quantisatie. Voor accuracy-kritieke evals het schone vertrekpunt voordat je naar FP8 of NVFP4 stapt.
Bijna helft van FP8-snelheid
Chat 8.4 vs 14.9 t/s/user, 25k context 4.85 vs 8.1. Bandwidth-bound decode betaalt de volle BF16-prijs, ook al zijn maar 3B params actief.
70 GB weights op 128 GB unified
Laat circa 50 GB voor KV-cache. Voor 25k met c=10 zit je krap. FP8 (38 GB) of NVFP4 zou hier veel meer ademruimte geven.
A3B helpt ook in BF16
Ondanks bandwidth-belasting houdt decode/user beter stand dan een 35B-dense in BF16 zou doen. Active-parameter winst is niet alleen een FP8-truc.