Qwen-3.6-27B
Dense 27B betekent: alle parameters doen mee per token, en dat zie je terug in decode. Op chat haal je 7 tokens per gebruiker, op 25k context tikt TTFT de minuut aan. Onder maandagochtend-piek stapelt de queue tot 160 parallelle requests, achieved RPS valt terug naar 0.16. Op kwaliteit (MMLU 86, HumanEval 84) is 'ie top, alleen op deze hardware betaal je dat met geduld. Voor incidentele zware taken prima, voor doorlopende werklast pak je beter een MoE.
La composante quality de l'Arena score. Pas mesurée par moi, issue des model cards officielles du vendor. Pour une comparaison cross-model avec un eval harness cohérent, Artificial Analysis est un tiers utile. La moyenne des trois benchmarks entre une à une dans la formule du Score (pondérée plus lourd en Aggregate/Agent, plus léger en Batch).
5 tests closed-loop avec llama-benchy et 4 tests open-loop avec vllm bench serve. Par benchmark les tokens/sec (decode throughput) et le TTFT p50. Le TTFT se traduit directement en ressenti UX, les tps en capacité. Déplie "view command" pour la commande exacte.
Chat
Korte prompt, lang antwoord. De vorm die als normale chat moet aanvoelen, TTFT bepaalt of het "snappy" is.
RAG · 8k context
Middelgrote context, een paar documentchunks met antwoord van normale lengte. Toont prefill-kosten zonder de muur te raken.
Lange output / agents
Korte instructie, veel output. Code-generation, rapporten of gestructureerde agent-output. Stress-test voor decode throughput.
Grote context · 25k
Stress-test met grote prompts. Niet per se chatmateriaal, wel exact waar de prefill-muur zichtbaar wordt en TTFT instort.
Multi-turn · kantoorwerk
Vijf beurten per gesprek, tien gesprekken parallel. Dicht bij hoe een team dit echt gebruikt, met groeiende context per turn.
Realistische kantoor-baseline
Random dataset · 4000 tokens in, 500 tokens uit · request-rate 0.3, burstiness 0.7. Een rustig kantoor.
Echte gesprekken · ShareGPT
ShareGPT V3 · gemiddeld 228 tokens per turn · natuurlijk variërend per gesprek. Wat real users doen, niet een synthetische random distributie.
Maandagochtend-piek
Random · 4000 in / 500 uit · request-rate 1.5 req/s, burstiness 1.0, max 25 parallel. Wanneer iedereen tegelijk inlogt, zien we de queue groeien?
Reasoning workload
Lange chain-of-thought outputs · 1k in / 4k uit · trage rate (0.2 req/s) want elke request kost veel decode-budget. Test of TTFT stabiel blijft.
Quality is uitstekend voor de prijs
MMLU 86, GPQA 88, HumanEval 84. In de aggregate-score van de Arena steeds bij de top, ook al is throughput middelmatig.
27B dense betekent volledig bandwidth-bound
Geen MoE active-parameter winst, alle 27B doen mee per token. Decode/user op chat zit op 7 t/s, helft van wat de A4B en A3B MoE's halen.
Op 25k context wacht je een minuut
TTFT tikt 76 seconden bij c=10. Onder maandag-piek queued 'ie tot 160 parallelle requests met P99 TTFT 40 seconden. Voor RAG of long-context flows hier niet beginnen.
Hybride architectuur draait zonder gedoe
48 Gated DeltaNet + 16 full-attention layers, vision-encoder erbij; vLLM ondersteunt het zonder extra config. Drie jaar geleden was dit een week werk.