NVIDIA (re-quant van Google) 26B-A4B params NVFP4 MoE

Gemma-4-26B-A4B-it

Meilleur profil v23 pratique pour ce Spark. Le chat atteint 21.59 t/s/user, le multi-turn 20.01 t/s/user et le replay ShareGPT reste à p95 TTFT 225.09 ms. Le contexte 25k reste douloureux en prefill, mais le chat normal et les agents semblent rapides en local.

71.8
Arena score
97
Throughput tok/s
24 GB
VRAM
8/9
Benches mesurés
Hugging Face → vLLM v0.23.0 DGX Spark, NVIDIA GB10, 128 GB unified memory Dernière mesure 23 juin 2026

La composante quality de l'Arena score. Pas mesurée par moi, issue des model cards officielles du vendor. Pour une comparaison cross-model avec un eval harness cohérent, Artificial Analysis est un tiers utile. La moyenne des trois benchmarks entre une à une dans la formule du Score (pondérée plus lourd en Aggregate/Agent, plus léger en Batch).

81.5
Avg
84.8
MMLU-Pro
79.9
GPQA-Diamond
79.8
HumanEval
Decode throughput · total t/s · c=10
NVFP4 BF16 sibling
1k ctx 151 t/s
1k ctx 91.0 t/s
8k ctx 119 t/s
8k ctx 78.0 t/s
4k+turn 183 t/s
4k+turn 98.0 t/s
25k ctx 34.0 t/s
25k ctx 28.0 t/s

5 tests closed-loop avec llama-benchy et 4 tests open-loop avec vllm bench serve. Par benchmark les tokens/sec (decode throughput) et le TTFT p50. Le TTFT se traduit directement en ressenti UX, les tps en capacité. Déplie "view command" pour la commande exacte.

01 · llama-benchy closed-loop

Chat

Korte prompt, lang antwoord. De vorm die als normale chat moet aanvoelen, TTFT bepaalt of het "snappy" is.

pp (prompt) 1024 tg (gen) 1024 depth 0 concurrency 10 runs 3
tokens/sec
21.6 t/s
TTFT · p50
1,14s
3 runs · seed 42
02 · llama-benchy closed-loop

RAG · 8k context

Middelgrote context, een paar documentchunks met antwoord van normale lengte. Toont prefill-kosten zonder de muur te raken.

pp (prompt) 8192 tg (gen) 512 depth 0 concurrency 10 runs 3
tokens/sec
16.3 t/s
TTFT · p50
8,31s
3 runs · seed 42
03 · llama-benchy closed-loop

Lange output / agents

Korte instructie, veel output. Code-generation, rapporten of gestructureerde agent-output. Stress-test voor decode throughput.

pp (prompt) 256 tg (gen) 4096 depth 0 concurrency 10 runs 3
tokens/sec
23.7 t/s
TTFT · p50
369ms
3 runs · seed 42
04 · llama-benchy closed-loop

Grote context · 25k

Stress-test met grote prompts. Niet per se chatmateriaal, wel exact waar de prefill-muur zichtbaar wordt en TTFT instort.

pp (prompt) 25000 tg (gen) 256 depth 0 concurrency 10 runs 3
tokens/sec
7.4 t/s
TTFT · p50
38,58s
3 runs · seed 42
05 · llama-benchy closed-loop

Multi-turn · kantoorwerk

Vijf beurten per gesprek, tien gesprekken parallel. Dicht bij hoe een team dit echt gebruikt, met groeiende context per turn.

pp (prompt) 2048 tg (gen) 512 depth 4 concurrency 10 runs 3
tokens/sec
20.0 t/s
TTFT · p50
1,97s
3 runs · seed 42
06 · vllm bench serve open-loop

Realistische kantoor-baseline

Random dataset · 4000 tokens in, 500 tokens uit · request-rate 0.3, burstiness 0.7. Een rustig kantoor.

dataset random rate (req/s) 0,30 burstiness 0,7 prompts 200
tokens/sec
81.7 t/s
TTFT · p50
1,05s
200 prompts · seed 42
07 · vllm bench serve open-loop

Echte gesprekken · ShareGPT

ShareGPT V3 · gemiddeld 228 tokens per turn · natuurlijk variërend per gesprek. Wat real users doen, niet een synthetische random distributie.

dataset sharegpt v3 rate (req/s) 0,30 burstiness 0,7 prompts 250
tokens/sec
13.4 t/s
TTFT · p50
146ms
250 prompts · seed 42
08 · vllm bench serve open-loop

Maandagochtend-piek

Random · 4000 in / 500 uit · request-rate 1.5 req/s, burstiness 1.0, max 25 parallel. Wanneer iedereen tegelijk inlogt, zien we de queue groeien?

dataset random rate (req/s) 1,50 burstiness 1,0 prompts 300 max parallel 25
tokens/sec
72.9 t/s
TTFT · p50
967ms
300 prompts · seed 42
09 · vllm bench serve open-loop

Reasoning workload

Lange chain-of-thought outputs · 1k in / 4k uit · trage rate (0.2 req/s) want elke request kost veel decode-budget. Test of TTFT stabiel blijft.

dataset random rate (req/s) 0,20 burstiness 1,0 prompts 50
tokens/sec
t/s
TTFT · p50
50 prompts · seed 42
Ce qui marche

NVFP4 est le choix pratique

Chat à 21.59 t/s/user et multi-turn à 20.01 t/s/user à c=10. Pour du chat local de bureau, cela ne ressemble pas à un compromis.

Ce qui a cassé

Le contexte 25k reste douloureux en prefill

Même NVFP4 est à 38.58s de TTFT moyen en 25k et c=10. Le profil de serving aide le decode, pas l’attente avant les grands prompts.

Ce qui a déçu

MTP achète du decode, pas une tail parfaite

MTP bat BF16 en decode, mais sous le pic du lundi son p95 TTFT et son p95 TPOT sont pires que BF16. Les percentiles restent nécessaires.

Ce qui a surpris

Le replay ShareGPT est très favorable

NVFP4 termine 250/250 requêtes avec p95 TTFT 225.09 ms et p95 TPOT 45.30 ms. Les vraies conversations courtes sont bien plus légères que random 4k.

Plus de chiffres ?
Lis l'article complet.

Explication

Esc