Productie-AI
in de praktijk.
on-prem · ai agents · lokale ai modellen
Hoi, ik ben Django de Vreng, mede-oprichter van Kamoo. Ik bouw agents, MCP-servers en on-prem deployments op de DGX Spark, en deel wat ik onderweg allemaal leer.
- Posts gepubliceerd
- 8
- Modellen in de arena
- 19
- GPU-uren on-prem
- 1.4k
- DGX Spark in lab
- 128GB
Ik ben Django.
Ik bouw aan de laag tussen taalmodellen en echt werk: agents, MCP-servers, lokale modellen en on-prem AI. Niet als losse demo, maar als software die context ophaalt, tools gebruikt, keuzes voorbereidt en netjes faalt als het moet.
Op deze blog deel ik de technische tussenstand: benchmarks op de DGX Spark, build-logs uit agent-projecten, en field notes over wat in productie overeind blijft. Het meeste komt uit werk bij Kamoo, maar de blog blijft persoonlijk.
Lees mijn hele verhaal →NVFP4 wint met 91% throughput-winst, onder druk.
Negen identieke benchmarks, twee precisies. NVFP4 is 22 tot 92 procent sneller per token, en de capaciteit groeit 69 procent op piekuren op de Spark.
- 23-06-26 On-prem AI001On-prem AI
Gemma-4 v23 op de DGX Spark
Nieuwe vLLM v0.23.0-runs voor Gemma-4 op de DGX Spark: BF16, NVFP4 en MTP naast elkaar, met decode, TTFT, tails en praktische grenzen voor lokale agents.
- 22-05-26 On-prem AI002On-prem AI
De drie getallen achter een snelle DGX Spark
Decode, prefill en queueing: drie getallen bepalen of een DGX Spark snel voelt onder een echte workload, en juist die drie slaan de meeste reviews over.
- 05-05-26 Reflectie003Reflectie
Waarom deze blog en arena bestaan
Ik zocht concrete cijfers voor lokale AI op de DGX Spark en vond ze niet. Dus meet ik ze zelf, en bouw ik de blog en de arena op als open werkbank.
- 03-05-26 On-prem AI004On-prem AI
Gemma-4 op de DGX Spark: NVFP4 vs BF16
Negen identieke benchmarks, twee precisies. NVFP4 is 22 tot 92 procent sneller per token, en de capaciteit groeit 69 procent op piekuren op de Spark.
- 03-05-26 On-prem AI005On-prem AI
Nemotron-3 op de DGX Spark: BF16 vs FP8 vs NVFP4
Eén model, drie precisies, dezelfde Spark. Wat geheugen-budget, decode-snelheid en tail-latency doen wanneer je van 16 bit naar 8 bit naar 4 bit gaat.