Het werkboek.
build-logs en field notes
Wat ik bouw, wat ik breek, en wat ik onderweg leer. On-prem AI op DGX Spark, agents, MCP-servers en evaluaties. Niet vanaf nul, maar zodra je ermee bouwt.
Abonneer · RSS- 23-06-26 On-prem AI 7 min001On-prem AI 7 min
Gemma-4 v23 op de DGX Spark
Nieuwe vLLM v0.23.0-runs voor Gemma-4 op de DGX Spark: BF16, NVFP4 en MTP naast elkaar, met decode, TTFT, tails en praktische grenzen voor lokale agents.
- 22-05-26 On-prem AI 5 min002On-prem AI 5 min
De drie getallen achter een snelle DGX Spark
Decode, prefill en queueing: drie getallen bepalen of een DGX Spark snel voelt onder een echte workload, en juist die drie slaan de meeste reviews over.
- 05-05-26 Reflecties 6 min003Reflecties 6 min
Waarom deze blog en arena bestaan
Ik zocht concrete cijfers voor lokale AI op de DGX Spark en vond ze niet. Dus meet ik ze zelf, en bouw ik de blog en de arena op als open werkbank.
- 03-05-26 On-prem AI 13 min004On-prem AI 13 min
Gemma-4 op de DGX Spark: NVFP4 vs BF16
Negen identieke benchmarks, twee precisies. NVFP4 is 22 tot 92 procent sneller per token, en de capaciteit groeit 69 procent op piekuren op de Spark.
- 03-05-26 On-prem AI 17 min005On-prem AI 17 min
Nemotron-3 op de DGX Spark: BF16 vs FP8 vs NVFP4
Eén model, drie precisies, dezelfde Spark. Wat geheugen-budget, decode-snelheid en tail-latency doen wanneer je van 16 bit naar 8 bit naar 4 bit gaat.
- 01-05-26 On-prem AI 26 min006On-prem AI 26 min
Gemma-4 op de DGX Spark: de prijs van context
Negen benchmarks van Gemma-4-26B-A4B-it op de DGX Spark met llama-benchy en vLLM. Decode houdt stand; prefill en queueing bepalen het gevoel.
- 01-05-26 On-prem AI 7 min007On-prem AI 7 min
Ik zette een 24/7 assistent op een Raspberry Pi
Een build-log over OpenClaw op een Raspberry Pi 5: Slack als interface, GPT-5.5 als model, en de Pi als always-on agent-laag naast de DGX Spark.
- 01-05-26 On-prem AI 7 min008On-prem AI 7 min
Wat quantization werd na drie benchmarkrondes
Een praktische terugblik op quantization op de DGX Spark: wat BF16, FP8 en NVFP4 doen met geheugen, snelheid en tail-latency, na drie benchmarkrondes met vLLM.