Le carnet.
build logs et field notes
Ce que je construis, ce que je casse, et ce que j'apprends en chemin. IA on-prem sur un DGX Spark, agents, serveurs MCP et évaluations. Pas depuis zéro, mais dès que tu construis avec.
S'abonner · RSS- 23-06-26 IA on-prem 7 min001IA on-prem 7 min
Gemma-4 v23 sur le DGX Spark
Nouveaux runs vLLM v0.23.0 pour Gemma-4 sur DGX Spark : BF16, NVFP4 et MTP comparés sur decode, TTFT, tails et limites pratiques pour agents locaux.
- 22-05-26 IA on-prem 5 min002IA on-prem 5 min
Les trois chiffres d'une DGX Spark rapide
Decode, prefill et queueing : trois chiffres décident si une DGX Spark semble rapide sous une vraie charge, et ce sont eux que la plupart des tests oublient.
- 05-05-26 Réflexions 7 min003Réflexions 7 min
Pourquoi ce blog et cette arena existent
Je cherchais des chiffres concrets sur l'IA locale sur le DGX Spark, sans en trouver. Alors je les mesure moi-meme et je batis le blog et l'arena en etabli.
- 03-05-26 IA on-prem 15 min004IA on-prem 15 min
Gemma-4 sur la DGX Spark : NVFP4 vs BF16
Neuf benchmarks identiques, deux précisions. NVFP4 est 22 à 92 pour cent plus rapide par token, et la capacité grimpe de 69 pour cent aux heures de pointe.
- 03-05-26 IA on-prem 19 min005IA on-prem 19 min
Nemotron-3 sur le DGX Spark : BF16 vs FP8 vs NVFP4
Un modèle, trois précisions, le même Spark. Ce que font budget mémoire, vitesse de decode et tail-latency quand tu passes de 16 à 8 puis 4 bits.
- 01-05-26 IA on-prem 30 min006IA on-prem 30 min
Gemma-4 sur le DGX Spark : le prix du contexte
Neuf benchmarks de Gemma-4-26B-A4B-it sur le DGX Spark avec llama-benchy et vLLM. Le decode tient ; le prefill et la file d'attente decident du ressenti.
- 01-05-26 IA on-prem 8 min007IA on-prem 8 min
J'ai mis un assistant 24/7 sur un Raspberry Pi
Un build-log sur OpenClaw sur un Raspberry Pi 5 : Slack comme interface, GPT-5.5 comme modèle, et le Pi comme couche agent always-on à côté du DGX Spark.
- 01-05-26 IA on-prem 9 min008IA on-prem 9 min
Ce que la quantization s'est révélée être
Retour pratique sur la quantization sur la DGX Spark : ce que BF16, FP8 et NVFP4 font à la mémoire, la vitesse et la tail-latency, après trois rounds avec vLLM.