Le carnet.

build logs et field notes

8 posts · ~1×/semaine

Ce que je construis, ce que je casse, et ce que j'apprends en chemin. IA on-prem sur un DGX Spark, agents, serveurs MCP et évaluations. Pas depuis zéro, mais dès que tu construis avec.

S'abonner · RSS

★ À la une

23-06-26 IA on-prem 7 min

Gemma-4 v23 sur le DGX Spark

Nouveaux runs vLLM v0.23.0 pour Gemma-4 sur DGX Spark : BF16, NVFP4 et MTP comparés sur decode, TTFT, tails et limites pratiques pour agents locaux.

Lire l'article →

Catégorie

Tous Build logs IA on-prem Field notes Réflexions

23-06-26 IA on-prem 7 min

001 23-06-26

Gemma-4 v23 sur le DGX Spark

Nouveaux runs vLLM v0.23.0 pour Gemma-4 sur DGX Spark : BF16, NVFP4 et MTP comparés sur decode, TTFT, tails et limites pratiques pour agents locaux.

IA on-prem 7 min
22-05-26 IA on-prem 5 min

002 22-05-26

Les trois chiffres d'une DGX Spark rapide

Decode, prefill et queueing : trois chiffres décident si une DGX Spark semble rapide sous une vraie charge, et ce sont eux que la plupart des tests oublient.

IA on-prem 5 min
05-05-26 Réflexions 7 min

003 05-05-26

Pourquoi ce blog et cette arena existent

Je cherchais des chiffres concrets sur l'IA locale sur le DGX Spark, sans en trouver. Alors je les mesure moi-meme et je batis le blog et l'arena en etabli.

Réflexions 7 min
03-05-26 IA on-prem 15 min

004 03-05-26

Gemma-4 sur la DGX Spark : NVFP4 vs BF16

Neuf benchmarks identiques, deux précisions. NVFP4 est 22 à 92 pour cent plus rapide par token, et la capacité grimpe de 69 pour cent aux heures de pointe.

IA on-prem 15 min
03-05-26 IA on-prem 19 min

005 03-05-26

Nemotron-3 sur le DGX Spark : BF16 vs FP8 vs NVFP4

Un modèle, trois précisions, le même Spark. Ce que font budget mémoire, vitesse de decode et tail-latency quand tu passes de 16 à 8 puis 4 bits.

IA on-prem 19 min
01-05-26 IA on-prem 30 min

006 01-05-26

Gemma-4 sur le DGX Spark : le prix du contexte

Neuf benchmarks de Gemma-4-26B-A4B-it sur le DGX Spark avec llama-benchy et vLLM. Le decode tient ; le prefill et la file d'attente decident du ressenti.

IA on-prem 30 min
01-05-26 IA on-prem 8 min

007 01-05-26

J'ai mis un assistant 24/7 sur un Raspberry Pi

Un build-log sur OpenClaw sur un Raspberry Pi 5 : Slack comme interface, GPT-5.5 comme modèle, et le Pi comme couche agent always-on à côté du DGX Spark.

IA on-prem 8 min
01-05-26 IA on-prem 9 min

008 01-05-26

Ce que la quantization s'est révélée être

Retour pratique sur la quantization sur la DGX Spark : ce que BF16, FP8 et NVFP4 font à la mémoire, la vitesse et la tail-latency, après trois rounds avec vLLM.

IA on-prem 9 min

8 sur 8 posts Fin de l'archive

Le carnet.

Gemma-4 v23 sur le DGX Spark

Gemma-4 v23 sur le DGX Spark

Les trois chiffres d'une DGX Spark rapide

Pourquoi ce blog et cette arena existent

Gemma-4 sur la DGX Spark : NVFP4 vs BF16

Nemotron-3 sur le DGX Spark : BF16 vs FP8 vs NVFP4

Gemma-4 sur le DGX Spark : le prix du contexte

J'ai mis un assistant 24/7 sur un Raspberry Pi

Ce que la quantization s'est révélée être