L'IA en production
en pratique.
on-prem · ai agents · modèles ai locaux
Salut, je suis Django de Vreng, cofondateur de Kamoo. Je construis des agents, des serveurs MCP et des déploiements on-prem sur le DGX Spark, et je partage ce que j'apprends en chemin.
- Articles publiés
- 8
- Modèles dans l'arena
- 19
- Heures GPU on-prem
- 1.4k
- DGX Spark au labo
- 128GB
Je suis Django.
Je construis la couche entre les modèles de langage et le vrai travail : agents, serveurs MCP, modèles locaux et IA on-prem. Pas comme une démo isolée, mais comme du logiciel qui va chercher du contexte, utilise des outils, prépare des décisions et échoue proprement quand il le faut.
Sur ce blog, je partage l'avancement technique : des benchmarks sur le DGX Spark, des build logs de projets d'agents, et des field notes sur ce qui tient en production. L'essentiel sort du travail chez Kamoo, mais le blog reste personnel.
Lire toute mon histoire →- 23-06-26 IA on-prem001IA on-prem
Gemma-4 v23 sur le DGX Spark
Nouveaux runs vLLM v0.23.0 pour Gemma-4 sur DGX Spark : BF16, NVFP4 et MTP comparés sur decode, TTFT, tails et limites pratiques pour agents locaux.
- 22-05-26 IA on-prem002IA on-prem
Les trois chiffres d'une DGX Spark rapide
Decode, prefill et queueing : trois chiffres décident si une DGX Spark semble rapide sous une vraie charge, et ce sont eux que la plupart des tests oublient.
- 05-05-26 Réflexion003Réflexion
Pourquoi ce blog et cette arena existent
Je cherchais des chiffres concrets sur l'IA locale sur le DGX Spark, sans en trouver. Alors je les mesure moi-meme et je batis le blog et l'arena en etabli.
- 03-05-26 IA on-prem004IA on-prem
Gemma-4 sur la DGX Spark : NVFP4 vs BF16
Neuf benchmarks identiques, deux précisions. NVFP4 est 22 à 92 pour cent plus rapide par token, et la capacité grimpe de 69 pour cent aux heures de pointe.
- 03-05-26 IA on-prem005IA on-prem
Nemotron-3 sur le DGX Spark : BF16 vs FP8 vs NVFP4
Un modèle, trois précisions, le même Spark. Ce que font budget mémoire, vitesse de decode et tail-latency quand tu passes de 16 à 8 puis 4 bits.