Combien coûte le
DGX Spark ?
Un DGX Spark n'est pas là gratuitement. Amortissement du hardware plus électricité sous charge, ensemble, étalés sur le mois. Bouge les hypothèses et vois où tu arrives.
02 Hypothèses pour ta propre situation
Hardware / mois €0 amortissement du Spark
Électricité / mois €0 170W sous charge
Total / mois €0 hardware plus électricité
03 Comment les chiffres se calculent
La formule
coût/mois = (hardware ÷ amortissement) + (W ÷ 1000 × heures × prix kWh)
Deux postes, pas plus. Hardware amorti linéairement sur la période choisie, électricité uniquement pendant les heures sous charge que tu donnes. Les heures idle ne comptent pas.
Hypothèses
- Électricité compte 170W sous charge vLLM. Le TDP max tourne autour de 240W, en pratique il reste plus bas.
- Hardware : la Founders Edition NL HT. Ajuste si tu l'as acheté d'occasion, si tu as un avantage fiscal ou si tu l'as eu via un autre canal.
- Hypothèse d'utilisation : les coûts d'électricité ne comptent que pendant les heures que tu donnes. 24/7 à 100% de charge, ce n'est en général pas réaliste.
- Non inclus : internet, refroidissement, espace, ton temps pour le gérer. C'est un plancher, pas un business case complet.
Ce que ce chiffre ne te dit pas : si le local revient moins cher qu'une API cloud. Pour ça il faut aussi compter les tokens par seconde, et ils varient selon le modèle. On le calcule ci-dessous, avec le débit de l'arène.
04 Local contre cloud
Ce que coûte vraiment un token
Le Spark coûte la même chose par mois, que tu le fasses tourner à fond ou non (vois le calculateur ci-dessus, à 8 heures par jour ouvré). Le prix par token dépend donc de combien tu en pousses. Ci-dessous, le € par 1M de tokens de sortie pour un bureau de 10 à 25 personnes, à côté de ce que les mêmes tokens coûtent dans le cloud.
La conclusion honnête : l'on-prem ne gagne pas simplement sur le prix. Mistral Small sur ton propre Spark coûte plus cher par token que l'API EU de Mistral, exactement le même modèle. Face à GPT-5 mini, tu gagnes. Mais la vraie raison du local n'est pas dans ce tableau : tes données restent chez toi et tu n'es pas soumis au CLOUD Act. Choisis l'on-prem pour la juridiction, pas pour quelques centimes.
| Modèle | Précision | €/1M, 10 pers. | €/1M, 25 pers. (pic) |
|---|---|---|---|
| Mistral Small | UE | €0,50 tout volume | |
| GPT-5 mini | US, CLOUD Act | €1,76 tout volume | |
| Qwen-3.5 0.8B | BF16 | €0,18 | €0,18 |
| Qwen-3.5 2B | BF16 | €0,35 | €0,22 |
| Ministral-3 3B | BF16 | €0,33 | €0,34 |
| Nemotron-3-Nano 4B | BF16 | €0,59 | €0,42 |
| Nemotron-3-Nano 30B-A3B | NVFP4 | €0,68 | €0,45 |
| Ministral-3 8B | BF16 | €0,67 | €0,54 |
| Gemma-4 26B-A4B | NVFP4 | €0,72 | €0,60 |
| Nemotron-3-Nano 30B-A3B | FP8 | €0,98 | €0,61 |
| Qwen-3.6 35B-A3B | FP8 | €0,94 | €0,74 |
| Gemma-4 26B-A4B | BF16 + MTP | €0,91 | €0,76 |
| Gemma-4 26B-A4B | BF16 | €1,33 | €0,99 |
| Nemotron-3-Nano 30B-A3B | BF16 | €1,81 | €1,06 |
| Qwen-3.6 35B-A3B | BF16 | €1,64 | €1,24 |
| Mistral-Small 3.2 24B | NVFP4 | €1,39 | €1,44 |
| Nemotron-3-Super 120B-A12B | NVFP4 | €1,90 | €1,63 |
| Qwen-3.6 27B | FP8 | €2,08 | €1,65 |
| Gemma-4 31B | BF16 | €5,95 | €2,91 |
- Hypothèse : un bureau de 10 à 25 personnes qui garde le Spark vraiment sous charge 8 heures par jour ouvré. Un usage en pics signifie moins de tokens par mois, donc un prix par token plus élevé. Ce tableau est la lecture la plus favorable pour l'on-prem.
- On compare sur les tokens de sortie, car c'est ce qu'on mesure (decode). Le cloud facture les tokens d'entrée (les prompts) en plus, qui ne comptent pas ici. Le cloud est donc en réalité plus cher que ce tableau ne le montre. Les chiffres à 10 personnes sont mesurés directement ; le pic à 25 personnes est dérivé du débit total du run de pic multiplié par la part de sortie du scénario.
- Seuls des modèles équivalents se comparent honnêtement. Un petit modèle est bon marché par token mais fait un autre travail. Le point le plus net est Mistral Small en local contre Mistral Small dans le cloud : même modèle, autre endroit.
- Les runs ont tourné avec le prefix caching désactivé. Activé, il améliorerait le débit local, et donc baisserait le prix.
- Les prix cloud sont des tokens de sortie. Mistral publie en euros, le GPT-5 mini d'OpenAI est converti à $1 = €0,88 (2026-06-26). Source : Mistral et OpenAI. GPT-5 mini comme génération actuelle, l'ancien GPT-4o mini est moins cher. Mistral Small via l'API est désormais en Small 4, nous benchmarkons la 3.2 en local.
- Énergie : à 170W, l'électricité ne représente que ~9% du coût mensuel, le reste est l'amortissement du hardware. L'on-prem est donc surtout une histoire de hardware, pas d'énergie. Un million de tokens de sortie de Gemma-4 NVFP4 coûte environ 258 Wh, quelques centimes. Estimation à ces 170W constants, car on ne mesure pas la consommation par modèle.