Si vous servez de l'inférence LLM en production, le choix du GPU est la variable la plus impactante pour le coût et la performance. La gamme datacenter NVIDIA actuelle vous donne trois options pertinentes pour des déploiements à l'échelle VPS : L4, L40S et H100.
Les concurrents, brièvement
| L4 | L40S | H100 SXM5 | |
|---|---|---|---|
| Mémoire | 24 Go GDDR6 | 48 Go GDDR6 | 80 Go HBM3 |
| FP16 TFLOPs | 30 | 91 | 989 |
| FP8 TFLOPs | 121 | 366 | 1 979 |
| Bande passante mémoire | 300 Go/s | 864 Go/s | 3 000 Go/s |
| Puissance | 72 W | 350 W | 700 W |
| Prix horaire FranceVPS | 0,40 € | 1,40 € | 3,20 € |
L4 : inférence cost-efficient
Le L4 est le plus petit et le moins cher. 24 Go suffit pour héberger : Llama 3 8B en FP16 (16 Go) avec place pour le KV cache, Mistral 7B Instruct en FP16, modèles 13B quantisés (8-bit GPTQ, 4-bit AWQ), Stable Diffusion XL, modèles d'embeddings (BGE, GTE) qui tiennent confortablement.
Throughput pour Llama 3 8B avec vLLM, single L4 : ~1 400 tokens/sec en agrégat sur requêtes concurrentes. À 0,40 €/h, soit 0,40 € / 1 400 / 3 600 = 0,00008 € pour 1K tokens output. Difficile à battre pour de l'inférence pure.
Utilisez L4 quand : vous servez des modèles small-to-medium, le coût par token compte, vous n'avez pas besoin d'une latence first-token ultra-basse.
L40S : le workhorse
Le L40S, 350W, 48 Go GDDR6, substantiellement plus de compute que le L4. Notre recommandation par défaut pour la plupart des workloads LLM en production.
Ce que 48 Go permettent : Llama 3 70B en quantification 4-bit (35-40 Go) avec KV cache utilisable, Mixtral 8×7B en 4-bit (24 Go), inférence FP16 de modèles 13-22B avec full KV cache, fine-tuning à mid-scale (LoRA sur bases 13B), SDXL avec multiples ControlNets simultanés.
Throughput pour Llama 3 70B Q4, vLLM, single L40S : ~620 tokens/sec agrégat. À 1,40 €/h, ~0,00063 € par 1K tokens output pour un 70B — compétitif avec le pricing API de la plupart des fournisseurs.
H100 : entraînement sérieux et inférence high-throughput
Le H100 est dans une autre ligue. 80 Go HBM3 avec 3 To/s de bande passante (3,5× le L40S), plus le Transformer Engine qui accélère l'attention de ~6× via support FP8.
Où le H100 brille : inférence pleine précision (FP16) de modèles 70B avec full context, multi-LoRA serving (chargement de dizaines d'adaptateurs LoRA et routing par requête), entraînement et fine-tuning continu de gros modèles, inférence throughput-critique où sinon il vous faudrait 4-8× L40S.
Throughput pour Llama 3 70B FP8, vLLM avec moteur TGI, single H100 : ~2 400 tokens/sec agrégat. À 3,20 €/h, ~0,00037 € par 1K tokens — significativement moins cher par token que L40S Q4 si vous saturez le GPU.
Le framework de décision
- Quelle taille de modèle ? <13B → L4 ou L40S. 13-70B → L40S ou H100. 70B+ FP16 → H100.
- Quelle charge soutenue ? Sporadique (sous 30%) → L4 ou L40S.
- Quelle cible de latence ? First-token sous 100ms avec gros modèles → H100.
L'avantage vLLM
Quel que soit le GPU, utilisez vLLM (ou TGI, ou TensorRT-LLM) plutôt que PyTorch nu. Le batching continu signifie que vous traitez plusieurs requêtes simultanément sans temps GPU idle. Améliorations de throughput de 5-10× sont typiques.
Comparaison de coûts
Pour un workload de ~5M tokens output/jour sur un modèle 70B :
- OpenAI GPT-4o : ~75 €/jour
- Anthropic Claude Sonnet : ~60 €/jour
- L40S Llama 3 70B Q4 : 33 €/jour si utilisé 24/7, 15 €/jour si scaled down la nuit
- H100 Llama 3 70B FP8 : 77 €/jour si utilisé 24/7, mais headroom pour 4-5× le volume
L'auto-hébergé est moins cher à l'échelle. Le point de bascule dépend du volume — généralement entre 1M et 5M tokens/jour.