VPS GPU pour inférence LLM — L4 vs L40S vs H100

Si vous servez de l'inférence LLM en production, le choix du GPU est la variable la plus impactante pour le coût et la performance. La gamme datacenter NVIDIA actuelle vous donne trois options pertinentes pour des déploiements à l'échelle VPS : L4, L40S et H100.

Les concurrents, brièvement

	L4	L40S	H100 SXM5
Mémoire	24 Go GDDR6	48 Go GDDR6	80 Go HBM3
FP16 TFLOPs	30	91	989
FP8 TFLOPs	121	366	1 979
Bande passante mémoire	300 Go/s	864 Go/s	3 000 Go/s
Puissance	72 W	350 W	700 W
Prix horaire FranceVPS	0,40 €	1,40 €	3,20 €

L4 : inférence cost-efficient

Le L4 est le plus petit et le moins cher. 24 Go suffit pour héberger : Llama 3 8B en FP16 (16 Go) avec place pour le KV cache, Mistral 7B Instruct en FP16, modèles 13B quantisés (8-bit GPTQ, 4-bit AWQ), Stable Diffusion XL, modèles d'embeddings (BGE, GTE) qui tiennent confortablement.

Throughput pour Llama 3 8B avec vLLM, single L4 : ~1 400 tokens/sec en agrégat sur requêtes concurrentes. À 0,40 €/h, soit 0,40 € / 1 400 / 3 600 = 0,00008 € pour 1K tokens output. Difficile à battre pour de l'inférence pure.

Utilisez L4 quand : vous servez des modèles small-to-medium, le coût par token compte, vous n'avez pas besoin d'une latence first-token ultra-basse.

L40S : le workhorse

Le L40S, 350W, 48 Go GDDR6, substantiellement plus de compute que le L4. Notre recommandation par défaut pour la plupart des workloads LLM en production.

Ce que 48 Go permettent : Llama 3 70B en quantification 4-bit (35-40 Go) avec KV cache utilisable, Mixtral 8×7B en 4-bit (24 Go), inférence FP16 de modèles 13-22B avec full KV cache, fine-tuning à mid-scale (LoRA sur bases 13B), SDXL avec multiples ControlNets simultanés.

Throughput pour Llama 3 70B Q4, vLLM, single L40S : ~620 tokens/sec agrégat. À 1,40 €/h, ~0,00063 € par 1K tokens output pour un 70B — compétitif avec le pricing API de la plupart des fournisseurs.

H100 : entraînement sérieux et inférence high-throughput

Le H100 est dans une autre ligue. 80 Go HBM3 avec 3 To/s de bande passante (3,5× le L40S), plus le Transformer Engine qui accélère l'attention de ~6× via support FP8.

Où le H100 brille : inférence pleine précision (FP16) de modèles 70B avec full context, multi-LoRA serving (chargement de dizaines d'adaptateurs LoRA et routing par requête), entraînement et fine-tuning continu de gros modèles, inférence throughput-critique où sinon il vous faudrait 4-8× L40S.

Throughput pour Llama 3 70B FP8, vLLM avec moteur TGI, single H100 : ~2 400 tokens/sec agrégat. À 3,20 €/h, ~0,00037 € par 1K tokens — significativement moins cher par token que L40S Q4 si vous saturez le GPU.

Le framework de décision

Quelle taille de modèle ? <13B → L4 ou L40S. 13-70B → L40S ou H100. 70B+ FP16 → H100.
Quelle charge soutenue ? Sporadique (sous 30%) → L4 ou L40S.
Quelle cible de latence ? First-token sous 100ms avec gros modèles → H100.

L'avantage vLLM

Quel que soit le GPU, utilisez vLLM (ou TGI, ou TensorRT-LLM) plutôt que PyTorch nu. Le batching continu signifie que vous traitez plusieurs requêtes simultanément sans temps GPU idle. Améliorations de throughput de 5-10× sont typiques.

Comparaison de coûts

Pour un workload de ~5M tokens output/jour sur un modèle 70B :

OpenAI GPT-4o : ~75 €/jour
Anthropic Claude Sonnet : ~60 €/jour
L40S Llama 3 70B Q4 : 33 €/jour si utilisé 24/7, 15 €/jour si scaled down la nuit
H100 Llama 3 70B FP8 : 77 €/jour si utilisé 24/7, mais headroom pour 4-5× le volume

L'auto-hébergé est moins cher à l'échelle. Le point de bascule dépend du volume — généralement entre 1M et 5M tokens/jour.

GPULLMInférencevLLMNVIDIA