−50% sur tous les plans · à partir de 2,48 €/mois · Blog·Documentation·Contact

VPS GPU pour inférence LLM — L4 vs L40S vs H100

Choisir le bon GPU selon votre taille de modèle, le débit attendu, et le budget.

Si vous servez de l'inférence LLM en production, le choix du GPU est la variable la plus impactante pour le coût et la performance. La gamme datacenter NVIDIA actuelle vous donne trois options pertinentes pour des déploiements à l'échelle VPS : L4, L40S et H100.

Les concurrents, brièvement

L4L40SH100 SXM5
Mémoire24 Go GDDR648 Go GDDR680 Go HBM3
FP16 TFLOPs3091989
FP8 TFLOPs1213661 979
Bande passante mémoire300 Go/s864 Go/s3 000 Go/s
Puissance72 W350 W700 W
Prix horaire FranceVPS0,40 €1,40 €3,20 €

L4 : inférence cost-efficient

Le L4 est le plus petit et le moins cher. 24 Go suffit pour héberger : Llama 3 8B en FP16 (16 Go) avec place pour le KV cache, Mistral 7B Instruct en FP16, modèles 13B quantisés (8-bit GPTQ, 4-bit AWQ), Stable Diffusion XL, modèles d'embeddings (BGE, GTE) qui tiennent confortablement.

Throughput pour Llama 3 8B avec vLLM, single L4 : ~1 400 tokens/sec en agrégat sur requêtes concurrentes. À 0,40 €/h, soit 0,40 € / 1 400 / 3 600 = 0,00008 € pour 1K tokens output. Difficile à battre pour de l'inférence pure.

Utilisez L4 quand : vous servez des modèles small-to-medium, le coût par token compte, vous n'avez pas besoin d'une latence first-token ultra-basse.

L40S : le workhorse

Le L40S, 350W, 48 Go GDDR6, substantiellement plus de compute que le L4. Notre recommandation par défaut pour la plupart des workloads LLM en production.

Ce que 48 Go permettent : Llama 3 70B en quantification 4-bit (35-40 Go) avec KV cache utilisable, Mixtral 8×7B en 4-bit (24 Go), inférence FP16 de modèles 13-22B avec full KV cache, fine-tuning à mid-scale (LoRA sur bases 13B), SDXL avec multiples ControlNets simultanés.

Throughput pour Llama 3 70B Q4, vLLM, single L40S : ~620 tokens/sec agrégat. À 1,40 €/h, ~0,00063 € par 1K tokens output pour un 70B — compétitif avec le pricing API de la plupart des fournisseurs.

H100 : entraînement sérieux et inférence high-throughput

Le H100 est dans une autre ligue. 80 Go HBM3 avec 3 To/s de bande passante (3,5× le L40S), plus le Transformer Engine qui accélère l'attention de ~6× via support FP8.

Où le H100 brille : inférence pleine précision (FP16) de modèles 70B avec full context, multi-LoRA serving (chargement de dizaines d'adaptateurs LoRA et routing par requête), entraînement et fine-tuning continu de gros modèles, inférence throughput-critique où sinon il vous faudrait 4-8× L40S.

Throughput pour Llama 3 70B FP8, vLLM avec moteur TGI, single H100 : ~2 400 tokens/sec agrégat. À 3,20 €/h, ~0,00037 € par 1K tokens — significativement moins cher par token que L40S Q4 si vous saturez le GPU.

Le framework de décision

  1. Quelle taille de modèle ? <13B → L4 ou L40S. 13-70B → L40S ou H100. 70B+ FP16 → H100.
  2. Quelle charge soutenue ? Sporadique (sous 30%) → L4 ou L40S.
  3. Quelle cible de latence ? First-token sous 100ms avec gros modèles → H100.

L'avantage vLLM

Quel que soit le GPU, utilisez vLLM (ou TGI, ou TensorRT-LLM) plutôt que PyTorch nu. Le batching continu signifie que vous traitez plusieurs requêtes simultanément sans temps GPU idle. Améliorations de throughput de 5-10× sont typiques.

Comparaison de coûts

Pour un workload de ~5M tokens output/jour sur un modèle 70B :

L'auto-hébergé est moins cher à l'échelle. Le point de bascule dépend du volume — généralement entre 1M et 5M tokens/jour.


Articles liés

Essayez FranceVPS aujourd'hui

Garantie 14 jours. Pas de carte requise pour explorer. Infrastructure française souveraine.