−50% sur tous les plans · à partir de 2,48 €/mois · Blog·Documentation·Contact

VPS GPU

VPS GPU NVIDIA L4, L40S, et H100 avec stack CUDA pré-installée. Facturation horaire dès 0,40 €/heure. Inférence LLM, fine-tuning, génération d'images. Hébergé en France.

Déployer → Voir les tarifs
À partir de €0.40/mois

Qu'est-ce qu'un VPS GPU ?

Un VPS GPU est un serveur virtuel avec un accès GPU passé en passthrough dédié — le GPU n'est partagé avec aucun autre locataire. Nous proposons trois paliers NVIDIA : L4 (inférence économique), L40S (entraînement à moyenne échelle et inférence haute capacité), et H100 (entraînement sérieux, fine-tuning, accélération FP8).

Chaque VPS GPU est livré avec la stack CUDA complète pré-installée : driver NVIDIA, toolkit CUDA (12.x), cuDNN, NCCL, et un choix d'images pré-cuites pour PyTorch, TensorFlow, vLLM, TGI et ComfyUI. Vous pouvez exécuter torch.cuda.is_available() == True dans les 90 secondes qui suivent le clic sur déployer.

La facturation est horaire sans engagement minimum. Un L4 démarre à 0,40 €/heure. Un H100 est à 3,20 €/heure. Lancez-en un pour fine-tuner pendant un après-midi, détruisez-le quand vous avez fini, ne payez que le temps GPU actif. Pour les charges soutenues, des prix réservés sont disponibles avec jusqu'à 60 % de réduction.

Les paliers GPU expliqués

NVIDIA L4 — 0,40 €/heure

Le L4 est notre GPU d'inférence d'entrée de gamme. Avec 24 Go de mémoire GDDR6 et 30 TFLOPs FP16, il est optimisé pour servir des LLMs petits à moyens (jusqu'à 13B paramètres) et la génération d'images SDXL. Parfait pour de l'inférence en production de modèles fine-tunés, génération d'embeddings, et workflows ComfyUI.

NVIDIA L40S — 1,40 €/heure

Le L40S apporte 48 Go de mémoire et 91 TFLOPs FP16 — assez pour servir des modèles 70B quantifiés, faire tourner des jobs de fine-tuning à moyenne échelle, ou traiter en batch de gros pipelines de génération d'images. Le L40S est aussi notre option d'entraînement la plus économique pour le fine-tuning LoRA de modèles 7B-13B.

NVIDIA H100 — 3,20 €/heure

Le H100 est le prédateur ultime. 80 Go de mémoire HBM3, 1979 TFLOPs FP8, et le Transformer Engine qui accélère le calcul d'attention de 6x par rapport au A100. Utilisez-le pour entraîner des modèles sérieux, l'inférence pleine précision 70B+, ou tout workload où le GPU est le goulot.

Cas d'usage

Spécifications

GPUsNVIDIA L4 (24 Go), L40S (48 Go), H100 (80 Go)
vCPU8 à 32 cœurs · AMD EPYC
RAM32 Go à 256 Go DDR5
Stockage200 Go à 4 To NVMe scratch
Réseau40 Gbps
CUDA12.x pré-installé
Stacks MLPyTorch, TensorFlow, vLLM, TGI, ComfyUI
DatacentersParis (tous paliers), Marseille (L4)
FacturationHoraire, sans minimum
Remise réservéeJusqu'à −60 % en mensuel/annuel

Prêt à déployer ?

Garantie 14 jours, annulation à tout moment, support en français et anglais.