VPS GPU NVIDIA L4, L40S, et H100 avec stack CUDA pré-installée. Facturation horaire dès 0,40 €/heure. Inférence LLM, fine-tuning, génération d'images. Hébergé en France.
Un VPS GPU est un serveur virtuel avec un accès GPU passé en passthrough dédié — le GPU n'est partagé avec aucun autre locataire. Nous proposons trois paliers NVIDIA : L4 (inférence économique), L40S (entraînement à moyenne échelle et inférence haute capacité), et H100 (entraînement sérieux, fine-tuning, accélération FP8).
Chaque VPS GPU est livré avec la stack CUDA complète pré-installée : driver NVIDIA, toolkit CUDA (12.x), cuDNN, NCCL, et un choix d'images pré-cuites pour PyTorch, TensorFlow, vLLM, TGI et ComfyUI. Vous pouvez exécuter torch.cuda.is_available() == True dans les 90 secondes qui suivent le clic sur déployer.
La facturation est horaire sans engagement minimum. Un L4 démarre à 0,40 €/heure. Un H100 est à 3,20 €/heure. Lancez-en un pour fine-tuner pendant un après-midi, détruisez-le quand vous avez fini, ne payez que le temps GPU actif. Pour les charges soutenues, des prix réservés sont disponibles avec jusqu'à 60 % de réduction.
Le L4 est notre GPU d'inférence d'entrée de gamme. Avec 24 Go de mémoire GDDR6 et 30 TFLOPs FP16, il est optimisé pour servir des LLMs petits à moyens (jusqu'à 13B paramètres) et la génération d'images SDXL. Parfait pour de l'inférence en production de modèles fine-tunés, génération d'embeddings, et workflows ComfyUI.
Le L40S apporte 48 Go de mémoire et 91 TFLOPs FP16 — assez pour servir des modèles 70B quantifiés, faire tourner des jobs de fine-tuning à moyenne échelle, ou traiter en batch de gros pipelines de génération d'images. Le L40S est aussi notre option d'entraînement la plus économique pour le fine-tuning LoRA de modèles 7B-13B.
Le H100 est le prédateur ultime. 80 Go de mémoire HBM3, 1979 TFLOPs FP8, et le Transformer Engine qui accélère le calcul d'attention de 6x par rapport au A100. Utilisez-le pour entraîner des modèles sérieux, l'inférence pleine précision 70B+, ou tout workload où le GPU est le goulot.
| GPUs | NVIDIA L4 (24 Go), L40S (48 Go), H100 (80 Go) |
|---|---|
| vCPU | 8 à 32 cœurs · AMD EPYC |
| RAM | 32 Go à 256 Go DDR5 |
| Stockage | 200 Go à 4 To NVMe scratch |
| Réseau | 40 Gbps |
| CUDA | 12.x pré-installé |
| Stacks ML | PyTorch, TensorFlow, vLLM, TGI, ComfyUI |
| Datacenters | Paris (tous paliers), Marseille (L4) |
| Facturation | Horaire, sans minimum |
| Remise réservée | Jusqu'à −60 % en mensuel/annuel |
Garantie 14 jours, annulation à tout moment, support en français et anglais.