Qu'est-ce qu'un VPS GPU ?

Un VPS GPU est un serveur virtuel avec un accès GPU passé en passthrough dédié — le GPU n'est partagé avec aucun autre locataire. Nous proposons trois paliers NVIDIA : L4 (inférence économique), L40S (entraînement à moyenne échelle et inférence haute capacité), et H100 (entraînement sérieux, fine-tuning, accélération FP8).

Chaque VPS GPU est livré avec la stack CUDA complète pré-installée : driver NVIDIA, toolkit CUDA (12.x), cuDNN, NCCL, et un choix d'images pré-cuites pour PyTorch, TensorFlow, vLLM, TGI et ComfyUI. Vous pouvez exécuter torch.cuda.is_available() == True dans les 90 secondes qui suivent le clic sur déployer.

La facturation est horaire sans engagement minimum. Un L4 démarre à 0,40 €/heure. Un H100 est à 3,20 €/heure. Lancez-en un pour fine-tuner pendant un après-midi, détruisez-le quand vous avez fini, ne payez que le temps GPU actif. Pour les charges soutenues, des prix réservés sont disponibles avec jusqu'à 60 % de réduction.

Les paliers GPU expliqués

NVIDIA L4 — 0,40 €/heure

Le L4 est notre GPU d'inférence d'entrée de gamme. Avec 24 Go de mémoire GDDR6 et 30 TFLOPs FP16, il est optimisé pour servir des LLMs petits à moyens (jusqu'à 13B paramètres) et la génération d'images SDXL. Parfait pour de l'inférence en production de modèles fine-tunés, génération d'embeddings, et workflows ComfyUI.

NVIDIA L40S — 1,40 €/heure

Le L40S apporte 48 Go de mémoire et 91 TFLOPs FP16 — assez pour servir des modèles 70B quantifiés, faire tourner des jobs de fine-tuning à moyenne échelle, ou traiter en batch de gros pipelines de génération d'images. Le L40S est aussi notre option d'entraînement la plus économique pour le fine-tuning LoRA de modèles 7B-13B.

NVIDIA H100 — 3,20 €/heure

Le H100 est le prédateur ultime. 80 Go de mémoire HBM3, 1979 TFLOPs FP8, et le Transformer Engine qui accélère le calcul d'attention de 6x par rapport au A100. Utilisez-le pour entraîner des modèles sérieux, l'inférence pleine précision 70B+, ou tout workload où le GPU est le goulot.

Cas d'usage

Inférence LLM : Servez Llama 3, Mistral, Mixtral, Qwen via vLLM ou TGI.
Fine-tuning : LoRA et full fine-tuning de modèles 7B-13B sur un seul H100.
Génération d'images : Stable Diffusion XL, Flux, workflows ComfyUI.
Vision par ordinateur : YOLOv8/v9, Detectron2, MMDetection.
Calcul scientifique : Simulations CUDA, chimie computationnelle.

Spécifications

GPUs	NVIDIA L4 (24 Go), L40S (48 Go), H100 (80 Go)
vCPU	8 à 32 cœurs · AMD EPYC
RAM	32 Go à 256 Go DDR5
Stockage	200 Go à 4 To NVMe scratch
Réseau	40 Gbps
CUDA	12.x pré-installé
Stacks ML	PyTorch, TensorFlow, vLLM, TGI, ComfyUI
Datacenters	Paris (tous paliers), Marseille (L4)
Facturation	Horaire, sans minimum
Remise réservée	Jusqu'à −60 % en mensuel/annuel

VPS GPU