2025
April
15
2025

Die GPU-Server von cloudscale – für LLM, KI etc.

"KI" ist heute in aller Munde. Die Technologie weckt Hoffnungen für die Anwendung in den unterschiedlichsten Lebensbereichen – und bestimmt hast auch du schon Ideen, was du mit intelligenten Tools alles verbessern kannst. Viele Bausteine dafür sind im Internet frei verfügbar, und mit den neuen GPU-Servern von cloudscale hast du nun auch die nötige Rechenleistung, um mit dem passenden Model Vollgas zu geben.

Die neuen GPU-Flavors bei cloudscale

Nutze bei cloudscale ab sofort auch virtuelle Server mit GPUs! Wähle dazu beim Launch eines neuen Servers einen unserer GPU-Flavors aus. Genau wie bei den bisherigen Flex- und Plus-Flavors hast du die Wahl zwischen verschiedenen CPU- und RAM-Ausstattungen, zusätzlich erhält dein Server je nach Flavor eine bis vier physische GPUs zugeteilt. Ebenfalls in den GPU-Flavors enthalten ist eine lokale "Scratch Disk" – dazu gleich mehr.

Die neuen GPU-Flavors sind für maximale Performance ausgelegt. Dementsprechend basieren sie auf den bewährten Plus-Flavors: Die gewählte Anzahl CPU-Cores steht deinem virtuellen Server exklusiv zur Verfügung, und du darfst sie 24/7 voll auslasten. Das Gleiche gilt für die GPUs: Eine oder mehrere NVIDIA L40S GPUs liefern geballte Rechenpower für deine Workloads – die GPUs werden "als Ganzes" direkt als PCI-Devices an deinen virtuellen Server durchgereicht.

Ein neues Element: Die Scratch Disk

Seit Beginn wurden bei cloudscale die virtuellen Festplatten deiner Server in unseren Ceph-basierten Storage-Clustern gespeichert. So stehen sie immer sofort zur Verfügung, unabhängig davon, auf welcher physischen Maschine dein virtueller Server gerade läuft, und diese Volumes (ausser das root-Volume) können zwischen virtuellen Servern verschoben werden. Der Preis dafür ist eine gewisse Latenz; Lese- und Schreiboperationen gehen über Netzwerkverbindungen und sind damit – trotz 100-Gbps-Links – deutlich länger unterwegs als bei lokal verbauten NVMe-Disks.

Im Alltag konzentrieren sich oft die meisten Zugriffe auf einen kleinen Ausschnitt des Datenbestands, der nötigenfalls in einem Cache gehalten werden kann. Weil sich LLMs und ähnliche Workloads hier unterscheiden können, verfügen unsere GPU-Server über eine lokale sogenannte "Scratch Disk". Dieser Speicher liegt auf NVMe-Disks direkt in der physischen Maschine, auf der der virtuelle Server läuft, und bietet so minimale Latenz. Zum Schutz vor Ausfällen werden die Daten zudem in einem RAID-1-Verbund doppelt abgelegt.

Die neuen GPU-Server bei cloudscale: dedizierte CPU-Power, 1 bis 4 NVIDIA L40S GPUs und eine lokale Scratch Disk.

Für den Betrieb bringt dieses Setup ein paar Besonderheiten. Beim Verschieben von GPU-Servern auf eine andere physische Maschine (was wegen der GPUs auch nicht "live", sondern nur in ausgeschaltetem Zustand möglich ist) muss der Inhalt der Scratch Disk ebenfalls mit übertragen werden, was eine gewisse Zeit in Anspruch nimmt. Ein Verschieben deines GPU-Servers kann z.B. beim Skalieren ausgelöst werden oder nötig sein, wenn Wartungsarbeiten durch uns anstehen.

Im Fall von (Hardware-)Problemen werden GPU-Server je nach Verfügbarkeit auf einer anderen physischen Maschine neu gestartet. Gehe jedoch davon aus, dass du dabei eine neue, leere Scratch Disk erhältst. Bitte nutze die Scratch Disk daher nur für Daten, deren vollständiger Verlust jederzeit tolerierbar ist, und kopiere allfällige Zwischenergebnisse regelmässig an einen anderen Speicherort.

Ein Blick in die Entwicklung

Unsere GPU-Server stehen seit Ende Februar ausgewählten Kunden zur Verfügung, und das Feedback ist überaus positiv. Parallel zum Sammeln erster Praxiserfahrungen haben wir noch verschiedene Verbesserungen vorgenommen – teils auch an OpenStack, dem Open-Source-Projekt auf welchem unser Setup basiert. Soweit möglich und sinnvoll werden wir unsere Erweiterungen natürlich auch "upstream" an die jeweiligen Projekte zurückgeben.

Zu diesen Verbesserungen gehört, dass die Scratch Disk auch nachträglich vergrössert werden kann – bis zu 1'600 GB stehen dir lokal zur Verfügung, zusätzlich zu den gewohnten Volumes in unseren Storage-Clustern. Beim Verschieben der Scratch Disk zwischen physischen Maschinen haben wir zudem die Datenkompression deaktiviert; mit unserem internen 100-Gbps-Netzwerk lohnt es sich, auf diesen Overhead zu verzichten. Und bei der SSH-Verbindung, die für das Verschieben geöffnet wird, haben wir sichergestellt, dass die eingesetzten Ciphers von der AES-Unterstützung der CPUs profitieren.

Jetzt bist du dran

Beim Erstellen eines neuen virtuellen Servers in unserem Cloud Control Panel findest du die GPU-Flavors im Tab "Dedicated GPUs". Bitte benutze einmalig den Link "please contact support" und gib uns die Eckpunkte deiner geplanten Nutzung an; als Attachment benötigen wir den unterschriebenen "Vertragszusatz für GPU-Server". Nach einer manuellen Prüfung schalten wir die GPU-Flavors für dein gewünschtes Projekt frei.

Falls du noch keinen spezifischen Use Case hast, aber dennoch einmal mit deinem eigenen Chatbot sprechen möchtest, macht Lukas dir den Einstieg leicht. In unserem Engineering Blog zeigt er dir Schritt für Schritt, wie du Ollama und DeepSeek-R1 70B bei cloudscale installierst und übers Web zugänglich machst. Als Tipp: Unsere NVIDIA L40S haben 48 GB Memory pro GPU; damit die Performance nicht einbricht, nimm so viele GPUs, dass dein gewähltes Model vollständig im Memory der GPUs Platz findet.


Unsere neuen GPU-Server mit aktuellen NVIDIA L40S GPUs und lokaler Scratch Disk bieten maximale Performance für deine LLM- und KI-Workloads. Nach einmaliger Freischaltung kannst du GPU-Server via Control Panel oder API jederzeit in Self-Service starten, skalieren und löschen. Und natürlich profitierst du dabei – wie bei cloudscale üblich – von sekundengenauer Abrechnung ohne Fixkosten und dem Datenstandort Schweiz. Momentan ist das Angebot jedoch begrenzt: first come, first served.

Weiterhin persönlich für dich da,
Dein cloudscale-Team

Zurück zur Übersicht