Zurück zur Übersicht
Ollama Artikel 08 von 08

Hardware, Leistung und Grenzen

Der Abschluss der Ollama-Reihe: RAM, GPU, VRAM, Modellgrößen und realistische Grenzen für lokale KI einschätzen.

Hier schätzt du RAM, GPU, VRAM und Modellgröße ein, bevor du lokale KI produktiv nutzt. Wir sind am Ende der Ollama-Reihe angekommen. Ollama läuft auf fast jeder modernen Hardware. Aber die Geschwindigkeit hängt stark davon ab was verbaut ist. Ein Modell das auf einer guten GPU in Sekunden antwortet, braucht auf einer CPU mehrere Minuten.

Dieser Artikel erklärt was den Unterschied macht und für welches Setup welche Modelle realistisch sind.

Was die Geschwindigkeit bestimmt

Die entscheidende Frage ist: läuft das Modell im GPU-Speicher (VRAM) oder im normalen Arbeitsspeicher (RAM)?

VRAM Wenn das komplette Modell in den VRAM einer NVIDIA- oder AMD-GPU passt, ist die Inferenz sehr schnell. Typisch sind 30 bis 100 Token pro Sekunde je nach Modellgröße und GPU-Generation.
RAM Wenn kein VRAM vorhanden ist oder das Modell zu groß ist, läuft alles über den normalen Arbeitsspeicher und die CPU. Deutlich langsamer: 2 bis 10 Token pro Sekunde, bei großen Modellen noch weniger.
Unified Apple Silicon (M1 bis M4) hat keinen getrennten VRAM. RAM und GPU teilen sich denselben Speicher. Das macht Macs mit viel RAM überraschend gut für lokale Modelle.

Modellgröße vs. verfügbarer Speicher

Verfügbarer Speicher Passende Modelle Qualität
8 GB RAM / VRAM gemma4:e4b, kleine 7B-Modelle Ausreichend für einfache Aufgaben
16 GB RAM / VRAM qwen3.5:9b, gemma4:e4b, qwen2.5-coder:7b Gut für tägliche Arbeit
24 GB VRAM Alle oben genannten plus erste 13B-Modelle Sehr gut, flüssige Geschwindigkeit
32 GB+ RAM / VRAM gemma4:26b und größere Modelle Stark, nahe an Cloud-Qualität

GPU-Empfehlungen

Für NVIDIA-GPUs gilt: mehr VRAM schlägt mehr Rechenleistung. Eine ältere RTX 3090 mit 24 GB VRAM ist für lokale Modelle oft besser geeignet als eine neuere RTX 4070 mit 12 GB.

Konkrete Einschätzungen nach Budget:

Einstieg RTX 3060 (12 GB) oder RTX 4060 (8 GB). Für 7B bis 9B-Modelle gut geeignet, flüssige Geschwindigkeit im Alltag.
Mittelfeld RTX 3090 oder RTX 4070 Ti (beide 24 GB). Gebrauchte RTX 3090 ist ein sehr gutes Preis-Leistungs-Verhältnis für Heimanwender.
Apple Silicon M2/M3/M4 mit 32 GB oder mehr RAM. Hervorragende Effizienz, leise, kein separater GPU-Kauf nötig. Meine erste Empfehlung für Mac-Nutzer.
Ohne GPU Funktioniert, aber nur für kleine Modelle sinnvoll. 16 GB RAM für gemma4:e4b ist brauchbar, für größere Modelle wird es frustierend langsam.

Leistung messen

Ollama zeigt nach jeder Antwort Leistungsdaten an wenn du OLLAMA_DEBUG=1 setzt. Einfacher ist der direkte Blick auf die Ausgabe im Terminal: nach dem Text erscheint eine Zeile mit Tokens pro Sekunde.

Als Richtwert für angenehmes Arbeiten: über 20 Token pro Sekunde fühlt sich flüssig an. Unter 5 Token pro Sekunde wird es zäh.

ollama run qwen3.5:9b --verbose

Mit --verbose bekommst du nach jeder Antwort detaillierte Timing-Informationen: Ladezeit, Prompt-Verarbeitung und Generierungsgeschwindigkeit.

Mein Setup

Ich nutze einen Laptop mit AMD Ryzen 9 7940HX, 32 GB RAM und einer NVIDIA RTX 4060 Mobile unter Linux Mint. Die Modelle gemma4:e4b und qwen3.5:9b laufen komplett im VRAM und antworten flott. gemma4:26b braucht mehr Speicher und läuft teilweise im RAM, ist aber für anspruchsvolle Aufgaben den langsameren Start wert. Für den Alltag ist das mehr als genug und kostet mich keinen Cent an laufenden Gebühren. Damit kannst du entscheiden, welche Modelle lokal Sinn ergeben und wann Cloud-Modelle trotzdem die bessere Wahl bleiben.

Der nächste sinnvolle Schritt

Wenn du diesen Teil verstanden hast, passen diese Seiten als Nächstes:

Häufige Fragen

Was begrenzt Ollama am stärksten?

Meist sind RAM, VRAM und Speicherbandbreite entscheidend. Größere Modelle brauchen deutlich mehr Speicher.

Kann Ollama ohne GPU sinnvoll sein?

Ja, aber Antworten werden langsamer. Für Tests und kleine Modelle reicht CPU oft aus, für täglichen Einsatz ist GPU angenehmer.

Warum passt ein Modell nicht in den Speicher?

Modellgröße, Quantisierung und Kontextlänge bestimmen den Speicherbedarf. Wenn RAM oder VRAM knapp sind, wird es langsam oder startet nicht.