Hardware, Leistung und Grenzen
Der Abschluss der Ollama-Reihe: RAM, GPU, VRAM, Modellgrößen und realistische Grenzen für lokale KI einschätzen.
Hier schätzt du RAM, GPU, VRAM und Modellgröße ein, bevor du lokale KI produktiv nutzt. Wir sind am Ende der Ollama-Reihe angekommen. Ollama läuft auf fast jeder modernen Hardware. Aber die Geschwindigkeit hängt stark davon ab was verbaut ist. Ein Modell das auf einer guten GPU in Sekunden antwortet, braucht auf einer CPU mehrere Minuten.
Dieser Artikel erklärt was den Unterschied macht und für welches Setup welche Modelle realistisch sind.
Was die Geschwindigkeit bestimmt
Die entscheidende Frage ist: läuft das Modell im GPU-Speicher (VRAM) oder im normalen Arbeitsspeicher (RAM)?
Modellgröße vs. verfügbarer Speicher
| Verfügbarer Speicher | Passende Modelle | Qualität |
|---|---|---|
| 8 GB RAM / VRAM | gemma4:e4b, kleine 7B-Modelle |
Ausreichend für einfache Aufgaben |
| 16 GB RAM / VRAM | qwen3.5:9b, gemma4:e4b, qwen2.5-coder:7b |
Gut für tägliche Arbeit |
| 24 GB VRAM | Alle oben genannten plus erste 13B-Modelle | Sehr gut, flüssige Geschwindigkeit |
| 32 GB+ RAM / VRAM | gemma4:26b und größere Modelle |
Stark, nahe an Cloud-Qualität |
GPU-Empfehlungen
Für NVIDIA-GPUs gilt: mehr VRAM schlägt mehr Rechenleistung. Eine ältere RTX 3090 mit 24 GB VRAM ist für lokale Modelle oft besser geeignet als eine neuere RTX 4070 mit 12 GB.
Konkrete Einschätzungen nach Budget:
gemma4:e4b ist brauchbar, für größere Modelle wird es frustierend langsam.
Leistung messen
Ollama zeigt nach jeder Antwort Leistungsdaten an wenn du OLLAMA_DEBUG=1 setzt. Einfacher ist der direkte Blick auf die Ausgabe im Terminal: nach dem Text erscheint eine Zeile mit Tokens pro Sekunde.
Als Richtwert für angenehmes Arbeiten: über 20 Token pro Sekunde fühlt sich flüssig an. Unter 5 Token pro Sekunde wird es zäh.
Mit --verbose bekommst du nach jeder Antwort detaillierte Timing-Informationen: Ladezeit, Prompt-Verarbeitung und Generierungsgeschwindigkeit.
Ich nutze einen Laptop mit AMD Ryzen 9 7940HX, 32 GB RAM und einer NVIDIA RTX 4060 Mobile unter Linux Mint. Die Modelle gemma4:e4b und qwen3.5:9b laufen komplett im VRAM und antworten flott. gemma4:26b braucht mehr Speicher und läuft teilweise im RAM, ist aber für anspruchsvolle Aufgaben den langsameren Start wert. Für den Alltag ist das mehr als genug und kostet mich keinen Cent an laufenden Gebühren. Damit kannst du entscheiden, welche Modelle lokal Sinn ergeben und wann Cloud-Modelle trotzdem die bessere Wahl bleiben.
Häufige Fragen
Was begrenzt Ollama am stärksten?
Meist sind RAM, VRAM und Speicherbandbreite entscheidend. Größere Modelle brauchen deutlich mehr Speicher.
Kann Ollama ohne GPU sinnvoll sein?
Ja, aber Antworten werden langsamer. Für Tests und kleine Modelle reicht CPU oft aus, für täglichen Einsatz ist GPU angenehmer.
Warum passt ein Modell nicht in den Speicher?
Modellgröße, Quantisierung und Kontextlänge bestimmen den Speicherbedarf. Wenn RAM oder VRAM knapp sind, wird es langsam oder startet nicht.