Ollama Artikel 04 von 08

Modelle vergleichen

Llama, Gemma, Mistral, Phi, Qwen und Code-Modelle: welches Modell zu welcher Aufgabe passt.

Hier vergleichst du Ollama-Modelle nach Aufgabe, Geschwindigkeit, Qualität und Hardwarebedarf. Ollama unterstützt viele verschiedene Modelle. Die Auswahl wächst ständig. Wer neu einsteigt, verliert da leicht den Überblick. In diesem Artikel schaue ich mir die wichtigsten Modelle an und erkläre wofür ich sie einsetze.

Alle Modelle kannst du auf ollama.com/library durchsuchen. Dort findest du auch die genauen Größen und verfügbaren Varianten.

Die wichtigsten Modelle

Googles aktuelle Gemma-Generation und die Version die ich selbst täglich nutze. gemma4:e4b ist ein effizientes Multimodal-Modell das für seine Größe sehr stark ist, besonders bei deutschsprachigen Texten. gemma4:26b ist deutlich leistungsfähiger und mein erstes Modell wenn es etwas schwieriger wird. Braucht 32+ GB RAM.

ollama run gemma4:e4b

Microsofts Phi-Modelle sind für ihre Größe überraschend stark, vor allem bei Mathematik, Code und logischem Denken. Phi-4 mit 14B erreicht in manchen Bereichen die Qualität deutlich größerer Modelle. Gut für alle die Rechenaufgaben oder Code-Generierung lokal erledigen wollen.

ollama run phi4

Alibabas Qwen-Reihe hat sich zu einem starken Allrounder entwickelt. Qwen 3.5 in 9B ist aktuell eines meiner Standardmodelle: schnell, gut bei mehrsprachigen Aufgaben und überzeugend bei Texten und Analyse. Für die Größe sehr effizient und mit 16 GB RAM komfortabel nutzbar.

ollama run qwen3.5:9b

Für reine Code-Aufgaben gibt es spezialisierte Modelle. Qwen2.5-Coder in 7B ist das Modell das ich selbst für Code-Aufgaben einsetze: es schreibt, erklärt und debuggt Code deutlich zuverlässiger als allgemeine Modelle gleicher Größe. Passt bequem auf 16 GB RAM.

ollama run qwen2.5-coder:7b

Was für welche Aufgabe

Meine Empfehlungen nach Anwendungsfall:

Allgemeiner Chat qwen3.5:9b oder gemma4:e4b. Guter Allrounder für tägliche Fragen, Texte und Ideen.

Texte schreiben gemma4:e4b oder qwen3.5:9b für Deutsch. Beide produzieren flüssige, natürliche Texte in guter Qualität.

Code generieren qwen2.5-coder:7b. Spezialisierte Modelle sind hier klar besser als Allrounder gleicher Größe.

Automatisierungen qwen3.5:9b. Zuverlässiges Instruktions-Following und vorhersehbare Ausgaben für n8n-Workflows.

Schnelle Antworten gemma4:e4b. Für seine Größe überraschend stark und startet schnell.

Maximale Qualität gemma4:26b wenn genug RAM vorhanden ist. Deutlich stärker als die kleineren Varianten, mein erstes Modell für anspruchsvolle Aufgaben.

Modelle nebeneinander testen

Du kannst mehrere Modelle herunterladen und direkt vergleichen. Starte einfach zwei Terminal-Sessions und stelle beiden die gleiche Frage:

# Terminal 1
ollama run gemma4:e4b

# Terminal 2
ollama run qwen3.5:9b

So bekommst du schnell ein Gefühl dafür welches Modell für deine Aufgaben besser passt. Für spätere Vergleiche ohne Chat-Session kannst du ollama run auch mit einem direkten Prompt aufrufen:

ollama run qwen3.5:9b "Erkläre Quantencomputing in zwei Sätzen"

Mein Setup

Ich habe aktuell vier Modelle dauerhaft installiert: qwen3.5:9b als Allrounder für Texte und Analyse, qwen2.5-coder:7b für Code-Aufgaben, gemma4:e4b für schnelle Aufgaben und deutschsprachige Texte sowie gemma4:26b wenn ich mehr Qualität brauche. Das reicht für 95% meiner täglichen Arbeit.

Der nächste sinnvolle Schritt

Wenn du diesen Teil verstanden hast, passen diese Seiten als Nächstes:

Häufige Fragen

Gibt es das beste Ollama Modell?

Nein. Für kurze Alltagsfragen zählt Geschwindigkeit, für Coding oder Analyse eher Modellqualität und Kontextgröße.

Warum antworten kleinere Modelle schlechter?

Kleinere Modelle brauchen weniger Speicher, haben aber oft weniger Wissen, weniger Präzision und schwächere Schlussfolgerungen.

Soll ich mehrere Modelle installieren?

Ja, ein schnelles kleines und ein stärkeres größeres Modell sind für viele lokale Setups eine gute Kombination.

Zurück: Erstes Modell laden Weiter: Open WebUI verbinden