Ollama Artikel 03 von 08

Erstes Modell laden

Ein Modell auswählen, herunterladen und direkt testen: so wird aus der Installation die erste lokale Chat-Session.

Hier lädst du dein erstes Ollama-Modell, testest Antworten und verwaltest installierte Modelle. Ollama ist installiert. Jetzt fehlt das Modell. Das ist der erste echte Praxisschritt der Reihe. Die Auswahl ist groß: Dutzende Modelle in verschiedenen Größen und Spezialisierungen. Für den Anfang hilft es, die Auswahl auf ein paar bewährte Kandidaten einzugrenzen.

Das Wichtigste zuerst: Modellgröße und verfügbarer Arbeitsspeicher müssen zusammenpassen. Ein zu großes Modell läuft entweder gar nicht oder sehr langsam. Ein zu kleines Modell ist schnell aber begrenzt in seiner Qualität.

Welches Modell für den Einstieg

Meine Empfehlung für den ersten Start nach verfügbarem RAM:

gemma4:e4b

4B Parameter, ca. 9.6 GB. Googles aktuelles Modell, effizientes Multimodal-Modell, stark bei deutschsprachigen Texten. Läuft gut auf 16 GB RAM und ist überraschend fähig für seine Größe.

ollama run gemma4:e4b

Modell herunterladen und starten

Der Download und der Start passieren mit demselben Befehl. Ollama prüft beim Start ob das Modell bereits lokal vorhanden ist und lädt es nur beim ersten Aufruf herunter.

Befehl eingeben

Für den Einstieg mit gemma4:e4b:

ollama run gemma4:e4b

Download abwarten

Beim ersten Aufruf siehst du einen Fortschrittsbalken. gemma4:e4b sind ca. 9.6 GB. Mit einer normalen Leitung dauert das 10 bis 20 Minuten.

Chat beginnt automatisch

Nach dem Download erscheint der >>> Prompt. Schreib einfach drauf los. Mit /bye verlässt du den Chat.

Modell nur herunterladen ohne Chat

Wenn du ein Modell vorab laden möchtest ohne gleich in eine Chat-Session zu starten, nutze ollama pull gemma4:e4b. Das lädt das Modell herunter und kehrt danach zum Terminal-Prompt zurück.

Modell-Varianten und Tags

Die meisten Modelle gibt es in verschiedenen Varianten. Das Tag hinter dem Doppelpunkt wählt die Variante aus.

ollama run gemma4            # Standard-Tag, lädt die Standard-Variante
ollama run gemma4:e4b        # explizit die kompakte e4b-Variante
ollama run gemma4:26b        # große 26B-Version, braucht 32+ GB RAM
ollama run qwen3.5:9b-instruct-q4_0   # mit Quantisierung explizit angegeben

Die Zahl nach q gibt die Quantisierungsstufe an: q4 ist komprimierter und schneller, q8 ist größer und etwas genauer. Für die meisten Anwendungen ist q4 völlig ausreichend.

Installierte Modelle verwalten

Mit ein paar Befehlen hältst du den Überblick über deine Modelle:

ollama list              # alle installierten Modelle anzeigen
ollama rm gemma4:e4b     # Modell entfernen und Speicher freigeben
ollama show qwen3.5:9b   # Details zu einem Modell anzeigen

Meine Empfehlung

Ich starte selbst meistens mit gemma4:e4b oder qwen3.5:9b für Texte und Analyse, und qwen2.5-coder:7b für Code. Artikel 04 zeigt alle Modelle im Vergleich mit konkreten Empfehlungen für verschiedene Aufgaben.

Aus eigener Praxis

Für Vergleiche nutze ich lieber zwei oder drei feste Testfragen statt nur ein Bauchgefühl. Dann sehe ich schneller, ob ein Modell für kurze Antworten, Zusammenfassungen oder Coding-Aufgaben brauchbar ist.

Der nächste sinnvolle Schritt

Wenn du diesen Teil verstanden hast, passen diese Seiten als Nächstes:

Häufige Fragen

Welches Ollama Modell eignet sich für den Start?

Ein kleines aktuelles Modell ist für den Einstieg sinnvoll, weil Download, Speicherbedarf und Antwortzeit überschaubar bleiben.

Was bedeuten Modell-Tags?

Tags beschreiben Varianten eines Modells, etwa Größe, Quantisierung oder Version. Sie beeinflussen Qualität, Speicherbedarf und Geschwindigkeit.

Wie entferne ich ein Modell wieder?

Mit ollama rm plus Modellname löschst du ein lokal gespeichertes Modell und gibst Speicherplatz frei.

Zurück: Ollama installieren Weiter: Modelle vergleichen