Open WebUI Artikel 03 von 08

Erste Unterhaltung und Modellwahl

Modell auswählen, Frage stellen, Antwort lesen: was beim ersten lokalen Chat gut klappt und wo Cloud-KI noch stärker ist.

Hier startest du den ersten Chat in Open WebUI und testest Modellwahl, Antwortqualität und Prompt-Verhalten. Open WebUI läuft, Ollama ist aktiv. Jetzt kommt der erste echte Praxismoment: ein Modell auswählen, eine Frage stellen und schauen was passiert. Mein erster Chat mit einem lokalen Modell war eine Mischung aus Beeindrucktsein und Ernüchterung. Beeindruckt weil es überhaupt so gut funktioniert. Ernüchtert weil ein kleines lokales Modell eben kein GPT-4 ist.

Ich erkläre dir was dich erwartet, damit du mit realistischen Erwartungen startest und das Beste aus dem herausholt was du hast.

Die Oberfläche verstehen

Wenn du Open WebUI öffnest, siehst du eine Oberfläche die stark an ChatGPT erinnert. Links die Chat-Übersicht, in der Mitte das Gespräch, oben die Modell-Auswahl.

🔽

Modell-Auswahl oben links. Klick auf den Modellnamen öffnet eine Dropdown-Liste mit allen verfügbaren Modellen. Hier wechselst du zwischen Modellen.

✏️

Neuer Chat. Oben links das Stift-Symbol oder Strg+Shift+O. Startet eine frische Unterhaltung ohne vorherigen Kontext.

⚙️

Einstellungen. Unten links das eigene Profilbild oder Konto-Symbol. Hier findest du alle Einstellungen, Modell-Verwaltung und System-Prompts.

Was lokale Modelle gut können

Ich nutze täglich lokale Modelle für eine Reihe von Aufgaben. Nach einiger Zeit hat sich ein klares Bild ergeben, wofür sie sich eignen und wofür nicht.

Klappt sehr gut

Texte schreiben, umformulieren und kürzen. Einfache Fragen beantworten. Code erklären und kleinere Snippets schreiben. Brainstorming und erste Entwürfe. Zusammenfassungen.

Grenzen kennen

Kein Internetzugang, kein aktuelles Wissen. Sehr komplexe mehrstufige Analysen. Präzise Faktenfragen zu spezifischen Daten. Hier ist ein großes Cloud-Modell besser.

Die Faustregel: lokale Modelle sind stark bei allem wo es ums Schreiben, Umformulieren und Strukturieren geht. Schwächer bei allem wo es auf präzise Fakten und aktuelles Wissen ankommt.

Besser fragen von Anfang an

Die Qualität der Antwort hängt stark von der Qualität der Frage ab. Das gilt für Cloud-KI genauso, aber bei kleineren lokalen Modellen ist der Unterschied noch ausgeprägter. Ein paar Prinzipien die ich von Anfang an anwende:

Weniger gut

Schreib einen Text über KI.

Besser

Schreib einen kurzen Einführungstext für meinen Newsletter. Thema: Warum lokale KI-Modelle für Datenschutz wichtig sind. Ton: sachlich aber verständlich, keine Fachbegriffe. Länge: etwa 150 Wörter.

Konkret statt vage. Ton und Länge mitangeben. Kontext liefern wenn das Modell ihn braucht. Das macht den größten Unterschied.

Mein Tipp

Wenn eine Antwort nicht gut ist, einfach im selben Chat nachfragen: "Das ist zu lang", "Formuliere es informeller" oder "Geh mehr auf Datenschutz ein". Das Modell hat den bisherigen Gesprächsverlauf im Kontext und kann gezielt anpassen.

Geschwindigkeit: was ist normal?

Lokale Modelle sind langsamer als ChatGPT. Das ist normal und hängt von deiner Hardware ab. Auf einem normalen Rechner ohne dedizierte GPU dauert eine Antwort von Gemma 4B je nach Länge 5–30 Sekunden. Wer eine Nvidia-GPU hat, bekommt deutlich schnellere Antworten.

Das klingt nach viel. In der Praxis stört es mich kaum. Ich stelle eine Frage und mache kurz etwas anderes während das Modell antwortet. Die lokale Kontrolle und null Kosten wiegen das auf.

Aus eigener Praxis

Den ersten Chat nutze ich nicht als Qualitätstest für alles. Ich prüfe erst, ob das richtige Modell ausgewählt ist, ob Antworten lokal kommen und ob kurze Standardaufgaben reproduzierbar funktionieren.

Der nächste sinnvolle Schritt

Wenn du diesen Teil verstanden hast, passen diese Seiten als Nächstes:

Häufige Fragen

Warum sehe ich kein Modell in Open WebUI?

Prüfe zuerst, ob Ollama läuft und ob mindestens ein Modell lokal geladen wurde. Danach muss Open WebUI die richtige Verbindung nutzen.

Wie teste ich ein Modell sinnvoll?

Nutze kurze Alltagsfragen, eine Zusammenfassung und eine anspruchsvollere Denkaufgabe. So erkennst du Geschwindigkeit und Qualität schneller.

Warum sind Antworten lokal manchmal schlechter?

Lokale Modelle sind oft kleiner als Cloud-Modelle. Dafür sind sie privat, günstig und gut für viele wiederholbare Aufgaben.

Zurück: Installation mit Docker Weiter: Modelle und APIs einbinden