Whisper Artikel 05 von 08

Modellgröße wählen

Tiny, Base, Small, Medium oder Large: Genauigkeit, Tempo und Speicherbedarf sinnvoll gegeneinander abwägen.

Hier vergleichst du Whisper-Modellgrößen und wählst zwischen Geschwindigkeit, Genauigkeit und Speicherbedarf. Whisper gibt es nicht in einer einzigen Größe. Es gibt fünf Modellvarianten, die sich in Genauigkeit, Geschwindigkeit und Speicherbedarf unterscheiden. Die Wahl des richtigen Modells macht einen deutlichen Unterschied. Zu groß ist zu langsam. Zu klein macht Fehler. In der Mitte steckt der Alltag.

Die fünf Modelle im Überblick

Modell	Größe	RAM	Geschwindigkeit	Qualität Deutsch
tiny	39 MB	~1 GB	sehr schnell	ausreichend
base	74 MB	~1 GB	schnell	gut
small Mein Tipp	244 MB	~2 GB	gut	sehr gut
medium	769 MB	~5 GB	langsamer	ausgezeichnet
large	1,5 GB	~10 GB	langsam	bestmöglich

Es gibt auch spezielle Varianten: large-v2 und large-v3 sind verbesserte Versionen des Large-Modells. Für normale Nutzung braucht man sie nicht.

Warum ich small nutze

Ich habe alle fünf Modelle ausprobiert. Tiny macht bei Deutsch zu viele Fehler bei Umlauten und zusammengesetzten Wörtern. Base ist besser, aber bei selteneren Wörtern noch unsicher. Ab small wird es richtig gut.

Medium ist nochmal besser, keine Frage. Aber es braucht doppelt so lange und deutlich mehr Speicher. Für Diktat im Alltag ist der Unterschied zu small klein genug, dass er mich nicht stört. Und schnellere Ergebnisse bedeuten mehr Lust aufs Diktat.

Large würde ich nur einsetzen wenn ich professionelle Transkriptionen mit höchster Genauigkeit brauche, zum Beispiel für ein Interview das ich wörtlich veröffentliche. Für die tägliche Nutzung ist es überdimensioniert.

Praktische Faustregel

Normaler Rechner mit 8 GB RAM: small ist dein Modell. Leistungsstarker Rechner mit 16 GB oder mehr: medium wenn du maximale Genauigkeit willst. Älterer Rechner mit 4 GB RAM: base ist eine solide Wahl. Auf tiny würde ich nur ausweichen wenn es wirklich nicht anders geht.

Modell beim Aufruf festlegen

Das Modell gibst du beim Befehl direkt an:

whisper aufnahme.mp3 --language German --model small

Tausche small durch medium oder base wenn du ein anderes ausprobieren möchtest. Das Modell wird beim ersten Aufruf heruntergeladen und dann lokal gecacht. Du musst also nicht jedes Mal neu laden.

Wenn du mehrere Modelle lokal hast und wechselst, merkt man den Qualitätsunterschied sofort. Der direkteste Weg eins zu wählen: einfach dieselbe Aufnahme mit zwei Modellen transkribieren und das Ergebnis vergleichen.

Der nächste sinnvolle Schritt

Wenn du diesen Teil verstanden hast, passen diese Seiten als Nächstes:

Häufige Fragen

Welches Whisper-Modell ist der beste Start?

Small ist oft ein guter Kompromiss aus Qualität und Geschwindigkeit. Tiny oder Base sind schneller, aber ungenauer.

Warum ist Large nicht immer besser?

Large braucht mehr Speicher und Zeit. Für kurze Diktate kann ein kleineres Modell praktischer sein.

Kann ich das Modell später wechseln?

Ja. Du kannst pro Aufruf ein anderes Modell nutzen und so Qualität und Geschwindigkeit vergleichen.

Zurück: Diktat per Tastenkürzel Weiter: Aufnahmequalität verbessern