Zurück zur Übersicht
Whisper Artikel 01 von 08

Was ist Whisper?

Der Start der Whisper-Lernreise: wann lokale Spracherkennung sinnvoll ist, was privat bleibt und was du für Diktat oder Transkription brauchst.

Hier verstehst du Whisper als lokale Sprache-zu-Text-Lösung für Diktat, Transkription und private Notizen. Ich diktiere seit über einem Jahr täglich mit Whisper. Texte, Notizen, Ideen die mir unterwegs einfallen. Und ich zahle dafür nichts, kein einziges Wort verlässt meinen Rechner. Genau darum beginnt diese Reihe hier: mit der Frage, wann lokale Spracherkennung im Alltag wirklich sinnvoll ist.

Whisper ist ein Spracherkennungsmodell von OpenAI. Es wurde 2022 veröffentlicht und ist seitdem Open Source, das heißt jeder kann es kostenlos herunterladen und auf dem eigenen Rechner betreiben. OpenAI selbst nutzt die API-Version kommerziell, aber das Modell selbst ist frei verfügbar.

Whisper vs. Cloud-Dienste

Bevor Whisper bei mir angekommen ist, habe ich verschiedene Cloud-Dienste für Sprache-zu-Text ausprobiert. Google, Microsoft, ein paar spezialisierte Anbieter. Sie funktionieren alle ganz ordentlich. Aber sie haben gemeinsame Eigenschaften die mich gestört haben.

Cloud-Dienste
Deine Sprachaufnahmen gehen an externe Server. Monatliche Kosten bei regelmäßiger Nutzung. Kein Internet bedeutet kein Diktat. Datenschutz liegt beim Anbieter.
Whisper lokal
Alles bleibt auf deinem Rechner. Einmal installiert, dauerhaft kostenlos. Funktioniert offline. Du bist alleiniger Herr über deine Daten.

Der entscheidende Punkt für mich war Datenschutz. Was ich diktiere geht niemanden etwas an. Notizen, Gedanken, Entwürfe für Texte. Das ist privat. Mit Whisper bleibt es privat.

Wie Whisper funktioniert

Du sprichst in dein Mikrofon. Whisper nimmt die Audiodaten, wandelt sie in Text um und gibt dir das Ergebnis zurück. Das klingt simpel, und vom Prinzip her ist es das auch.

Im Hintergrund steckt ein neuronales Netzwerk das auf einer riesigen Menge an Sprachaufnahmen trainiert wurde. Rund 680.000 Stunden Audio aus dem Internet, in dutzenden Sprachen. Das erklärt warum Whisper so gut mit Akzenten, Dialekten und fachspezifischen Begriffen umgehen kann. Es hat einfach sehr viel gehört.

Deutsch versteht Whisper ausgesprochen gut. Ich spreche Schwäbisch mit einer Prise Bayerisch, und Whisper schreibt mit, ohne zu stolpern. Das war bei manchen Cloud-Diensten anders.

Wichtig zu wissen

Whisper transkribiert. Es schreibt auf, was du sagst. Es korrigiert keine Rechtschreibung, erfindet nichts hinzu und interpretiert nicht. Was du sprichst, bekommst du als Text. Das ist eine Stärke: du bist immer Herr über das Ergebnis.

Was du brauchst

Die Grundvoraussetzungen sind überschaubar. Du brauchst keinen Gaming-Rechner und keine Spezialhardware.

💻
Ein normaler Rechner Whisper läuft auf Linux, Mac und Windows. Für das kleine Modell reichen 4 GB RAM. Für das mittlere oder große Modell empfehle ich 8 GB oder mehr. Ich nutze das Small-Modell täglich auf meinem Linux-Rechner.
🎤
Ein Mikrofon Das eingebaute Mikrofon deines Notebooks reicht für den Anfang. Für regelmäßigen Einsatz lohnt sich ein einfaches USB-Headset oder ein kleines Tischmikrofon. Ich nutze ein günstiges Headset und bin zufrieden.
🌐
Internet nur einmalig Du brauchst Internet nur einmal: um das Modell herunterzuladen. Danach läuft alles komplett offline. Das Modell wird lokal gespeichert und ist danach immer verfügbar.
⏱️
Geduld beim ersten Start Das Modell wird beim ersten Aufruf heruntergeladen. Das kann je nach Verbindung ein paar Minuten dauern. Danach startet alles sofort.

Welche Varianten gibt es?

Whisper gibt es in mehreren Ausführungen. Das Original von OpenAI, und Faster-Whisper, eine optimierte Version die schneller läuft und weniger Speicher braucht. Ich nutze Faster-Whisper, weil es auf meinem Rechner spürbar flotter reagiert.

Beide Varianten machen dasselbe: Sprache zu Text. Der Unterschied liegt in der Geschwindigkeit und im Speicherbedarf. Für den Einstieg empfehle ich, mit der einfachsten Variante anzufangen und erst dann zu wechseln, wenn du weißt was du brauchst.

Im nächsten Artikel zeige ich dir, wie du Whisper auf deinem System installierst. Schritt für Schritt, für alle drei Betriebssysteme. Danach transkribierst du die erste Aufnahme und baust daraus nach und nach ein Diktat- und Automations-Setup.

Der nächste sinnvolle Schritt

Wenn du diesen Teil verstanden hast, passen diese Seiten als Nächstes:

Häufige Fragen

Was ist Whisper?

Whisper ist ein Spracherkennungsmodell, das Audiodateien oder Sprache in Text transkribiert.

Kann Whisper komplett lokal laufen?

Ja. Nach Installation und Modell-Download kann Whisper ohne Cloud und ohne laufende Kosten lokal transkribieren.

Ist Whisper ein Diktierprogramm?

Whisper ist die Erkennung. Für komfortables Diktat brauchst du zusätzlich Aufnahme, Tastenkürzel und Textausgabe.