Whisper Artikel 02 von 08

Whisper installieren

Python, ffmpeg, pip und erster Test: so bringst du Whisper lokal zum Laufen, bevor du echte Aufnahmen transkribierst.

Hier installierst du Whisper lokal und prüfst mit einer ersten Audiodatei, ob die Transkription funktioniert. Nach dem Überblick kommt der praktische Start. Die Installation von Whisper ist einfacher als man denkt. Der einzige Stolperstein für viele ist Python. Aber keine Sorge: du musst Python nicht verstehen, nur installiert haben. Der Rest sind ein paar Befehle im Terminal, die ich dir direkt mitgebe.

Ich erkläre hier die Installation des originalen Whisper von OpenAI. Es ist der einfachste Einstieg und läuft auf allen drei Betriebssystemen nach demselben Muster. In Artikel 08 zeige ich dir dann Faster-Whisper, wenn du mehr Geschwindigkeit brauchst.

Vorbereitung

Bevor du loslegst, brauchst du zwei Dinge: Python 3.9 oder neuer, und einen Paketmanager namens pip. Beides kommt in der Regel zusammen.

Auf Debian/Ubuntu ist Python meist schon vorhanden. Prüfen und ergänzen:

python3 --version
# Wenn nichts kommt:
sudo apt update && sudo apt install python3 python3-pip ffmpeg

ffmpeg braucht Whisper für die Audio-Verarbeitung. Nicht vergessen.

Homebrew macht die Installation auf dem Mac einfach. Falls noch nicht vorhanden, erst Homebrew installieren (brew.sh), dann:

brew install python ffmpeg

Danach prüfen: python3 --version

In der PowerShell (als Administrator) beide Pakete per winget installieren:

# Python installieren:
winget install Python.Python.3

# ffmpeg installieren:
winget install ffmpeg

Danach ein neues Terminal-Fenster öffnen damit die Pfade aktiv sind. Alternativ Python direkt von python.org herunterladen. Dabei im Setup-Fenster unbedingt "Add Python to PATH" anhaken.

Whisper installieren

Mit pip installierst du Whisper in wenigen Sekunden. Dieser Befehl funktioniert auf allen drei Systemen identisch.

pip install -U openai-whisper

Das war es. Whisper ist jetzt installiert. Das Modell selbst wird beim ersten Aufruf heruntergeladen, deshalb braucht der erste Test etwas mehr Zeit.

Tipp

Wenn pip nicht gefunden wird, probiere pip3 statt pip. Auf Linux und Mac ist das oft notwendig.

Erster Test

Jetzt prüfen wir ob alles funktioniert. Nimm eine beliebige Audio-Datei, zum Beispiel eine kurze WAV oder MP3. Dann im Terminal:

whisper meine-aufnahme.mp3 --language German --model small

Beim ersten Mal lädt Whisper das Modell herunter. Das small-Modell ist rund 240 MB groß. Anschließend erscheint der transkribierte Text direkt im Terminal und wird als Textdatei gespeichert.

Modell wird heruntergeladen

Nur beim allerersten Aufruf. Dauert je nach Verbindung 1-3 Minuten. Danach ist es lokal gespeichert.

Transkription läuft

Whisper verarbeitet die Audiodatei. Bei einer Minute Audio dauert das auf normaler Hardware 20-40 Sekunden.

Ergebnis erscheint

Der Text wird im Terminal ausgegeben und als .txt Datei im gleichen Ordner gespeichert. Fertig.

Was tun wenn etwas nicht klappt?

Häufigste Ursache: ffmpeg fehlt. Prüfen mit ffmpeg -version. Wenn nicht gefunden: sudo apt install ffmpeg.

Wenn whisper nicht gefunden wird, Homebrew-Python nutzen: python3 -m whisper ... statt direkt whisper.

Häufigster Fehler: PATH nicht gesetzt. Python nochmal installieren und "Add to PATH" anhaken, dann neues Terminal öffnen.

Wenn du nicht weiterkommst: die Fehlermeldung die das Terminal ausgibt ist meistens sehr hilfreich. Einfach den genauen Text kopieren und in eine Suchmaschine eingeben. In 90% der Fälle findest du in wenigen Minuten eine Lösung.

Was als nächstes?

Du hast Whisper jetzt am Laufen. Im nächsten Artikel transkribierst du deine erste Aufnahme. Dabei schauen wir nicht nur auf den Befehl, sondern auch darauf, was Whisper gut kann, wo es Grenzen hat und wie du für bessere Ergebnisse sprichst.

Der nächste sinnvolle Schritt

Wenn du diesen Teil verstanden hast, passen diese Seiten als Nächstes:

Häufige Fragen

Warum braucht Whisper ffmpeg?

ffmpeg liest und konvertiert Audioformate, damit Whisper die Datei zuverlässig verarbeiten kann.

Welches Python-Setup ist sinnvoll?

Eine virtuelle Umgebung hält Whisper und seine Abhängigkeiten getrennt vom restlichen System.

Warum dauert der erste Start länger?

Beim ersten Aufruf wird das Modell heruntergeladen und lokal gespeichert. Danach startet es schneller.

Zurück: Was ist Whisper? Weiter: Erste Aufnahme transkribieren