Whisper in n8n nutzen
Aus Audio wird Workflow-Daten: Faster-Whisper als API-Server, n8n als Automationszentrale.
Hier nutzt du Whisper in n8n, damit Audiodateien automatisch transkribiert und weiterverarbeitet werden. Nach Installation, Diktat, Modellwahl und Aufnahmequalität kommt der Verbindungsschritt. Whisper allein ist nützlich. Whisper als Teil eines automatisierten Workflows ist eine andere Dimension. Ich lasse zum Beispiel Sprachnachrichten automatisch transkribieren und als Text speichern. Oder ich schicke mir eine Audiodatei per Telegram und bekomme den Text zurück.
Die Verbindung zwischen Whisper und n8n ist technisch einfacher als sie klingt. Ich erkläre dir das Prinzip und zeige dir mein Setup.
Das Prinzip: Whisper als API-Server
Damit n8n mit Whisper kommunizieren kann, braucht Whisper eine API. Das bedeutet: Whisper läuft im Hintergrund als kleiner Server und wartet auf Anfragen. n8n schickt eine Audiodatei an diesen Server, der Server gibt Text zurück.
Ich nutze dafür Faster-Whisper als Docker-Container mit einem REST-API-Endpunkt. Der Container läuft lokal auf meinem Rechner und ist per HTTP erreichbar. n8n kann damit über einen normalen HTTP-Request kommunizieren.
Faster-Whisper als API-Server starten
Ich nutze den Docker-Container fedirz/faster-whisper-server der eine OpenAI-kompatible API bereitstellt:
Der Server ist danach unter http://localhost:9001 erreichbar. Prüfen ob er läuft:
n8n HTTP-Request Knoten konfigurieren
Im n8n-Workflow nutze ich einen HTTP-Request-Knoten mit diesen Einstellungen:
Die Antwort ist JSON. Der transkribierte Text steckt im Feld text. In n8n also: {{ $json.text }}.
n8n und der Whisper-Container müssen sich im gleichen Netzwerk befinden oder die IP-Adresse muss stimmen. Wenn beide lokal laufen, ist localhost korrekt. In Docker-Netzwerken musst du den Container-Namen verwenden.
Was ich damit mache
Ein Workflow den ich regelmäßig nutze: Ich schicke mir selbst eine Sprachnachricht per Telegram. n8n empfängt sie, schickt die Audiodatei an Whisper, und speichert den Text in meinem Notizsystem. Das sind drei Klicks weniger als wenn ich alles manuell machen würde.
Ein weiteres Beispiel: Interviews oder Meetings aufnehmen, die Datei in einem bestimmten Ordner ablegen, und n8n transkribiert automatisch sobald eine neue Datei erscheint. Das Ergebnis landet per E-Mail in meinem Postfach.
Die Kombination Whisper plus n8n ist eine der nützlichsten Automatisierungen die ich aufgebaut habe. Der Aufwand für die Einrichtung lohnt sich schnell.
Aus eigener Praxis
Für n8n ist eine stabile Whisper-API praktischer als einzelne Terminalbefehle. Dann kann ich Audiodateien wiederholbar senden, Antworten prüfen und Folgeprozesse anschliessen.
Häufige Fragen
Warum Whisper mit n8n verbinden?
n8n kann Audiodateien empfangen, an Whisper senden und Transkripte automatisch speichern, versenden oder zusammenfassen.
Warum Faster-Whisper als API?
Eine API macht Whisper für n8n leichter erreichbar und vermeidet manuelle Kommandozeilen-Aufrufe pro Datei.
Was passiert nach der Transkription?
Das Transkript kann per E-Mail verschickt, in Dateien gespeichert, mit KI zusammengefasst oder in weitere Workflows gegeben werden.