Whisper Artikel 07 von 08

Whisper in n8n nutzen

Aus Audio wird Workflow-Daten: Faster-Whisper als API-Server, n8n als Automationszentrale.

Hier nutzt du Whisper in n8n, damit Audiodateien automatisch transkribiert und weiterverarbeitet werden. Nach Installation, Diktat, Modellwahl und Aufnahmequalität kommt der Verbindungsschritt. Whisper allein ist nützlich. Whisper als Teil eines automatisierten Workflows ist eine andere Dimension. Ich lasse zum Beispiel Sprachnachrichten automatisch transkribieren und als Text speichern. Oder ich schicke mir eine Audiodatei per Telegram und bekomme den Text zurück.

Die Verbindung zwischen Whisper und n8n ist technisch einfacher als sie klingt. Ich erkläre dir das Prinzip und zeige dir mein Setup.

Das Prinzip: Whisper als API-Server

Damit n8n mit Whisper kommunizieren kann, braucht Whisper eine API. Das bedeutet: Whisper läuft im Hintergrund als kleiner Server und wartet auf Anfragen. n8n schickt eine Audiodatei an diesen Server, der Server gibt Text zurück.

Ich nutze dafür Faster-Whisper als Docker-Container mit einem REST-API-Endpunkt. Der Container läuft lokal auf meinem Rechner und ist per HTTP erreichbar. n8n kann damit über einen normalen HTTP-Request kommunizieren.

Trigger in n8n

Ein Webhook, ein Zeitplan oder ein Datei-Watcher löst den Workflow aus. Bei mir oft: eine neue Audiodatei in einem Ordner.

HTTP-Request an Whisper

n8n schickt die Audiodatei per multipart/form-data an den lokalen Whisper-Server. Der Endpunkt ist OpenAI-kompatibel.

Whisper transkribiert

Der Server verarbeitet die Datei und gibt JSON zurück. Im Feld "text" steckt der transkribierte Inhalt.

n8n macht damit was du willst

Speichern, weiterverarbeiten, per E-Mail verschicken, in eine Datenbank schreiben. n8n übernimmt alles Weitere.

Faster-Whisper als API-Server starten

Ich nutze den Docker-Container fedirz/faster-whisper-server der eine OpenAI-kompatible API bereitstellt:

docker run -d \
  --name whisper-faster \
  -p 9001:8000 \
  fedirz/faster-whisper-server:latest-cpu

Der Server ist danach unter http://localhost:9001 erreichbar. Prüfen ob er läuft:

curl http://localhost:9001/health

n8n HTTP-Request Knoten konfigurieren

Im n8n-Workflow nutze ich einen HTTP-Request-Knoten mit diesen Einstellungen:

Methode:  POST
URL:      http://localhost:9001/v1/audio/transcriptions
Body:     Form-Data (multipart/form-data)

Felder:
  file    → Binärdaten der Audiodatei
  model   → whisper-1
  language → de

Die Antwort ist JSON. Der transkribierte Text steckt im Feld text. In n8n also: {{ $json.text }}.

Hinweis

n8n und der Whisper-Container müssen sich im gleichen Netzwerk befinden oder die IP-Adresse muss stimmen. Wenn beide lokal laufen, ist localhost korrekt. In Docker-Netzwerken musst du den Container-Namen verwenden.

Was ich damit mache

Ein Workflow den ich regelmäßig nutze: Ich schicke mir selbst eine Sprachnachricht per Telegram. n8n empfängt sie, schickt die Audiodatei an Whisper, und speichert den Text in meinem Notizsystem. Das sind drei Klicks weniger als wenn ich alles manuell machen würde.

Ein weiteres Beispiel: Interviews oder Meetings aufnehmen, die Datei in einem bestimmten Ordner ablegen, und n8n transkribiert automatisch sobald eine neue Datei erscheint. Das Ergebnis landet per E-Mail in meinem Postfach.

Die Kombination Whisper plus n8n ist eine der nützlichsten Automatisierungen die ich aufgebaut habe. Der Aufwand für die Einrichtung lohnt sich schnell.

Aus eigener Praxis

Für n8n ist eine stabile Whisper-API praktischer als einzelne Terminalbefehle. Dann kann ich Audiodateien wiederholbar senden, Antworten prüfen und Folgeprozesse anschliessen.

Der nächste sinnvolle Schritt

Wenn du diesen Teil verstanden hast, passen diese Seiten als Nächstes:

Häufige Fragen

Warum Whisper mit n8n verbinden?

n8n kann Audiodateien empfangen, an Whisper senden und Transkripte automatisch speichern, versenden oder zusammenfassen.

Warum Faster-Whisper als API?

Eine API macht Whisper für n8n leichter erreichbar und vermeidet manuelle Kommandozeilen-Aufrufe pro Datei.

Was passiert nach der Transkription?

Das Transkript kann per E-Mail verschickt, in Dateien gespeichert, mit KI zusammengefasst oder in weitere Workflows gegeben werden.

Zurück: Aufnahmequalität verbessern Weiter: Faster-Whisper als Alltagssystem