Zurück zur Übersicht
Whisper Artikel 03 von 08

Erste Aufnahme transkribieren

Vom ersten Befehl zum brauchbaren Text: Ausgabeformate, Grenzen und Sprechweise für gute Transkriptionen.

Hier transkribierst du deine erste Aufnahme mit Whisper und prüfst Sprache, Modell und Ausgabedatei. Whisper ist installiert. Jetzt kommt der schöne Teil: eine Aufnahme nehmen, transkribieren und schauen was passiert. Meine erste Transkription war ein kurzer Text den ich ins Mikrofon gesprochen habe. Das Ergebnis war besser als ich erwartet hatte. Und an ein paar Stellen überraschend daneben.

Deshalb zeige ich dir in diesem Artikel nicht nur die Befehle, sondern auch was hinter den Ergebnissen steckt. Damit du weißt, was du erwarten kannst und wie du das Beste herausholt.

Der Basis-Befehl

Du hast eine Audiodatei und willst den Text. So geht das:

whisper aufnahme.mp3 --language German --model small

Das war es im Grunde. Whisper gibt dir drei Dateien zurück: eine .txt mit dem reinen Text, eine .vtt für Untertitel und eine .srt ebenfalls für Untertitel mit Zeitstempeln. Die .txt reicht für die meisten Zwecke.

Ein paar nützliche Optionen die ich regelmäßig nutze:

# Nur Textdatei ausgeben, keine Untertitel-Dateien: whisper aufnahme.mp3 --language German --model small --output_format txt # Ergebnis in einen bestimmten Ordner schreiben: whisper aufnahme.mp3 --language German --model small --output_dir ~/Texte/

Was Whisper gut kann und wo es schwächelt

Nach vielen Stunden Diktat habe ich ein gutes Gefühl dafür entwickelt, was ich von Whisper erwarten kann.

Klappt sehr gut
Normales Sprechtempo in ruhiger Umgebung. Hochdeutsch und mäßige Dialekte. Fachbegriffe aus Technik, Wissenschaft und Medizin. Lange Sätze ohne Unterbrechungen. Englische Sätze mitten im deutschen Text.
Schwieriger für Whisper
Starke Hintergrundgeräusche. Sehr schnelles Sprechen. Eigennamen und unbekannte Markennamen. Mehrere Sprecher gleichzeitig. Sehr starke Dialekte oder Mundart.

Eigennamen sind die häufigste Fehlerquelle. Wenn ich "Norbert Sass" sage, schreibt Whisper manchmal etwas völlig anderes. Das ist kein Bug, sondern einfach das Modell das einen unbekannten Namen in etwas Bekanntes übersetzt. Für normale Texte stört das kaum.

Wie du besser sprichst

Das Ergebnis hängt stark davon ab, wie du sprichst. Nicht wie laut, sondern wie klar. Das sind die wichtigsten Punkte die ich gelernt habe:

🐢
Moderates Tempo. Du musst nicht langsam sein, aber sprich wie jemand der einen klaren Gedanken formuliert, nicht wie jemand der Text abliest.
🔇
Ruhige Umgebung. Lüfter, laufender Fernseher im Hintergrund, Straßenlärm. Das alles landet im Ergebnis. Ich diktiere mit geschlossenem Fenster.
⏸️
Kurze Pausen zwischen Sätzen helfen Whisper, die Sätze besser zu trennen. Nicht übertreiben, aber eine kleine Atempause ist gut.
✏️
Absätze setzt Whisper nicht automatisch, auch nicht wenn du "neuer Absatz" sagst. Die mache ich immer manuell nachher. Satzzeichen wie Komma und Punkt erkennt Whisper dagegen selbst sehr zuverlässig.
Meine Erfahrung

Nach ein paar Tagen Diktat merkt man, dass man automatisch klarer spricht. Nicht für Whisper, sondern weil man geübt hat Gedanken direkt zu formulieren. Ein unerwarteter Nebeneffekt.

Verschiedene Audioformate

Whisper versteht dank ffmpeg fast alle gängigen Audioformate: mp3, wav, m4a, ogg, flac, opus und andere. Du musst nichts umwandeln. Einfach die Datei so übergeben wie sie ist.

Bei sehr langen Dateien, zum Beispiel einem Podcast von einer Stunde, kann die Transkription einige Minuten dauern. Das ist normal. Whisper verarbeitet die Datei in Abschnitten von 30 Sekunden und fügt alles zusammen.

Was kommt als nächstes?

Du kannst jetzt Audiodateien transkribieren und besser einschätzen, warum manche Ergebnisse sauberer sind als andere. Im nächsten Artikel zeige ich dir wie ich Diktat eingerichtet habe: Tastenkürzel drücken, sprechen, Text erscheint direkt im Textfeld. So nutze ich Whisper täglich.

Der nächste sinnvolle Schritt

Wenn du diesen Teil verstanden hast, passen diese Seiten als Nächstes:

Häufige Fragen

Welche Audioformate kann ich nutzen?

Mit ffmpeg im Hintergrund sind viele Formate möglich. Für den Start sind WAV oder MP3 unkompliziert.

Warum erkennt Whisper die Sprache falsch?

Kurze, verrauschte oder mehrsprachige Aufnahmen können irritieren. Eine explizite Spracheinstellung hilft oft.

Wo landet das Transkript?

Je nach Befehl schreibt Whisper Text, Untertitel oder JSON-Dateien in den aktuellen Ordner oder einen angegebenen Zielordner.