Erste Aufnahme transkribieren
Vom ersten Befehl zum brauchbaren Text: Ausgabeformate, Grenzen und Sprechweise für gute Transkriptionen.
Hier transkribierst du deine erste Aufnahme mit Whisper und prüfst Sprache, Modell und Ausgabedatei. Whisper ist installiert. Jetzt kommt der schöne Teil: eine Aufnahme nehmen, transkribieren und schauen was passiert. Meine erste Transkription war ein kurzer Text den ich ins Mikrofon gesprochen habe. Das Ergebnis war besser als ich erwartet hatte. Und an ein paar Stellen überraschend daneben.
Deshalb zeige ich dir in diesem Artikel nicht nur die Befehle, sondern auch was hinter den Ergebnissen steckt. Damit du weißt, was du erwarten kannst und wie du das Beste herausholt.
Der Basis-Befehl
Du hast eine Audiodatei und willst den Text. So geht das:
Das war es im Grunde. Whisper gibt dir drei Dateien zurück: eine .txt mit dem reinen Text, eine .vtt für Untertitel und eine .srt ebenfalls für Untertitel mit Zeitstempeln. Die .txt reicht für die meisten Zwecke.
Ein paar nützliche Optionen die ich regelmäßig nutze:
Was Whisper gut kann und wo es schwächelt
Nach vielen Stunden Diktat habe ich ein gutes Gefühl dafür entwickelt, was ich von Whisper erwarten kann.
Eigennamen sind die häufigste Fehlerquelle. Wenn ich "Norbert Sass" sage, schreibt Whisper manchmal etwas völlig anderes. Das ist kein Bug, sondern einfach das Modell das einen unbekannten Namen in etwas Bekanntes übersetzt. Für normale Texte stört das kaum.
Wie du besser sprichst
Das Ergebnis hängt stark davon ab, wie du sprichst. Nicht wie laut, sondern wie klar. Das sind die wichtigsten Punkte die ich gelernt habe:
Nach ein paar Tagen Diktat merkt man, dass man automatisch klarer spricht. Nicht für Whisper, sondern weil man geübt hat Gedanken direkt zu formulieren. Ein unerwarteter Nebeneffekt.
Verschiedene Audioformate
Whisper versteht dank ffmpeg fast alle gängigen Audioformate: mp3, wav, m4a, ogg, flac, opus und andere. Du musst nichts umwandeln. Einfach die Datei so übergeben wie sie ist.
Bei sehr langen Dateien, zum Beispiel einem Podcast von einer Stunde, kann die Transkription einige Minuten dauern. Das ist normal. Whisper verarbeitet die Datei in Abschnitten von 30 Sekunden und fügt alles zusammen.
Was kommt als nächstes?
Du kannst jetzt Audiodateien transkribieren und besser einschätzen, warum manche Ergebnisse sauberer sind als andere. Im nächsten Artikel zeige ich dir wie ich Diktat eingerichtet habe: Tastenkürzel drücken, sprechen, Text erscheint direkt im Textfeld. So nutze ich Whisper täglich.
Häufige Fragen
Welche Audioformate kann ich nutzen?
Mit ffmpeg im Hintergrund sind viele Formate möglich. Für den Start sind WAV oder MP3 unkompliziert.
Warum erkennt Whisper die Sprache falsch?
Kurze, verrauschte oder mehrsprachige Aufnahmen können irritieren. Eine explizite Spracheinstellung hilft oft.
Wo landet das Transkript?
Je nach Befehl schreibt Whisper Text, Untertitel oder JSON-Dateien in den aktuellen Ordner oder einen angegebenen Zielordner.