Diktat per Tastenkürzel
Aufnehmen, transkribieren, einfügen: aus einzelnen Dateien wird ein Diktat-System für den Alltag.
Hier richtest du Whisper als lokales Diktatssystem ein, damit gesprochener Text direkt in deinen Alltag passt. Dateien transkribieren ist gut. Aber das eigentliche Diktat ist besser: ich drücke eine Taste, spreche, lasse die Taste los, und der Text erscheint dort wo der Cursor gerade steht. Nach der ersten Aufnahme wird Whisper damit vom Werkzeug für Audiodateien zu einem täglichen Eingabesystem.
Das ist kein Trick aus einer App. Das baue ich mir selbst mit einem kurzen Skript und einem Tastenkürzel. Ich zeige dir wie das auf den drei Betriebssystemen funktioniert.
Das Prinzip
Hinter dem Diktat steckt ein simples Konzept in drei Schritten: Aufnehmen, Transkribieren, Einfügen. Ein Skript übernimmt alle drei Schritte automatisch wenn du das Tastenkürzel drückst.
Mein Setup
Auf Linux nutze ich ein Shell-Skript mit arecord für die Aufnahme, Whisper für die Transkription und xdotool zum Einfügen. Erst die nötigen Tools installieren:
Dann das Diktat-Skript erstellen, zum Beispiel unter ~/bin/whisper-diktat.sh:
Das Skript ausführbar machen: chmod +x ~/bin/whisper-diktat.sh. Danach in den Systemeinstellungen ein Tastenkürzel anlegen das das Skript aufruft.
Auf dem Mac funktioniert ein ähnliches Skript mit sox für die Aufnahme und AppleScript zum Einfügen. Erst sox installieren:
Skript unter ~/bin/whisper-diktat.sh:
Tastenkürzel über Systemeinstellungen unter Tastatur/Kurzbefehle anlegen, oder mit Automator einen Dienst erstellen.
Auf Windows braucht es zwei Dinge: ein Python-Skript das aufnimmt und transkribiert, und AutoHotkey als Tastenkürzel-Starter. Zuerst die nötigen Python-Pakete installieren:
Dann eine neue Datei diktat.py im Benutzerordner erstellen (z.B. C:\Users\DeinName\diktat.py) mit folgendem Inhalt:
Jetzt AutoHotkey von autohotkey.com herunterladen und installieren. Danach eine Datei diktat.ahk anlegen:
Die .ahk-Datei per Doppelklick starten. Ab jetzt: Strg+F12 drücken, 8 Sekunden sprechen, kurz warten, Text erscheint. Hinweis: das Laden des Whisper-Modells dauert beim ersten Mal etwas länger.
Faster-Whisper macht den Unterschied
Das originale Whisper braucht für eine kurze Aufnahme je nach Rechner 10-20 Sekunden. Das ist beim Diktat spürbar. Wer Diktat wirklich täglich nutzt, sollte auf Faster-Whisper umsteigen. Die Wartezeit halbiert sich in den meisten Fällen.
Wie das geht, erkläre ich in Artikel 08. Für den Einstieg funktioniert das Basis-Setup aber absolut.
Ich nutze Diktat täglich für Notizen, kurze Texte und erste Entwürfe. Die Texte sind nicht perfekt, aber sie sind da. Und einen rumpligen ersten Entwurf überarbeiten ist immer schneller als auf leeres Papier starren.
Aus eigener Praxis
Beim Diktat entscheidet der Ablauf mehr als das Modell. Ein schnell erreichbares Tastenkürzel und ein brauchbares Mikrofon sind im Alltag wichtiger als eine theoretisch perfekte Transkription.
Häufige Fragen
Was braucht ein gutes Whisper-Diktat?
Ein zuverlässiges Mikrofon, ein schneller Start/Stop-Ablauf und ein klarer Zielort für den transkribierten Text.
Warum ist Diktat anders als Transkription?
Beim Diktat zählt Geschwindigkeit und Reibungslosigkeit. Bei Transkription darf die Verarbeitung länger dauern.
Kann ich Whisper mit Tastenkürzel starten?
Ja, je nach Betriebssystem kannst du Aufnahme und Transkription über Skripte und globale Shortcuts auslösen.