Whisper Artikel 04 von 08

Diktat per Tastenkürzel

Aufnehmen, transkribieren, einfügen: aus einzelnen Dateien wird ein Diktat-System für den Alltag.

Hier richtest du Whisper als lokales Diktatssystem ein, damit gesprochener Text direkt in deinen Alltag passt. Dateien transkribieren ist gut. Aber das eigentliche Diktat ist besser: ich drücke eine Taste, spreche, lasse die Taste los, und der Text erscheint dort wo der Cursor gerade steht. Nach der ersten Aufnahme wird Whisper damit vom Werkzeug für Audiodateien zu einem täglichen Eingabesystem.

Das ist kein Trick aus einer App. Das baue ich mir selbst mit einem kurzen Skript und einem Tastenkürzel. Ich zeige dir wie das auf den drei Betriebssystemen funktioniert.

Das Prinzip

Hinter dem Diktat steckt ein simples Konzept in drei Schritten: Aufnehmen, Transkribieren, Einfügen. Ein Skript übernimmt alle drei Schritte automatisch wenn du das Tastenkürzel drückst.

Mikrofon aufnehmen

Das Skript startet eine Aufnahme solange du eine Taste hältst oder bis du es stoppst. Die Aufnahme landet als temporäre Datei.

Whisper transkribiert

Die Audiodatei wird an Whisper übergeben. Ergebnis ist ein kurzer Textblock, der Text den du gesprochen hast.

Text wird eingefügt

Das Skript kopiert den Text in die Zwischenablage und fügt ihn automatisch an der aktuellen Cursor-Position ein.

Mein Setup

Auf Linux nutze ich ein Shell-Skript mit arecord für die Aufnahme, Whisper für die Transkription und xdotool zum Einfügen. Erst die nötigen Tools installieren:

sudo apt install alsa-utils xdotool xclip

Dann das Diktat-Skript erstellen, zum Beispiel unter ~/bin/whisper-diktat.sh:

#!/bin/bash
TMP=$(mktemp /tmp/diktat_XXXX.wav)
arecord -f cd -d 10 "$TMP" 2>/dev/null
TEXT=$(whisper "$TMP" --language German --model small \
  --output_format txt --output_dir /tmp/ 2>/dev/null \
  | tail -1)
echo -n "$TEXT" | xclip -selection clipboard
sleep 0.1
xdotool key --delay 5 ctrl+v
rm -f "$TMP" /tmp/*.txt

Das Skript ausführbar machen: chmod +x ~/bin/whisper-diktat.sh. Danach in den Systemeinstellungen ein Tastenkürzel anlegen das das Skript aufruft.

Auf dem Mac funktioniert ein ähnliches Skript mit sox für die Aufnahme und AppleScript zum Einfügen. Erst sox installieren:

brew install sox

Skript unter ~/bin/whisper-diktat.sh:

#!/bin/bash
TMP=$(mktemp /tmp/diktat_XXXX.wav)
rec -q "$TMP" trim 0 10
TEXT=$(whisper "$TMP" --language German --model small \
  --output_format txt --output_dir /tmp/ 2>/dev/null \
  | tail -1)
echo -n "$TEXT" | pbcopy
osascript -e 'tell app "System Events" to keystroke "v" using command down'
rm -f "$TMP" /tmp/*.txt

Tastenkürzel über Systemeinstellungen unter Tastatur/Kurzbefehle anlegen, oder mit Automator einen Dienst erstellen.

Auf Windows braucht es zwei Dinge: ein Python-Skript das aufnimmt und transkribiert, und AutoHotkey als Tastenkürzel-Starter. Zuerst die nötigen Python-Pakete installieren:

pip install sounddevice soundfile pyperclip pyautogui

Dann eine neue Datei diktat.py im Benutzerordner erstellen (z.B. C:\Users\DeinName\diktat.py) mit folgendem Inhalt:

import sounddevice as sd
import soundfile as sf
import whisper
import pyperclip
import pyautogui
import tempfile, os, time

DAUER = 8  # Sekunden Aufnahme

print("Aufnahme läuft...")
audio = sd.rec(int(DAUER * 16000), samplerate=16000, channels=1, dtype='int16')
sd.wait()

tmp = tempfile.mktemp(suffix='.wav')
sf.write(tmp, audio, 16000)

model = whisper.load_model("small")
result = model.transcribe(tmp, language="de")
text = result["text"].strip()

pyperclip.copy(text)
time.sleep(0.2)
pyautogui.hotkey('ctrl', 'v')
os.remove(tmp)

Jetzt AutoHotkey von autohotkey.com herunterladen und installieren. Danach eine Datei diktat.ahk anlegen:

^F12::  ; Strg+F12 als Tastenkuerzel
  Run, python "%USERPROFILE%\diktat.py"
return

Die .ahk-Datei per Doppelklick starten. Ab jetzt: Strg+F12 drücken, 8 Sekunden sprechen, kurz warten, Text erscheint. Hinweis: das Laden des Whisper-Modells dauert beim ersten Mal etwas länger.

Faster-Whisper macht den Unterschied

Das originale Whisper braucht für eine kurze Aufnahme je nach Rechner 10-20 Sekunden. Das ist beim Diktat spürbar. Wer Diktat wirklich täglich nutzt, sollte auf Faster-Whisper umsteigen. Die Wartezeit halbiert sich in den meisten Fällen.

Wie das geht, erkläre ich in Artikel 08. Für den Einstieg funktioniert das Basis-Setup aber absolut.

Meine Erfahrung

Ich nutze Diktat täglich für Notizen, kurze Texte und erste Entwürfe. Die Texte sind nicht perfekt, aber sie sind da. Und einen rumpligen ersten Entwurf überarbeiten ist immer schneller als auf leeres Papier starren.

Aus eigener Praxis

Beim Diktat entscheidet der Ablauf mehr als das Modell. Ein schnell erreichbares Tastenkürzel und ein brauchbares Mikrofon sind im Alltag wichtiger als eine theoretisch perfekte Transkription.

Der nächste sinnvolle Schritt

Wenn du diesen Teil verstanden hast, passen diese Seiten als Nächstes:

Häufige Fragen

Was braucht ein gutes Whisper-Diktat?

Ein zuverlässiges Mikrofon, ein schneller Start/Stop-Ablauf und ein klarer Zielort für den transkribierten Text.

Warum ist Diktat anders als Transkription?

Beim Diktat zählt Geschwindigkeit und Reibungslosigkeit. Bei Transkription darf die Verarbeitung länger dauern.

Kann ich Whisper mit Tastenkürzel starten?

Ja, je nach Betriebssystem kannst du Aufnahme und Transkription über Skripte und globale Shortcuts auslösen.

Zurück: Erste Aufnahme transkribieren Weiter: Modellgröße wählen