Die Firma OpenAI ist mittlerweile weltbekannt, vor allem durch ChatGPT. Das anfängliche Ziel künstliche Intelligenz auf Open-Source-Basis zu entwickeln und der Gesellschaft zur Verfügung zu stellen ist dem jetzigen Hype um KI-Systeme wohl zum Opfer gefallen. OpenAI bietet vor allem kommerzielle Dienste rund um KI-Systeme an, aber sie haben auch ein neuronales Netzwerk unter der MIT-Lizenz auf Github gestellt.

Whisper

Whisper is a general-purpose speech recognition model. It is trained on a large dataset of diverse audio and is also a multitasking model that can perform multilingual speech recognition, speech translation, and language identification.

https://github.com/openai/whisper

Whisper ist also Open Source Software, die gesprochenen Text in Form von Audiodateien in Text umwandeln kann. Damit lassen sich Audioaufnahmen z.B. von Videokonferenzen, Filmen, Podcasts,… sehr einfach transkribieren.

Whisper kann auf dem eigenen Rechner installiert werden, und damit werden auch keine Audiodateien in die Cloud hochgeladen. Die Ergebnisse der Transkription halte ich ebenfalls für sehr gut.

Whisper bietet verschieden Sprachmodelle an:

Die ersten vier Modelle gibt es in verschiedenen Sprachen, so auch auf Deutsch. Das große Modell gibt es nur auf Englisch. Für meine Testzwecke habe ich das Medium-Modell gewählt.

Installation

Die Installation ist relativ einfach.

Falls python3, pip und ffmpeg nicht installiert ist.

apt install python3 python3-pip ffmpeg

Jetzt kann Whisper installiert werden.

pip install git+https://github.com/openai/whisper.git 

Transkription durchführen

Durch den obigen Befehl wird Whisper in ~/.local/bin installiert. Wer möchte, kann diesen Ordner noch zum Pfad hinzufügen. Jetzt kann eine Transkription gestarten werden.

~/.local/bin/whisper audioDatei.mp3 --model medium --language German

Beim 1. Start wird natürlich noch das Sprachmodell heruntergeladen.

Für einen kleinen Test habe ich folgende Audio-Datei verwendet:

Das Ergebnis ist perfekt. Und am Ende findet sich auch eine Textdatei audioDatei.txt im Verzeichnis. Damit lässt sich Whisper sicher auch in der Schule einsetzen – Stichwort Fremdsprachen/Höhrverständnis,…

Links:

https://openai.com/research/whisper
https://cdn.openai.com/papers/whisper.pdf
https://github.com/openai/whisper

Image by Gerd Altmann from Pixabay

Kategorien: HowToSoftwareTools

0 Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert