OpenAI Whisper

Item

Nom de l'outil/software: OpenAI Whisper
Logo ou produit, etc.: Image de Whisper d'OpenAI
Ce que fait l’outil: Le modèle Whisper est un système de reconnaissance vocale polyvalent. Il a été entraîné sur un vaste ensemble de données audio variées et il s’agit également d’un modèle multitâche capable d’effectuer la reconnaissance vocale multilingue, la traduction de la parole et l’identification des langues.
Type: Logiciel web, App mobile, Librairie Python, etc.: Modèle d'apprentissage automatique / API de service cloud / Librairie Python open-source
Fonction de l'outil: Transcription automatique de la parole en texte, traduction vocale vers l'anglais, identification de la langue parlée, et détection d'activité vocale
Médias (vidéo, photos, etc.): Schéma de l'architecture du modèle Whisper d'OpenAI
Date de création: Septembre 2022
Langage de programmation: Python
Linux, Mac, Windows: Linux, Mac, Windows
Formats de fichiers générés ou supportés: Formats audio d'entrée : .flac, .mp3, .mp4, .mpeg, .mpga, .m4a, .ogg, .wav, .webm (limite de 25 MB via API)
Formats de sortie : Texte brut, JSON, VTT (sous-titres), SRT (sous-titres), TSV
Licence: GPL, MIT, CC BY: MIT License
Lien vers le dépôt Git: https://github.com/openai/whisper
Site web officiel: https://openai.com/index/whisper/; https://platform.openai.com/docs/guides/speech-to-text; https://huggingface.co/openai/whisper-large-v3
Base de bugs connue : URI vers Github: https://github.com/openai/whisper/issues