Best FREE Speech to Text AI - Whisper AI

Kevin Stratvert

18 Jan 202308:21

Summary

TLDRDans cette vidéo, Kevin présente Whisper, un outil AI développé par OpenAI, capable de transcrire des discours en texte avec une précision supérieure à celle des humains. Compatible avec 97 langues et performant même en présence de bruit de fond ou d'accents épais, Whisper est gratuit et open source. Le tutoriel explique comment l'utiliser via Google Colaboratory pour transcrire des fichiers audio ou vidéo, en choisissant parmi différents modèles d'IA pour obtenir une transcription de qualité, y compris la capitalisation et la ponctuation.

Takeaways

😀 L'IA peut convertir le discours en texte avec une précision supérieure à celle de la plupart des humains.
🌐 Elle prend en charge 97 langues différentes, y compris l'anglais.
🔊 Fonctionne même en présence d'un bruit de fond important ou avec un accent très prononcé.
🆓 Le service est gratuit et open source.
💻 Utilisez l'outil AI appelé Whisper, développé par OpenAI.
🔗 OpenAI est également derrière ChatGPT et Dalle2, d'autres outils populaires.
🔧 Vous pouvez installer Whisper directement sur votre ordinateur ou utiliser Google Colaboratory pour exécuter le code dans votre navigateur web.
📁 Google Colaboratory vous permet de gérer des fichiers audio ou vidéo directement dans l'environnement en ligne.
💾 Vous pouvez choisir entre cinq modèles de tailles différentes pour la transcription, allant du modèle le plus petit au plus grand.
📝 Whisper fournit une transcription de haute qualité, y compris la capitalisation et la ponctuation.
📋 Vous pouvez télécharger les transcriptions au format texte brut, SRT ou VTT pour les sous-titres synchronisés.

Q & A

Qu'est-ce que le but principal de la vidéo?
-Le but principal de la vidéo est de montrer comment transformer la parole en texte à l'aide de l'IA et de présenter l'outil Whisper développé par OpenAI.
Combien de langues le logiciel Whisper prend-il en charge?
-Whisper prend en charge l'anglais et 96 autres langues.
Comment Whisper gère-t-il le bruit de fond et les accents épais?
-Whisper fonctionne même en présence d'un bruit de fond important et avec des accents très épais.
Pourquoi l'auteur recommande-t-il l'utilisation de Google Colaboratory?
-L'auteur recommande Google Colaboratory car il permet d'exécuter du code directement dans un navigateur web, sans que le type de PC de l'utilisateur n'importe.
Quels sont les étapes pour installer Google Colaboratory à partir de Google Drive?
-Pour installer Google Colaboratory, il faut accéder à Google Drive, cliquer sur le bouton 'New', choisir 'More', se connecter à 'Connect More Apps', rechercher 'Google Colaboratory', cliquer sur 'Install', puis sur 'Continue', et enfin sur 'Done'.
Quel est le rôle du GPU dans le processus de transcription audio avec Whisper?
-Le GPU est utilisé comme accélérateur matériel pour exécuter les modèles d'IA, ce qui permet une meilleure performance lors de la transcription audio.
Comment se fait l'installation de Whisper AI dans Google Colaboratory?
-L'installation de Whisper AI se fait en entrant des commandes dans le champ de code de Google Colaboratory, en copiant et en collant le code fourni dans la description de la vidéo.
Quels formats de fichiers de transcription sont générés par Whisper?
-Whisper génère des fichiers de transcription au format SRT, TXT et VTT, où SRT et VTT incluent des timestamps.
Quelle est la taille de la mémoire et le temps de traitement pour les différents modèles de Whisper?
-Les modèles varient de 'tiny' qui a la plus petite taille et le temps de traitement le plus rapide, à 'large' qui prend environ 1,5 Go et prend le plus de temps à traiter, mais offre la meilleure qualité.
Quels sont les avantages de Whisper selon l'auteur de la vidéo?
-Selon l'auteur, Whisper transcrit avec une grande précision, applique la capitalisation et la ponctuation, et est plus efficace que les sous-titres automatiques générés par Google pour les vidéos YouTube.