Best FREE Speech to Text AI - Whisper AI
Summary
TLDRDans cette vidéo, Kevin présente Whisper, un outil AI développé par OpenAI, capable de transcrire des discours en texte avec une précision supérieure à celle des humains. Compatible avec 97 langues et performant même en présence de bruit de fond ou d'accents épais, Whisper est gratuit et open source. Le tutoriel explique comment l'utiliser via Google Colaboratory pour transcrire des fichiers audio ou vidéo, en choisissant parmi différents modèles d'IA pour obtenir une transcription de qualité, y compris la capitalisation et la ponctuation.
Takeaways
- 😀 L'IA peut convertir le discours en texte avec une précision supérieure à celle de la plupart des humains.
- 🌐 Elle prend en charge 97 langues différentes, y compris l'anglais.
- 🔊 Fonctionne même en présence d'un bruit de fond important ou avec un accent très prononcé.
- 🆓 Le service est gratuit et open source.
- 💻 Utilisez l'outil AI appelé Whisper, développé par OpenAI.
- 🔗 OpenAI est également derrière ChatGPT et Dalle2, d'autres outils populaires.
- 🔧 Vous pouvez installer Whisper directement sur votre ordinateur ou utiliser Google Colaboratory pour exécuter le code dans votre navigateur web.
- 📁 Google Colaboratory vous permet de gérer des fichiers audio ou vidéo directement dans l'environnement en ligne.
- 💾 Vous pouvez choisir entre cinq modèles de tailles différentes pour la transcription, allant du modèle le plus petit au plus grand.
- 📝 Whisper fournit une transcription de haute qualité, y compris la capitalisation et la ponctuation.
- 📋 Vous pouvez télécharger les transcriptions au format texte brut, SRT ou VTT pour les sous-titres synchronisés.
Q & A
Qu'est-ce que le but principal de la vidéo?
-Le but principal de la vidéo est de montrer comment transformer la parole en texte à l'aide de l'IA et de présenter l'outil Whisper développé par OpenAI.
Combien de langues le logiciel Whisper prend-il en charge?
-Whisper prend en charge l'anglais et 96 autres langues.
Comment Whisper gère-t-il le bruit de fond et les accents épais?
-Whisper fonctionne même en présence d'un bruit de fond important et avec des accents très épais.
Pourquoi l'auteur recommande-t-il l'utilisation de Google Colaboratory?
-L'auteur recommande Google Colaboratory car il permet d'exécuter du code directement dans un navigateur web, sans que le type de PC de l'utilisateur n'importe.
Quels sont les étapes pour installer Google Colaboratory à partir de Google Drive?
-Pour installer Google Colaboratory, il faut accéder à Google Drive, cliquer sur le bouton 'New', choisir 'More', se connecter à 'Connect More Apps', rechercher 'Google Colaboratory', cliquer sur 'Install', puis sur 'Continue', et enfin sur 'Done'.
Quel est le rôle du GPU dans le processus de transcription audio avec Whisper?
-Le GPU est utilisé comme accélérateur matériel pour exécuter les modèles d'IA, ce qui permet une meilleure performance lors de la transcription audio.
Comment se fait l'installation de Whisper AI dans Google Colaboratory?
-L'installation de Whisper AI se fait en entrant des commandes dans le champ de code de Google Colaboratory, en copiant et en collant le code fourni dans la description de la vidéo.
Quels formats de fichiers de transcription sont générés par Whisper?
-Whisper génère des fichiers de transcription au format SRT, TXT et VTT, où SRT et VTT incluent des timestamps.
Quelle est la taille de la mémoire et le temps de traitement pour les différents modèles de Whisper?
-Les modèles varient de 'tiny' qui a la plus petite taille et le temps de traitement le plus rapide, à 'large' qui prend environ 1,5 Go et prend le plus de temps à traiter, mais offre la meilleure qualité.
Quels sont les avantages de Whisper selon l'auteur de la vidéo?
-Selon l'auteur, Whisper transcrit avec une grande précision, applique la capitalisation et la ponctuation, et est plus efficace que les sous-titres automatiques générés par Google pour les vidéos YouTube.
Outlines
😀 Introduction à l'utilisation d'IA pour la transcription vocale
Kevin présente un outil d'IA nommé Whisper, développé par OpenAI, capable de transcrire des discours en texte dans 97 langues différentes, même en présence de bruit de fond ou avec un accent prononcé. Il souligne que cet outil est gratuit et open source. Pour l'utiliser, il suggère d'employer Google Colaboratory, un service permettant d'exécuter du code directement dans un navigateur web, sans nécessiter de spécifications particulières de l'ordinateur. Kevin guide les utilisateurs à travers le processus d'installation de Google Colaboratory à partir de Google Drive, y compris la connexion au compte Google et l'ajout de l'application via les paramètres.
😲 Utilisation de Whisper AI pour transcrire des fichiers audio et vidéo
Après avoir expliqué comment démarrer Google Colaboratory et comment y installer Whisper AI, Kevin montre comment utiliser cet outil pour transcrire un fichier audio. Il détaille les étapes pour exécuter le programme, choisir le modèle de taille moyenne pour la transcription, et comment téléverser des fichiers audio ou vidéo. Il explique également comment les fichiers générés, tels que les fichiers SRT, TXT et VTT, peuvent être téléchargés. Il souligne la précision de la transcription, y compris la capitalisation et la ponctuation, et mentionne que Whisper est également capable de traduire les fichiers. Kevin conclut en recommandant de télécharger les transcriptions avant de quitter Google Colaboratory, car les fichiers seront supprimés une fois la session terminée.
Mindmap
Keywords
💡AI
💡Transcription
💡Langues
💡Bruit de fond
💡Accent
💡Open source
💡Google Colaboratory
💡GPU
💡ffmpeg
💡Modèles
Highlights
Utilisation de l'IA pour convertir la parole en texte avec une précision supérieure à celle des humains.
Prise en charge de 97 langues différentes, y compris l'anglais.
Capacité à fonctionner même en présence d'un bruit de fond important.
Performances élevées avec des accents très prononcés.
Service gratuit et open source.
Présentation de l'outil AI Whisper développé par OpenAI.
Installation de Whisper directement sur un ordinateur nécessite des ressources informatiques importantes.
Utilisation de Google Colaboratory pour exécuter du code dans un navigateur web sans dépendre de la puissance de l'ordinateur local.
Création d'un nouveau fichier Google Colaboratory à partir de Google Drive.
Installation de Google Colaboratory en tant qu'application Google Drive.
Configuration du runtime pour utiliser un GPU ou une carte graphique.
Installation de Whisper AI et de ffmpeg à partir de GitHub pour traiter des fichiers audio et vidéo.
Importation de fichiers audio ou vidéo dans Google Colaboratory pour la transcription.
Utilisation de la commande Whisper pour transcrire un fichier audio spécifique.
Choix du modèle de taille moyenne pour un bon compromis entre précision et rapidité.
Génération de fichiers de transcription au format texte brut, SRT et VTT.
Téléchargement des fichiers de transcription pour les utiliser en dehors de Google Colaboratory.
Utilisation de Whisper pour générer des légendes automatiques pour les vidéos YouTube avec une grande précision.
Explication des paramètres avancés de la commande Whisper pour une personnalisation plus précise.
Nécessité de télécharger les fichiers de transcription avant de quitter Google Colaboratory pour les conserver.
Transcripts
Hi everyone.
Kevin here.
Today, we're going to look at how you can take speech
and turn it into text using AI.
And the really crazy thing is that it does a better
job than most humans.
You can use it with English and 96 other languages.
It works even if you have a lot of background noise.
And it also works if you have a very thick accent.
The best part is that it's completely free and also
open source.
Let's check out how to do this.
We're going to use an AI tool called Whisper.
Whisper is made by a company called OpenAI.
And you might have heard of them before.
That's the same company behind the immensely popular ChatGPT,
which allows you to converse with a computer.
They're also the company behind Dalle2,
where you can type in some text,
and then it'll generate an image based on that text.
You can install Whisper directly on your computer.
You can click on the link right up above.
But you do need a somewhat capable computer.
So instead, we're going to use something
called Google Colaboratory.
This allows you to run code directly in your web browser.
So it doesn't really matter what type of PC you have.
To use Google Colaboratory, head to Google Drive.
You can click on the link right up above.
You'll need a Google account,
and if you don't have one yet, it's entirely free to set up.
On Google Drive, in the top left-hand corner,
let's click on the New button.
And at the very bottom, let's click on More,
and then go down to Connect More Apps.
At the top of this dialog, let's click into the search field,
and here, type in Google Colaboratory and then search.
Here, we see this result for Colaboratory.
Let's click on that,
and here, let's click on Install.
Next, let's click on Continue.
Next, you should see a message saying
that Google Colaboratory was connected to Google Drive.
Let's click on OK.
And look at that.
It has successfully been installed.
Let's click on Done.
Now, you can close out this window.
Let's now go back to the top left-hand corner.
Click on the New button again.
Then go down to More.
And here, you should now see an option for Google Colaboratory.
Let's click on this one.
This drops us into the Google Colaboratory space.
And at first glance, it might look a little bit intimidating.
But trust me, this is going to be so easy,
and the results are going to be so good.
In the top left-hand corner, first off,
let's give our file a name.
This way, you could find your way back to this in the future.
I'll click on Untitled.
Let's double-click on that,
and here, I'll type in Transcribe Audio.
Here, I'll click away,
and that's now the name of the file.
Next, let's click on the menu titled Runtime,
and right here, there's the option
for Change Runtime Type.
Let's click on that,
and that opens up this dialog where we can choose the hardware
accelerator.
Be sure to select GPU or a graphics card.
It turns out that graphics cards run these models extremely
well.
Next, let's click on Save.
Next, we need to install Whisper AI.
So let's go up to this field right up above
where we can enter in code.
And here, I'll enter this in.
You'll find this in the description,
so you could simply copy and paste it from there.
First, we're going to install Whisper,
and we're getting this from GitHub.
This is where all of the code is kept and also maintained.
Once we get that, we're going to install
something called ffmpeg.
And this allows us to work with audio and video files.
And although I say we're going to install it, don't worry,
we're not installing anything on your computer.
This is installing it all to the Google Colaboratory.
Once you're all set, over on the left-hand side,
let's click on this Run icon.
This will now go through and install Whisper and also
ffmpeg.
And it looks like the installation
finished in about 23 seconds.
Not too bad.
Over on the left-hand side, let's click on this Folder icon.
And you can now drag in an audio file or a video file
that you would like to transcribe.
Here, I have an MP3 file,
and I'll simply drop this in.
Here, it says that the uploaded files
will get deleted when this runtime is recycled.
That's OK, so let's click on OK.
And now we can see that the file has been successfully uploaded.
I'm now ready to extract text from this audio file.
Let's go back up to the top
and here, I'll insert some code.
This inserts another field down below,
and here, I'll type in Whisper.
Here, this is calling the Whisper AI.
Then you need to type in the name of the file
that you want to extract text from.
Mine is called cookies.mp3.
So here, I'll make sure it says cookies.mp3.
And last, you can also specify the model
that you would like to use.
I want to use the medium model.
You have five different models that you can choose from.
On the low end, you have the tiny model.
This takes up the least space.
It also works the quickest, but you get the worst accuracy.
On the other end, you have the large model.
It takes up about a gig and a half.
It also takes the longest time to process.
But you also get the highest quality level.
I found that a good sweet spot
is going with the medium model.
Once you finish entering this in,
let's click on the Run icon.
And check that out.
It has now finished running.
And right down here, I can see a transcript
of everything that was said in this audio file.
Also, over on the left-hand side,
if you don't see these three new files,
right up on top, click on the Refresh icon,
and you should see an SRT file, a TXT file, and a VTT file.
A text file is just all of the text from the audio.
SRT and VTT, these are caption formats
that also include timestamps,
so you know what was said when.
To download any one of these files,
over on the right-hand side,
click on the ellipsis or the three dot,
and here you can click on Download.
I'll download the SRT file and also the TXT file.
Here, I'll click on Download.
Here, we can see the TXT file.
And the thing I love about using Whisper
is first off, reading through this,
it looks like it did a perfect job transcribing.
Also, look at all of this, it applied capitalization.
You also get punctuation,
so this is a very high-quality transcript.
When I open up the SRT file,
here you'll see the exact same transcript,
but it also includes timestamps for when everything is said.
To transcribe another file,
you could simply drag another audio or video file in,
and then simply update the name right here,
and you can run again,
and then you'll get another transcript for your next file.
To transcribe this file, we just use a very basic command.
You also have some additional parameters that you can use.
Right up on top, let's add some more code,
and right down here, type in whisper -h.
You'll also find this in the description,
and then let's click on Run.
This opens up all of the available parameters.
Here, for instance,
you can specify where you want to save the output.
Here, you could also specify
whether you want to transcribe a file
or whether you also want to translate a file.
Here, you could also specify the language,
and you have many other parameters.
If you're not sure what a parameter does,
if you scroll down a little bit,
here you'll see a detailed explanation
of what every single parameter does.
Once you leave Google Colaboratory,
your runtime will end,
and it'll automatically remove all of your files.
So if you've transcribed some audio,
I'd recommend downloading it first before you leave.
This is such amazing technology.
I personally use it for all of my YouTube video captions.
It does a better job than Google's auto-generated captions
because it gets all the words right.
It applies capitalization.
It takes care of the punctuation.
I just have to go in and make a few very minor tweaks
and refinements to get it perfect.
To watch more videos like this one,
please consider subscribing,
and I'll see you in the next video.
Ver Más Videos Relacionados
Comment FILMER une INTERVIEW professionnelle
Canva pour l'enseignement : comment activer un compte canva pro gratuitement (profs ou étudiants)
Comment utiliser la nouvelle App ChatGPT (sans attendre)
How to Write a Book with AI in 2024 (Full Step-By-Step Tutorial)
L'IA À UTILISER EN 2024 ! (CLAUDE AI)
Cette technique de Prompt va te faire gagner beaucoup de temps (ChatGPT, Mistral, Claude, Llama...)
5.0 / 5 (0 votes)