Best FREE Speech to Text AI - Whisper AI

Kevin Stratvert
18 Jan 202308:21

Summary

TLDRDans cette vidéo, Kevin présente Whisper, un outil AI développé par OpenAI, capable de transcrire des discours en texte avec une précision supérieure à celle des humains. Compatible avec 97 langues et performant même en présence de bruit de fond ou d'accents épais, Whisper est gratuit et open source. Le tutoriel explique comment l'utiliser via Google Colaboratory pour transcrire des fichiers audio ou vidéo, en choisissant parmi différents modèles d'IA pour obtenir une transcription de qualité, y compris la capitalisation et la ponctuation.

Takeaways

  • 😀 L'IA peut convertir le discours en texte avec une précision supérieure à celle de la plupart des humains.
  • 🌐 Elle prend en charge 97 langues différentes, y compris l'anglais.
  • 🔊 Fonctionne même en présence d'un bruit de fond important ou avec un accent très prononcé.
  • 🆓 Le service est gratuit et open source.
  • 💻 Utilisez l'outil AI appelé Whisper, développé par OpenAI.
  • 🔗 OpenAI est également derrière ChatGPT et Dalle2, d'autres outils populaires.
  • 🔧 Vous pouvez installer Whisper directement sur votre ordinateur ou utiliser Google Colaboratory pour exécuter le code dans votre navigateur web.
  • 📁 Google Colaboratory vous permet de gérer des fichiers audio ou vidéo directement dans l'environnement en ligne.
  • 💾 Vous pouvez choisir entre cinq modèles de tailles différentes pour la transcription, allant du modèle le plus petit au plus grand.
  • 📝 Whisper fournit une transcription de haute qualité, y compris la capitalisation et la ponctuation.
  • 📋 Vous pouvez télécharger les transcriptions au format texte brut, SRT ou VTT pour les sous-titres synchronisés.

Q & A

  • Qu'est-ce que le but principal de la vidéo?

    -Le but principal de la vidéo est de montrer comment transformer la parole en texte à l'aide de l'IA et de présenter l'outil Whisper développé par OpenAI.

  • Combien de langues le logiciel Whisper prend-il en charge?

    -Whisper prend en charge l'anglais et 96 autres langues.

  • Comment Whisper gère-t-il le bruit de fond et les accents épais?

    -Whisper fonctionne même en présence d'un bruit de fond important et avec des accents très épais.

  • Pourquoi l'auteur recommande-t-il l'utilisation de Google Colaboratory?

    -L'auteur recommande Google Colaboratory car il permet d'exécuter du code directement dans un navigateur web, sans que le type de PC de l'utilisateur n'importe.

  • Quels sont les étapes pour installer Google Colaboratory à partir de Google Drive?

    -Pour installer Google Colaboratory, il faut accéder à Google Drive, cliquer sur le bouton 'New', choisir 'More', se connecter à 'Connect More Apps', rechercher 'Google Colaboratory', cliquer sur 'Install', puis sur 'Continue', et enfin sur 'Done'.

  • Quel est le rôle du GPU dans le processus de transcription audio avec Whisper?

    -Le GPU est utilisé comme accélérateur matériel pour exécuter les modèles d'IA, ce qui permet une meilleure performance lors de la transcription audio.

  • Comment se fait l'installation de Whisper AI dans Google Colaboratory?

    -L'installation de Whisper AI se fait en entrant des commandes dans le champ de code de Google Colaboratory, en copiant et en collant le code fourni dans la description de la vidéo.

  • Quels formats de fichiers de transcription sont générés par Whisper?

    -Whisper génère des fichiers de transcription au format SRT, TXT et VTT, où SRT et VTT incluent des timestamps.

  • Quelle est la taille de la mémoire et le temps de traitement pour les différents modèles de Whisper?

    -Les modèles varient de 'tiny' qui a la plus petite taille et le temps de traitement le plus rapide, à 'large' qui prend environ 1,5 Go et prend le plus de temps à traiter, mais offre la meilleure qualité.

  • Quels sont les avantages de Whisper selon l'auteur de la vidéo?

    -Selon l'auteur, Whisper transcrit avec une grande précision, applique la capitalisation et la ponctuation, et est plus efficace que les sous-titres automatiques générés par Google pour les vidéos YouTube.

Outlines

00:00

😀 Introduction à l'utilisation d'IA pour la transcription vocale

Kevin présente un outil d'IA nommé Whisper, développé par OpenAI, capable de transcrire des discours en texte dans 97 langues différentes, même en présence de bruit de fond ou avec un accent prononcé. Il souligne que cet outil est gratuit et open source. Pour l'utiliser, il suggère d'employer Google Colaboratory, un service permettant d'exécuter du code directement dans un navigateur web, sans nécessiter de spécifications particulières de l'ordinateur. Kevin guide les utilisateurs à travers le processus d'installation de Google Colaboratory à partir de Google Drive, y compris la connexion au compte Google et l'ajout de l'application via les paramètres.

05:01

😲 Utilisation de Whisper AI pour transcrire des fichiers audio et vidéo

Après avoir expliqué comment démarrer Google Colaboratory et comment y installer Whisper AI, Kevin montre comment utiliser cet outil pour transcrire un fichier audio. Il détaille les étapes pour exécuter le programme, choisir le modèle de taille moyenne pour la transcription, et comment téléverser des fichiers audio ou vidéo. Il explique également comment les fichiers générés, tels que les fichiers SRT, TXT et VTT, peuvent être téléchargés. Il souligne la précision de la transcription, y compris la capitalisation et la ponctuation, et mentionne que Whisper est également capable de traduire les fichiers. Kevin conclut en recommandant de télécharger les transcriptions avant de quitter Google Colaboratory, car les fichiers seront supprimés une fois la session terminée.

Mindmap

Keywords

💡AI

L'intelligence artificielle (AI) est un domaine de l'informatique qui vise à créer des machines capables de réaliser des tâches qui nécessitent habituellement l'intelligence humaine. Dans la vidéo, l'AI est utilisée pour convertir le langage parlé en texte, ce qui illustre son application dans la reconnaissance vocale et la transcription automatique.

💡Transcription

La transcription est le processus de conversion de l'audio en texte. Dans le script, la transcription est le but principal de l'utilisation de l'outil AI, permettant de transformer des enregistrements audio en documents textuels, ce qui est particulièrement utile pour les sous-titres ou la documentation.

💡Langues

Le script mentionne que l'outil AI peut gérer 97 langues différentes, ce qui souligne la capacité de l'AI à fonctionner dans un contexte multiculturel et multilingue. Cela est important pour rendre les technologies accessibles et utiles à un large public.

💡Bruit de fond

Le bruit de fond est le son qui est présent dans un enregistrement audio mais qui n'est pas pertinent pour la transcription. Le script indique que l'outil AI fonctionne même avec un bruit de fond important, montrant sa robustesse et sa capacité à filtrer les sons parasites.

💡Accent

Un accent est une particularité de la prononciation qui est caractéristique d'une région ou d'un groupe de personnes. Le script mentionne que l'outil fonctionne avec des accents épais, ce qui signifie qu'il est capable d'adapter sa compréhension à des variations dans la prononciation.

💡Open source

Le logiciel open source est un type de logiciel dont le code source est disponible au public, permettant aux utilisateurs de le modifier et de l'améliorer. Dans le script, cela signifie que les développeurs peuvent contribuer à l'amélioration de l'outil AI et que les utilisateurs peuvent le personnaliser.

💡Google Colaboratory

Google Colaboratory, également connu sous le nom de Colab, est un service en ligne qui permet d'écrire et d'exécuter du code Python dans un environnement complet de programmation sans avoir à installer de logiciels sur son ordinateur. Dans la vidéo, il est utilisé pour exécuter l'outil AI sans nécessiter de matériel informatique puissant.

💡GPU

Une Unité de Traitement Graphique (GPU) est un type de processeur spécialisé dans le rendu de graphiques et les calculs parallèles. Dans le script, l'utilisation d'une GPU est recommandée pour exécuter l'outil AI plus rapidement, soulignant l'importance de la puissance de calcul pour les applications AI.

💡ffmpeg

FFmpeg est un ensemble d'outils de traitement multimédia libre qui peut convertir et transcoder des fichiers audio et vidéo. Dans le script, il est installé pour permettre au logiciel AI de traiter des fichiers audio et vidéo, montrant son rôle dans la préparation des données pour la transcription.

💡Modèles

Dans le contexte de l'IA, un modèle est une configuration spécifique d'algorithmes et de paramètres utilisés pour effectuer une tâche. Le script mentionne plusieurs modèles de tailles différentes, allant du 'tiny' au 'large', chacun offrant un compromis différent entre la taille, la vitesse et la précision de la transcription.

Highlights

Utilisation de l'IA pour convertir la parole en texte avec une précision supérieure à celle des humains.

Prise en charge de 97 langues différentes, y compris l'anglais.

Capacité à fonctionner même en présence d'un bruit de fond important.

Performances élevées avec des accents très prononcés.

Service gratuit et open source.

Présentation de l'outil AI Whisper développé par OpenAI.

Installation de Whisper directement sur un ordinateur nécessite des ressources informatiques importantes.

Utilisation de Google Colaboratory pour exécuter du code dans un navigateur web sans dépendre de la puissance de l'ordinateur local.

Création d'un nouveau fichier Google Colaboratory à partir de Google Drive.

Installation de Google Colaboratory en tant qu'application Google Drive.

Configuration du runtime pour utiliser un GPU ou une carte graphique.

Installation de Whisper AI et de ffmpeg à partir de GitHub pour traiter des fichiers audio et vidéo.

Importation de fichiers audio ou vidéo dans Google Colaboratory pour la transcription.

Utilisation de la commande Whisper pour transcrire un fichier audio spécifique.

Choix du modèle de taille moyenne pour un bon compromis entre précision et rapidité.

Génération de fichiers de transcription au format texte brut, SRT et VTT.

Téléchargement des fichiers de transcription pour les utiliser en dehors de Google Colaboratory.

Utilisation de Whisper pour générer des légendes automatiques pour les vidéos YouTube avec une grande précision.

Explication des paramètres avancés de la commande Whisper pour une personnalisation plus précise.

Nécessité de télécharger les fichiers de transcription avant de quitter Google Colaboratory pour les conserver.

Transcripts

play00:00

Hi everyone.

play00:00

Kevin here.

play00:01

Today, we're going to look at how you can take speech

play00:05

and turn it into text using AI.

play00:09

And the really crazy thing is that it does a better

play00:12

job than most humans.

play00:15

You can use it with English and 96 other languages.

play00:19

It works even if you have a lot of background noise.

play00:22

And it also works if you have a very thick accent.

play00:28

The best part is that it's completely free and also

play00:31

open source.

play00:33

Let's check out how to do this.

play00:35

We're going to use an AI tool called Whisper.

play00:39

Whisper is made by a company called OpenAI.

play00:42

And you might have heard of them before.

play00:45

That's the same company behind the immensely popular ChatGPT,

play00:49

which allows you to converse with a computer.

play00:53

They're also the company behind Dalle2,

play00:55

where you can type in some text,

play00:57

and then it'll generate an image based on that text.

play01:01

You can install Whisper directly on your computer.

play01:04

You can click on the link right up above.

play01:06

But you do need a somewhat capable computer.

play01:09

So instead, we're going to use something

play01:11

called Google Colaboratory.

play01:14

This allows you to run code directly in your web browser.

play01:17

So it doesn't really matter what type of PC you have.

play01:20

To use Google Colaboratory, head to Google Drive.

play01:24

You can click on the link right up above.

play01:26

You'll need a Google account,

play01:28

and if you don't have one yet, it's entirely free to set up.

play01:32

On Google Drive, in the top left-hand corner,

play01:35

let's click on the New button.

play01:36

And at the very bottom, let's click on More,

play01:39

and then go down to Connect More Apps.

play01:42

At the top of this dialog, let's click into the search field,

play01:45

and here, type in Google Colaboratory and then search.

play01:49

Here, we see this result for Colaboratory.

play01:51

Let's click on that,

play01:53

and here, let's click on Install.

play01:55

Next, let's click on Continue.

play01:57

Next, you should see a message saying

play01:59

that Google Colaboratory was connected to Google Drive.

play02:02

Let's click on OK.

play02:03

And look at that.

play02:04

It has successfully been installed.

play02:06

Let's click on Done.

play02:08

Now, you can close out this window.

play02:10

Let's now go back to the top left-hand corner.

play02:12

Click on the New button again.

play02:14

Then go down to More.

play02:16

And here, you should now see an option for Google Colaboratory.

play02:19

Let's click on this one.

play02:20

This drops us into the Google Colaboratory space.

play02:24

And at first glance, it might look a little bit intimidating.

play02:26

But trust me, this is going to be so easy,

play02:29

and the results are going to be so good.

play02:31

In the top left-hand corner, first off,

play02:33

let's give our file a name.

play02:35

This way, you could find your way back to this in the future.

play02:38

I'll click on Untitled.

play02:39

Let's double-click on that,

play02:40

and here, I'll type in Transcribe Audio.

play02:43

Here, I'll click away,

play02:44

and that's now the name of the file.

play02:45

Next, let's click on the menu titled Runtime,

play02:48

and right here, there's the option

play02:50

for Change Runtime Type.

play02:52

Let's click on that,

play02:53

and that opens up this dialog where we can choose the hardware

play02:57

accelerator.

play02:58

Be sure to select GPU or a graphics card.

play03:02

It turns out that graphics cards run these models extremely

play03:06

well.

play03:07

Next, let's click on Save.

play03:10

Next, we need to install Whisper AI.

play03:12

So let's go up to this field right up above

play03:15

where we can enter in code.

play03:16

And here, I'll enter this in.

play03:18

You'll find this in the description,

play03:20

so you could simply copy and paste it from there.

play03:23

First, we're going to install Whisper,

play03:25

and we're getting this from GitHub.

play03:27

This is where all of the code is kept and also maintained.

play03:31

Once we get that, we're going to install

play03:32

something called ffmpeg.

play03:35

And this allows us to work with audio and video files.

play03:38

And although I say we're going to install it, don't worry,

play03:41

we're not installing anything on your computer.

play03:43

This is installing it all to the Google Colaboratory.

play03:46

Once you're all set, over on the left-hand side,

play03:48

let's click on this Run icon.

play03:51

This will now go through and install Whisper and also

play03:53

ffmpeg.

play03:55

And it looks like the installation

play03:56

finished in about 23 seconds.

play03:58

Not too bad.

play04:00

Over on the left-hand side, let's click on this Folder icon.

play04:03

And you can now drag in an audio file or a video file

play04:07

that you would like to transcribe.

play04:08

Here, I have an MP3 file,

play04:10

and I'll simply drop this in.

play04:12

Here, it says that the uploaded files

play04:14

will get deleted when this runtime is recycled.

play04:16

That's OK, so let's click on OK.

play04:19

And now we can see that the file has been successfully uploaded.

play04:22

I'm now ready to extract text from this audio file.

play04:27

Let's go back up to the top

play04:28

and here, I'll insert some code.

play04:30

This inserts another field down below,

play04:32

and here, I'll type in Whisper.

play04:33

Here, this is calling the Whisper AI.

play04:36

Then you need to type in the name of the file

play04:39

that you want to extract text from.

play04:41

Mine is called cookies.mp3.

play04:43

So here, I'll make sure it says cookies.mp3.

play04:46

And last, you can also specify the model

play04:49

that you would like to use.

play04:51

I want to use the medium model.

play04:53

You have five different models that you can choose from.

play04:57

On the low end, you have the tiny model.

play04:59

This takes up the least space.

play05:01

It also works the quickest, but you get the worst accuracy.

play05:05

On the other end, you have the large model.

play05:08

It takes up about a gig and a half.

play05:10

It also takes the longest time to process.

play05:13

But you also get the highest quality level.

play05:15

I found that a good sweet spot

play05:17

is going with the medium model.

play05:19

Once you finish entering this in,

play05:21

let's click on the Run icon.

play05:22

And check that out.

play05:23

It has now finished running.

play05:25

And right down here, I can see a transcript

play05:28

of everything that was said in this audio file.

play05:31

Also, over on the left-hand side,

play05:32

if you don't see these three new files,

play05:35

right up on top, click on the Refresh icon,

play05:37

and you should see an SRT file, a TXT file, and a VTT file.

play05:42

A text file is just all of the text from the audio.

play05:46

SRT and VTT, these are caption formats

play05:49

that also include timestamps,

play05:51

so you know what was said when.

play05:54

To download any one of these files,

play05:55

over on the right-hand side,

play05:56

click on the ellipsis or the three dot,

play05:59

and here you can click on Download.

play06:01

I'll download the SRT file and also the TXT file.

play06:05

Here, I'll click on Download.

play06:06

Here, we can see the TXT file.

play06:08

And the thing I love about using Whisper

play06:10

is first off, reading through this,

play06:12

it looks like it did a perfect job transcribing.

play06:15

Also, look at all of this, it applied capitalization.

play06:18

You also get punctuation,

play06:20

so this is a very high-quality transcript.

play06:23

When I open up the SRT file,

play06:25

here you'll see the exact same transcript,

play06:27

but it also includes timestamps for when everything is said.

play06:31

To transcribe another file,

play06:33

you could simply drag another audio or video file in,

play06:36

and then simply update the name right here,

play06:38

and you can run again,

play06:39

and then you'll get another transcript for your next file.

play06:43

To transcribe this file, we just use a very basic command.

play06:47

You also have some additional parameters that you can use.

play06:50

Right up on top, let's add some more code,

play06:52

and right down here, type in whisper -h.

play06:55

You'll also find this in the description,

play06:57

and then let's click on Run.

play06:59

This opens up all of the available parameters.

play07:02

Here, for instance,

play07:03

you can specify where you want to save the output.

play07:06

Here, you could also specify

play07:07

whether you want to transcribe a file

play07:09

or whether you also want to translate a file.

play07:12

Here, you could also specify the language,

play07:14

and you have many other parameters.

play07:16

If you're not sure what a parameter does,

play07:19

if you scroll down a little bit,

play07:20

here you'll see a detailed explanation

play07:22

of what every single parameter does.

play07:24

Once you leave Google Colaboratory,

play07:26

your runtime will end,

play07:28

and it'll automatically remove all of your files.

play07:30

So if you've transcribed some audio,

play07:33

I'd recommend downloading it first before you leave.

play07:36

This is such amazing technology.

play07:38

I personally use it for all of my YouTube video captions.

play07:42

It does a better job than Google's auto-generated captions

play07:46

because it gets all the words right.

play07:48

It applies capitalization.

play07:49

It takes care of the punctuation.

play07:51

I just have to go in and make a few very minor tweaks

play07:54

and refinements to get it perfect.

play07:58

To watch more videos like this one,

play08:00

please consider subscribing,

play08:01

and I'll see you in the next video.

Rate This

5.0 / 5 (0 votes)

Related Tags
Transcription IALanguesBruit de fondAccentsOpen SourceGoogle ColabAI WhisperTranscription AudioSRT VTTYouTube
Do you need a summary in English?