Azure AI Vision API for OCR: Text Extraction Techniques Tutorial

Tech Expert Tutorials

19 Jan 202406:10

Summary

TLDRDans cette vidéo, la chaîne Tech, Expert Tutorials montre comment extraire du texte avec Microsoft Azure Computer Vision. Le créateur guide pas à pas la création d’une ressource Azure, la récupération des clés et de l’endpoint, puis la configuration d’un environnement Python (Jupyter) et l’installation du SDK. Le tutoriel illustre l’appel au service avec des images locales ou via URL, l’usage asynchrone de l’API (boucle d’attente et sleep), l’extraction des lignes et des boîtes englobantes, puis l’affichage des résultats. L’auteur compare brièvement Google Cloud Vision et AWS Textract, et estime la précision OCR entre 90 % et 95 %.

Takeaways

😀 Apprenez à utiliser Microsoft Azure Cloud Vision pour l'extraction de texte à partir d'images.
😀 Cette vidéo compare Azure Cloud Vision avec d'autres services comme Google Cloud Vision et AWS Textract.
😀 Le processus commence par la création d'une ressource de vision par ordinateur sur la console Azure.
😀 Il est important de choisir un groupe de ressources et une région lors de la création de la ressource Azure.
😀 Une fois la ressource créée, vous devez gérer les clés d'accès et récupérer l'endpoint pour exécuter le code.
😀 Le code utilisé dans cette vidéo est basé sur un notebook Python avec Jupyter, et un dépôt GitHub est fourni pour les utilisateurs.
😀 Vous devez installer le SDK Azure et configurer un environnement avant de pouvoir exécuter le code.
😀 L'importation de modules de base, comme `OS` et `time`, est nécessaire pour la mise en place de l'environnement et des appels API.
😀 Le code permet d'extraire le texte en utilisant soit un fichier local, soit une URL d'image.
😀 Le processus d'extraction est asynchrone, d'où l'utilisation d'une boucle avec une attente de 1 seconde pour vérifier la réussite de l'opération.
😀 Le taux de précision de l'extraction de texte est estimé à 90-95%, avec des variations selon la lisibilité de l'image et du texte.

Q & A

Qu'est-ce que Microsoft Azure Cloud Vision et comment l'utiliser pour l'extraction de texte ?
-Microsoft Azure Cloud Vision est un service d'Intelligence Artificielle qui permet d'analyser des images pour en extraire du texte. Il utilise la technologie OCR (reconnaissance optique de caractères) pour extraire du texte d'images, que ce soit à partir de fichiers locaux ou d'URLs. Dans cette vidéo, le processus d'utilisation de ce service est expliqué étape par étape, de la création d'une ressource Azure à l'exécution du code pour obtenir les résultats de l'extraction.
Comment créer une ressource Computer Vision dans Azure ?
-Pour créer une ressource Computer Vision dans Azure, vous devez accéder à la console Azure, chercher 'Computer Vision' et cliquer sur 'Créer'. Ensuite, sélectionnez un abonnement, créez un groupe de ressources, choisissez une région (par exemple, 'West US'), et donnez un nom à la ressource. Vous pouvez choisir une tarification gratuite ou standard selon vos besoins.
Que faut-il faire après avoir créé une ressource dans Azure ?
-Une fois la ressource créée, vous devez récupérer les informations nécessaires pour l'utiliser dans votre code. Cela inclut la clé API et l'URL du point de terminaison (endpoint). Vous pouvez trouver ces informations dans la section 'Clés' de votre ressource dans la console Azure.
Quels outils ou bibliothèques sont nécessaires pour utiliser Azure Cloud Vision avec Python ?
-Pour utiliser Azure Cloud Vision avec Python, vous devez installer le SDK Azure. Ce SDK vous permet d'interagir avec les services Azure, comme la reconnaissance optique de caractères (OCR). Vous aurez également besoin de bibliothèques Python standard comme 'os' et 'time', ainsi que d'un environnement comme Jupyter Notebook pour exécuter le code.
Qu'est-ce que le fichier settings.json et comment l'utiliser ?
-Le fichier settings.json est utilisé pour stocker les informations de configuration nécessaires à l'utilisation du service Azure. Il contient des informations comme la clé API et la région. Vous pouvez soit définir ces variables dans votre environnement, soit les inclure dans un fichier settings.json pour un accès facilité dans votre code.
Pourquoi utilise-t-on une fonction de sommeil (sleep) dans ce code ?
-La fonction de sommeil est utilisée pour gérer les opérations asynchrones. Lorsque vous envoyez une requête OCR, le traitement peut prendre un certain temps. La fonction sleep permet d'attendre un certain délai avant de vérifier si le processus est terminé, évitant ainsi d'envoyer trop de requêtes et de surcharge le service.
Quelles sont les deux façons d'envoyer une image à l'API Azure ?
-Il existe deux façons d'envoyer une image à l'API Azure pour l'extraction de texte : soit en utilisant une URL d'image (si l'image est hébergée en ligne), soit en envoyant un fichier local. Le code fourni dans la vidéo montre les deux méthodes et permet de tester les deux approches.
Que fait la méthode 'get read result' dans ce code ?
-'get read result' est la méthode qui interroge l'API pour obtenir les résultats de l'extraction du texte à partir de l'image. Cette méthode est utilisée après avoir lancé la reconnaissance optique de caractères (OCR) et permet de récupérer les résultats, tels que le texte extrait et les coordonnées de la boîte de délimitation de chaque morceau de texte dans l'image.
Qu'est-ce que le 'bounding box' dans les résultats OCR ?
-Le 'bounding box' fait référence aux coordonnées de la zone de l'image où le texte a été détecté. Cela inclut les points X et Y des coins supérieur gauche et inférieur droit de la zone contenant du texte. Cela vous permet de visualiser exactement où le texte a été extrait dans l'image.
Quelle est la précision de l'extraction du texte avec Azure Cloud Vision ?
-La précision de l'extraction du texte avec Azure Cloud Vision est estimée entre 90 et 95%. Cependant, cela dépend de la qualité de l'image et de la lisibilité du texte. Certaines parties de l'image peuvent être difficiles à lire pour l'algorithme OCR, ce qui peut entraîner des erreurs dans l'extraction.