Comment ne pas indexer de nombreuses pages sur un site web (suite) - Vidéo SEO Abondance N°152

Abondance

13 Apr 202006:02

Summary

TLDRDans cette vidéo, l'auteur aborde la problématique du robot.txt et de la désindexation des pages web. Il explique qu'un fichier robot.txt empêche le crawl des pages mais ne les désindexe pas. Pour désindexer des pages déjà présentes dans l'index Google, il est recommandé d'ajouter une balise meta 'noindex' et de soumettre une demande de suppression via la Search Console. Une fois les pages nettoyées, le robot.txt peut être utilisé pour éviter l'indexation de nouvelles pages non souhaitées. L'auteur mentionne aussi l'utilisation temporaire de sitemaps XML pour cette tâche.

Takeaways

😀 Le fichier `robots.txt` empêche le crawl des pages mais ne les déindexe pas de Google.
😀 Pour déindexer une page déjà indexée, utilisez la balise `meta robots` avec `noindex`.
😀 Vous pouvez également utiliser l'en-tête HTTP `X-Robots-Tag` pour appliquer un `noindex`.
😀 Une fois les balises `noindex` ajoutées, utilisez la Google Search Console pour demander la suppression des URLs.
😀 L'outil 'Suppression d'URL' dans Google Search Console permet de retirer rapidement les pages indésirables.
😀 Après la suppression, vérifiez le statut des pages déindexées dans le rapport de couverture de la Search Console.
😀 Le fichier `robots.txt` doit être utilisé pour empêcher le crawl futur des pages, mais il ne supprime pas celles déjà indexées.
😀 Il est recommandé d'utiliser la méthode via la Search Console pour une déindexation rapide et directe.
😀 Utiliser un sitemap XML temporaire est une alternative pour gérer des URL non répétitives, mais cette méthode est moins intuitive.
😀 Assurez-vous que toutes les pages indésirables sont déindexées avant d'appliquer des règles dans le `robots.txt`.
😀 La combinaison de balises `noindex` et de Google Search Console est la méthode la plus efficace pour contrôler l'indexation des pages.

Q & A

Qu'est-ce que le fichier robots.txt et quel est son rôle ?
-Le fichier robots.txt est utilisé pour indiquer aux moteurs de recherche quelles pages d'un site web ils doivent ou ne doivent pas explorer. Il sert à contrôler l'accès des robots de recherche à certaines pages, mais ne garantit pas le retrait des pages déjà indexées.
Quelle erreur l'auteur a-t-il commise dans la vidéo précédente (vidéo 151) ?
-L'auteur a fait l'erreur de qualifier son sujet de 'désindexation' des pages via le fichier robots.txt, alors qu'en réalité, ce fichier empêche l'exploration des pages mais ne les désindexe pas. Il aurait dû parler de la gestion des pages inutiles sur un site web.
Pourquoi le fichier robots.txt ne désindexe-t-il pas les pages ?
-Le fichier robots.txt empêche les robots d'explorer certaines pages, mais ne supprime pas les pages déjà présentes dans l'index des moteurs de recherche. Pour désindexer, il faut utiliser des directives comme 'noindex' sur les pages concernées.
Que faire si une page est déjà indexée, mais qu'on ne veut plus qu'elle le soit ?
-Il faut d'abord ajouter une balise 'meta robots noindex' sur la page concernée, puis utiliser la console de recherche Google pour demander la suppression de l'URL de l'index.
Comment utiliser la fonction de suppression dans la console de recherche Google ?
-Dans la console de recherche, il faut se rendre dans la section 'Suppression', puis cliquer sur 'Nouvelle demande'. Ensuite, il faut entrer un modèle d'URL récurrent, choisir l'option de suppression de toutes les URL avec ce préfixe, et envoyer la demande.
Combien de temps faut-il pour que Google supprime les URL de son index ?
-Dans l'exemple testé par l'auteur, 312 URL avec un même modèle ont été supprimées en une heure, ce qui montre que la suppression peut être très rapide.
Que faut-il vérifier après avoir demandé la suppression des URL ?
-Il faut vérifier dans la console de recherche que les pages concernées apparaissent dans la section 'Couverture' comme 'Exclues' en raison de la balise 'noindex'.
Pourquoi est-il conseillé de nettoyer les pages avant de modifier le fichier robots.txt ?
-Il est recommandé de nettoyer d'abord les pages indésirables via la console de recherche afin de s'assurer qu'elles sont supprimées de l'index avant de restreindre leur exploration avec le fichier robots.txt.
Peut-on utiliser un sitemap XML pour désindexer des pages ?
-Le sitemap XML est généralement utilisé pour aider à l'indexation des pages, pas pour leur désindexation. Cependant, dans des cas spécifiques, un sitemap temporaire avec les pages à désindexer pourrait être utilisé, mais ce n'est pas la méthode la plus recommandée.
Quelle est la méthode préférée pour désindexer des pages indésirables ?
-La méthode préférée est d'utiliser la console de recherche Google pour supprimer les URL, car cela permet une gestion plus précise et rapide, plutôt que de se fier uniquement aux fichiers robots.txt ou aux sitemaps.