Comment fonctionne un moteur de recherche ?

Thomas Cubel
23 Sept 202025:01

Summary

TLDRDans cette vidéo, Thomas Kubel expose en détail le fonctionnement d'un moteur de recherche, en se concentrant sur les erreurs courantes des débutants. Il clarifie les mécanismes d'indexation et d'analyse des requêtes de Google, démystifiant ainsi le processus qui permet de proposer des résultats pertinents. Kubel insiste sur l'importance de la pré-indexation, l'exploration du web par Google et l'utilisation d'algorithmes pour déterminer la pertinence et la popularité des pages. La vidéo est un guide précieux pour ceux qui cherchent à comprendre les coulisses du référencement naturel et à éviter les pièges fréquents.

Takeaways

  • 🔎 Le moteur de recherche fonctionne par indexation et non par analyse en temps réel de chaque requête.
  • 🕳 Les débutants pensent souvent que les moteurs de recherche parcourent l'ensemble du web à chaque recherche, ce qui n'est pas le cas.
  • 📚 Google a déjà effectué un travail considérable d'indexation avant que l'utilisateur ne tape une requête.
  • 🗂️ L'index est une immense bibliothèque numérique contenant des copies et des annotations de documents trouvés sur le web.
  • 🔍 Lors de la recherche, Google tient compte de facteurs tels que le compte Google de l'utilisateur, son historique de recherche et son comportement sur les sites.
  • 👀 Google ne surveille pas l'ensemble des activités des utilisateurs, mais il peut prendre en compte des données telles que les clics et la durée de visite pour affiner les résultats.
  • 🌐 Le référencement naturel est différent de la publicité payante; le premier est basé sur la pertinence et la popularité, tandis que le second est financé.
  • 🤖 Les algorithmes de recherche de Google analysent la requête, cherchent des correspondances dans l'index et classent les pages en fonction de divers critères.
  • 🛠️ Google utilise divers algorithmes, tels que ceux de pertinence, de comportement et de popularité, pour déterminer les résultats les plus pertinents.
  • ♻️ Google est en constante évolution, améliorant l'expérience utilisateur en intégrant des vidéos, des images et d'autres fonctionnalités pour enrichir les pages de résultats.
  • 🚫 Les algorithmes anti-spam de Google filtrent le contenu de mauvaise qualité et les liens manipulés pour assurer la qualité des résultats de recherche.

Q & A

  • Quel est le piège dans lequel tombent souvent les débutants lorsqu'ils comprennent le fonctionnement d'un moteur de recherche?

    -Les débutants ont tendance à croire que les moteurs de recherche parcourent l'ensemble du web en temps réel pour afficher les résultats. En réalité, les moteurs de recherche ont déjà effectué un travail important d'indexation avant même que la requête soit tapée.

  • Quelle est la première étape du fonctionnement d'un moteur de recherche tel que Google, selon le script?

    -La première étape est l'exploration et l'indexation. Google utilise un crawler pour trouver de nouvelles pages web et un scraper pour récupérer des informations de ces pages.

  • Comment Google stocke-t-il les informations récupérées sur le web?

    -Google stocke les informations récupérées dans une immense bibliothèque virtuelle appelée index. Il prend des notes et organise les documents de manière intelligente pour pouvoir les retrouver efficacement.

  • Quel est le rôle du scraper dans le processus de recherche de Google?

    -Le scraper est un programme informatique qui récupère des informations des pages web telles que les titres, le contenu, les images, etc., et les envoie dans l'index via l'indexeur.

  • Que fait Google après avoir indexé les informations?

    -Après l'indexation, lorsque l'utilisateur tape une requête, Google analyse cette requête et les documents dans l'index qui pourraient correspondre à cette demande, puis il restitue les résultats les plus pertinents.

  • Quels sont les différents types de résultats que Google peut afficher en réponse à une requête?

    -Google peut afficher des résultats naturels, basés sur la pertinence et l'utilité, ainsi que des résultats sponsorisés, qui sont des publicités payantes.

  • Quel est l'objectif des algorithmes de recherche de Google?

    -Les algorithmes de recherche de Google ont pour objectif d'analyser la requête de l'utilisateur, de déduire le contexte et de chercher les documents dans l'index les plus pertinents pour restituer aux utilisateurs.

  • Quels sont les critères pris en compte par les algorithmes de pertinence de Google?

    -Les algorithmes de pertinence analysent des centaines de critères tels que le contenu du titre de la page, la structure du contenu, et la qualité générale pour déterminer si un site ou un contenu est pertinent pour une requête donnée.

  • Comment Google utilise-t-il les algorithmes comportementaux pour améliorer les résultats de recherche?

    -Les algorithmes comportementaux analysent l'interaction de l'utilisateur avec les résultats de recherche, comme le temps passé sur une page ou le nombre de clics, pour affiner et personnaliser les résultats.

  • Quel est le rôle des algorithmes de calcul de popularité dans le classement des pages web par Google?

    -Les algorithmes de calcul de popularité déterminent si un site ou une page est populaire en se basant sur le nombre de citations et de liens entrants d'autres sites web, similaire à la notion de popularité dans les livres ou les citations académiques.

  • Quels sont les filtres anti-spam que Google utilise pour améliorer la qualité des résultats de recherche?

    -Google utilise des filtres anti-spam tels que Google Panda et Google Penguin pour pénaliser les sites web de mauvaise qualité et les liens de mauvaise qualité, respectivement.

Outlines

00:00

🔎 Comment fonctionne un moteur de recherche ?

Thomas Kubel introduit le sujet de la vidéo en expliquant qu'il va dévoiler le fonctionnement d'un moteur de recherche, en particulier les erreurs courantes des débutants. Il mentionne que les gens ont tendance à croire que les moteurs de recherche, comme Google, fonctionnent de manière logique et rationnelle, mais en réalité, ils ont un fonctionnement spécifique. Il propose ensuite de se tourner vers la documentation de Google pour clarifier ces idées. Il explique que Google a déjà effectué un travail considérable d'indexation avant même que l'utilisateur ne tape une requête, en se basant sur des annotations et des informations recueillies sur le web pour fournir des résultats pertinents.

05:00

📚 L'importance de l'indexation et du référencement naturel

Dans ce paragraphe, l'auteur entre dans les détails du rôle d'un moteur de recherche, en se concentrant sur l'indexation et le référencement naturel. Il invite les spectateurs à consulter la documentation de Google pour mieux comprendre ces concepts. Il décrit le processus par lequel Google explore le web, enregistre des informations pertinentes et les stocke dans un index. L'auteur souligne que Google a créé une bibliothèque numérique bien plus grande que toutes les bibliothèques du monde réunies, mettant ainsi en évidence l'ampleur de l'information organisée par Google.

10:02

🤖 Les mécanismes de crawler, scraper et indexeur de Google

Ici, l'auteur explique les mécanismes techniques utilisés par Google pour indexer le web. Il décrit le crawler comme un programme informatique qui trouve de nouvelles pages web à explorer, tandis que le scraper récupère des informations sur ces pages. Ces informations sont ensuite envoyées à un indexeur qui les stocke dans l'index de Google. L'auteur insiste sur le fait que ces processus sont continus et complexes, impliquant de nombreux sous-programmes qui travaillent en coulisses pour maintenir l'index à jour.

15:04

🧐 Les algorithmes de recherche et la pertinence des résultats

Dans ce paragraphe, l'auteur se concentre sur les algorithmes de recherche utilisés par Google pour déterminer la pertinence des pages web par rapport à une requête de l'utilisateur. Il mentionne que Google analyse de nombreux critères, tels que la structure du contenu, le titre de la page, et le contexte géographique de l'utilisateur. L'auteur explique également le rôle des algorithmes comportementaux et de popularité, qui étudient le comportement des utilisateurs sur les pages et la popularité des sites web, respectivement.

20:05

🛡 Les filtres anti-spam et la qualité du contenu

L'auteur termine la vidéo en abordant les mesures prises par Google pour assurer la qualité du contenu et lutter contre le spam. Il décrit les algorithmes anti-spam, tels que Google Panda et Penguin, qui ont pour but de pénaliser les sites web de mauvaise qualité ou qui utilisent des techniques de manipulation pour améliorer leur classement. L'auteur souligne que ces processus sont continus et s'adaptent constamment pour garantir que les utilisateurs reçoivent des résultats pertinents et utiles.

Mindmap

Keywords

💡Moteur de recherche

Un moteur de recherche est un système en ligne permettant aux utilisateurs de trouver des informations sur Internet en tapant des mots clés ou des requêtes. Dans la vidéo, Thomas Kubel explique le fonctionnement d'un moteur de recherche, en se concentrant sur Google, pour aider les utilisateurs à mieux comprendre comment obtenir des résultats pertinents et précis. L'exemple donné est celui d'une recherche de 'recettes de gâteaux au chocolat', qui illustre le processus de renvoi de résultats pertinents.

💡Index

L'index est une copie des pages web, des contenus et des informations organisées par le moteur de recherche pour une recherche rapide et efficace. Dans le script, l'index est décrit comme une 'immense bibliothèque' où Google stocke et organise les informations recueillies à travers le web, permettant ainsi d'analyser les requêtes des utilisateurs et de fournir des résultats pertinents.

💡Crawler

Un crawler, aussi appelé robot d'indexation, est un programme informatique qui explore le web pour trouver et indexer de nouvelles pages. Dans la vidéo, il est expliqué que le crawler est chargé de parcourir le web et de trouver des URLs pour que Google puisse les indexer. C'est le premier pas de la collecte des données pour le moteur de recherche.

💡Scraper

Un scraper est un outil qui récupère des informations sur les pages web, comme les titres, le texte et les images. Dans le contexte de la vidéo, le scraper est utilisé pour extraire ces informations des pages web découvertes par le crawler, afin qu'elles puissent être copiées et stockées dans l'index de Google.

💡Algorithme de recherche

Les algorithmes de recherche sont des ensembles de règles et de critères utilisés par les moteurs de recherche pour déterminer la pertinence et la popularité des pages web par rapport à une requête spécifique. Dans le script, il est indiqué que ces algorithmes analysent la requête de l'utilisateur, recherchent des correspondances dans l'index et classent les pages en fonction de leur utilité et de leur popularité.

💡Pertinence

La pertinence fait référence à la capacité d'un moteur de recherche à fournir des résultats qui correspondent directement à la requête de l'utilisateur. Dans la vidéo, l'auteur explique que les algorithmes de pertinence analysent les pages pour déterminer si elles contiennent les mots clés de la requête et si elles sont donc pertinentes pour cette requête.

💡Popularité

La popularité est un concept lié à la quantité de liens entrants (citations) qu'une page web reçoit d'autres sites, ce qui indique son importance ou sa valeur pour les autres contenus. Dans le script, la popularité est mentionnée comme un facteur clé dans le classement des pages dans les résultats de recherche, avec des algorithmes de calcul de la popularité comme PageRank.

💡Comportement des utilisateurs

Le comportement des utilisateurs se réfère à la manière dont les personnes interagissent avec les résultats de recherche, ce qui peut influencer le classement des pages. Dans la vidéo, il est mentionné que les algorithmes comportementaux prennent en compte si les utilisateurs restent sur une page, cliquent sur les autres résultats ou reformulent leur requête, ce qui peut aider à ajuster les résultats.

💡Anti-spam

Les filtres anti-spam sont des mécanismes mis en place par les moteurs de recherche pour identifier et éliminer les contenus de mauvaise qualité ou les pages qui utilisent des techniques de spamming pour améliorer leur classement. Dans le script, l'auteur parle des filtres anti-spam comme Google Panda et Penguin, qui sanctionnent les sites avec du contenu ou des liens de mauvaise qualité.

💡Référencement naturel

Le référencement naturel fait référence à l'apparition des sites dans les résultats de recherche sans avoir à payer pour un placement sponsorisé. Dans la vidéo, le référencement naturel est abordé en tant que pratique visant à améliorer la visibilité des sites sur Google en suivant les règles et en fournissant un contenu de qualité.

Highlights

Explication du piège commun sur le fonctionnement d'un moteur de recherche.

Clarification que Google ne recherche pas en temps réel mais utilise un index pré-existant.

Importance du travail en amont de Google pour indexer le web.

Rôle crucial de l'index dans la recherche et comment il est constitué.

Utilisation des comportements utilisateurs passés pour affiner les résultats de recherche.

Différence entre les résultats naturels et les résultats sponsorisés.

Impact de l'expérience utilisateur et des algorithmes comportementaux sur les résultats de recherche.

Fonctionnement des algorithmes de pertinence pour déterminer la qualité des résultats.

Algorithmes de calcul de popularité et leur importance dans le classement des pages.

Le rôle des filtres antispam comme Google Panda et Google Pingouin pour maintenir la qualité des résultats.

Importance de la documentation de Google pour comprendre le fonctionnement des moteurs de recherche.

Processus de crawling, scraping et indexation expliqué en détail.

Utilisation de l'index pour trouver les résultats pertinents et utiles à chaque recherche.

Evolution constante des fonctionnalités de Google pour améliorer l'expérience utilisateur.

Référence à l'analogie du bibliothécaire pour expliquer le rôle de Google.

Transcripts

play00:00

bonjour à tous c'est thomas kubel les

play00:02

bienvenus dans une nouvelle vidéo

play00:04

aujourd'hui je vous propose de découvrir

play00:06

comment fonctionne un moteur de

play00:08

recherche

play00:09

donc je vais vous expliquer aujourd'hui

play00:12

déjà le piège dans lequel tous les

play00:15

débutants et néophytes tombe en ce qui

play00:17

concerne le fonctionnement d'un moteur

play00:18

de recherche on a tendance à penser

play00:20

parfois que ça fonctionne d'une certaine

play00:22

manière parce que c'est rationnel parce

play00:24

que c'est logique et pourtant un moteur

play00:26

de recherche un fonctionnement bien

play00:27

spécifique donc on va voir ce piège dans

play00:30

lequel tous les débutants et néophytes

play00:32

tombe

play00:33

et puis ensuite on ira justement dans la

play00:36

documentation de google qui explique

play00:38

comment fonctionne un moteur de

play00:40

recherche parce qu'elle est très claire

play00:41

et elle va vous permettre d'avoir

play00:42

peut-être un petit peu plus de clarté et

play00:45

une vision un petit peu moins floue du

play00:47

fonctionnement d'un moteur de recherche

play00:49

donc passons tout de suite sur google et

play00:52

nous allons donc parler de ce fameux

play00:54

piège dont je vous parlais les gens ont

play00:57

tendance à croire quand il commence à

play00:59

s'intéresser au fonctionnement d'un

play01:01

moteur de recherche que un moteur de

play01:03

recherche comme google et bien

play01:05

globalement on tape une requête

play01:07

admettons recettes de gâteaux au

play01:10

chocolat voilà que quand je tape

play01:13

vraiment sur la touche entrée

play01:15

voilà et bien ce moment là précisément

play01:17

google a analysé mark est étalé sur

play01:19

l'ensemble des sites du monde qui parle

play01:21

du gâteau au chocolat et de la

play01:23

pâtisserie et compagnie pour essayer de

play01:25

me renvoyer des résultats et en fait on

play01:27

a tendance à penser que parce que google

play01:29

est une machine que

play01:32

google est ultra puissant que google et

play01:34

efficace que google c'est une société

play01:36

qui est valorisé à plusieurs milliards

play01:39

de dollars

play01:39

et bien que ça marche comme ça alors

play01:42

c'est tout à fait rationnel tout à fait

play01:44

logique et tout à fait brasser vraiment

play01:47

logique voilà qu'on puisse se dire ça

play01:49

fonctionne comme ça parce que on creuse

play01:51

pas et parce que on se dit ouais

play01:54

peut-être que moi j'aurais fait comme ça

play01:56

si j'étais un créateur de moteurs de

play01:58

recherche

play01:59

or cela fonctionne pas comme ça voilà ce

play02:02

n'est pas je tape une requête et google

play02:05

là va parcourir tout le web en un

play02:08

instant 0,60 et une seconde comme c'est

play02:11

écrit ici pour vous faire un classement

play02:14

parfait pour que vous puissiez avoir

play02:16

réponse à votre question votre demande

play02:19

non ça ne fonctionne pas comme ça c'est

play02:21

plutôt google

play02:23

il a fait un travail déjà énorme avant

play02:26

que vous tapiez votre recherche

play02:28

il a parcouru le maximum du harel

play02:32

maximum de pages possible qu'il a

play02:35

rencontré en naviguant à travers le web

play02:37

à travers internet etc

play02:39

il a récupéré tout un tas d'informations

play02:41

il a fait une copie de certains

play02:43

documents notamment tout ce qui n'est

play02:46

pas du spam voilà il à stocker tout ça

play02:49

dans une immense bibliothèque qui

play02:50

s'appelle un index où il a mis des

play02:53

annotations il a pris des petites notes

play02:55

il a essayé de d'organiser tous

play02:57

parfaitement de manière très

play02:59

intelligente pour pouvoir lorsque vous

play03:01

tapez une requête est bien trouver les

play03:06

documents qui sont les plus adaptés à

play03:08

votre recherche et à ce moment là juste

play03:11

à ce moment là lorsque vous tapez la

play03:12

roquette

play03:13

il va peut-être prendre en compte votre

play03:15

compte google il ya peut-être prendre en

play03:16

compte ce que vous allez rechercher

play03:17

auparavant avant cette requête

play03:19

il va peut-être essayer de saisir

play03:21

qu'est-ce qui est pour vous le

play03:25

classement à avoir

play03:26

et après ça et après ça parce que j'ai

play03:29

parlé de ce qui est fait en amont avant

play03:31

la roquette j'ai parlé de ce qui a été

play03:32

fait pendant après ça après votre

play03:36

requête

play03:37

eh bien il va encore faire des calculs

play03:39

puisqu'il va essayer de saisir bas

play03:41

voilà quelle peut-être a été votre

play03:43

comportement vis-à-vis de cette requête

play03:46

sur les sites que vous avez visité

play03:49

admettons j'ai tapé recettes gâteau au

play03:51

chocolat je suis allé sur le premier

play03:53

voilà la recette est trop longue je n'ai

play03:55

pas le temps tiens je vais aller sur la

play03:57

deuxième qui est ici / ouest-france et

play04:00

puis la troisième sur journal des femmes

play04:01

point fr bref je vais rester peut-être

play04:04

cinq secondes sur l'a 13 secondes sur

play04:06

l'autre je vais peut-être revenir en

play04:08

arrière et voire même peut-être je vais

play04:10

reformuler ma recherche

play04:12

je vais marquer vegan parce que je

play04:14

suivais galles voilà c'est comme ça que

play04:17

fonctionnent les internautes que vous

play04:19

fonctionnez puisque vous êtes aussi des

play04:22

utilisateurs de google

play04:23

et même si google ne peut pas voilà tout

play04:27

noté je m'adresse notamment aux

play04:30

complotistes quand je parle de tout ça

play04:32

mais google ne va pas traquer tout ce

play04:35

que vous faites avec votre téléphone

play04:37

google ne va pas traquer tout ce que

play04:38

vous faites avec votre google chrome

play04:40

google ne va pas traquer tout ce que

play04:42

vous faites avec google maps il va pas

play04:44

mesuré la position de votre curseur il

play04:46

ne va pas c'est trop gourmand ça demande

play04:49

trop de ressources il va éventuellement

play04:52

prendre certaines moyenne

play04:54

il va essayer de voir peut-être vous

play04:56

cliquer un peu plus

play04:57

il va essayer de voir qu'est ce que vous

play05:00

aimez que ce coût est ce que vous êtes

play05:02

positionnés géographiquement oui il

play05:04

récupère des choses on va pas s'en

play05:06

cacher mais tous noté ce n'est pas

play05:08

possible ça serait trop gourmand en

play05:10

ressources

play05:10

et google ne peut pas le faire même si

play05:12

c'est une société valorisée à plusieurs

play05:14

milliards non il ne peut pas le faire

play05:16

mais ceci dit sur le principe général

play05:20

voilà ce n'est pas je tape une requête

play05:23

et j'ai des résultats qui sont proposés

play05:27

par ce que là je viens tout juste sur le

play05:28

vif d'aller naviguer sur le web ce n'est

play05:30

pas ça d'accord un moteur de recherche

play05:32

c'est le moteur de recherche a parcouru

play05:35

tout un tas de sites et cetera il a noté

play05:37

des choses il a créé une immense

play05:39

bibliothèque avec

play05:41

des documents web etc le web qu'il aime

play05:44

si je puis dire pour ensuite en

play05:47

analysant votre requête en analysant

play05:49

votre profil vous donner des résultats

play05:50

qui correspondent à cette recherche ont

play05:53

carrément un processus avant pendant et

play05:57

après votre recherche

play05:59

et c'est ce que nous allons voir

play05:59

maintenant en détail en allant voir la

play06:01

documentation de google qui parle très

play06:04

bien du fonctionnement d'un moteur de

play06:05

recherche de google en lui-même est

play06:07

également de la mission le rôle d'un

play06:10

moteur de recherche donc passons

play06:11

maintenant sur un autre et quand je vous

play06:13

invite à aller tout en bas de google et

play06:15

vous allez sur info consommateurs vous

play06:16

allez tomber sur cette page si donc

play06:19

informations pour les consommateurs dans

play06:20

la recherche google donc si vous

play06:22

intéresser aux moteurs de recherche et

play06:24

notamment au référencement naturel pour

play06:26

acquérir plus de visibilité

play06:27

eh bien il peut être utile que vous

play06:30

lisiez tout ça parce que ça va vous

play06:32

permettre de savoir à qui vous avez

play06:34

affaire parce que google voilà met en

play06:37

place beaucoup de choses mais en place

play06:39

des résultats naturels mais bien en

play06:41

place aussi de la pub mais aussi en

play06:42

place tout un tas de fonctionnalités

play06:43

chaque année ils ne cessent d'évoluer

play06:47

pour essayer d'être un moteur de réponse

play06:49

un véritable assistant personnel c'est

play06:51

ce dont on parle ces dernières années et

play06:53

pour le coup il peut être intéressant de

play06:56

lire toutes ces choses là tous les liens

play06:58

que vous voyez parce que c'est assez

play07:00

bien expliqué et ça permet vraiment

play07:03

d'avoir la bonne vision de balard c'est

play07:07

quoi le rôle de google

play07:08

finalement comme je l'expliqué dans une

play07:10

certaines vidéos sur comment il a fait

play07:12

pour la rechercher et qu'est ce qu'un

play07:14

moteur de recherche

play07:15

on a des demandes on a des offres des

play07:18

sites et au centre finalement on a un

play07:21

service de recherche qui est si on fait

play07:23

une analogie globalement le rôle un peu

play07:25

d'un ou une bibliothécaire on a des gens

play07:28

qui arrivent au comptoir ils veulent des

play07:29

informations tient parce qu'on vous

play07:31

connais parce que on a de l'expérience

play07:33

parce qu'on a lu beaucoup parce qu'on

play07:34

est cultivé parce qu'on sait gérer notre

play07:36

bibliothèque

play07:37

eh bien on sait précisément quels livres

play07:39

vont vous correspondre bon bah c'est

play07:40

pareil avec google sauf que c'est un

play07:43

un niveau inimaginable donc allez sur

play07:47

information consommateurs cliquez sur le

play07:49

premier lien ici là de la liste comment

play07:51

fonctionnent les algorithmes de

play07:52

recherche et vous allez tomber sur cette

play07:54

page et donc si on va dans cette

play07:57

présentation générale d'être une vue

play07:59

d'ensemble de fond comment fonctionne la

play08:00

recherche google on a quand même

play08:02

plusieurs choses intéressantes

play08:04

et puis ensuite on va aller un petit peu

play08:06

plus en détails et je vais vous parler

play08:07

bas de caisse qu'un crawler qu'est ce

play08:10

qu'un scraper un indexeurs et c'est donc

play08:12

déjà comment fonctionne la recherche

play08:14

google de manière générale pour chacune

play08:16

de vos recherches il existe des milliers

play08:17

voire des millions de pages web

play08:19

contenant des informations susceptibles

play08:21

de vous intéresser

play08:22

et là vous vous demandez comment

play08:24

identifier les résultats les plus

play08:25

pertinents

play08:26

et bien c'est comme ça que google a

play08:29

réussi à devenir un géant en essayant

play08:33

déjà avance ce café fait déjà des

play08:35

moteurs de recherche constitué une

play08:38

immense bibliothèque un immense index

play08:40

donc finalement pour poopy adoption

play08:44

voilà ce qu'il a fait auparavant c'est

play08:45

organiser le contenu sur le web

play08:46

donc il a navigué sur tout un tas de

play08:48

sites ils à crolles et tout un tas

play08:51

d'adressent url il à scrap et récupérer

play08:54

des informations

play08:56

des documents du web des pages web titre

play08:59

comptex les images le texte les contenus

play09:04

bref tout un tas de choses et puis il a

play09:06

classé tout ça il ya un indexeurs dans

play09:08

un index dans une immense bibliothèque

play09:09

un peu sous cette forme

play09:11

voilà on veut au dessus on avait quelque

play09:14

chose en rapport avec poppy adoption

play09:16

voilà d'opter un poopy je pense que

play09:19

c'est un beau pays mais bon moi ça va

play09:20

être un chien je suppose eh bien on va

play09:23

aller par exemple dans la lémance

play09:26

bibliothèque qui a été créé auparavant

play09:28

parce que j'ai exploré etc va chercher

play09:32

voilà ce bouquin la bleue la dog parce

play09:36

que c'est pas de l'art dont on parle

play09:38

c'est pas de la science dont on parle

play09:39

c'est pas non plus des maths dont parle

play09:41

la géométrie non ces deux dogues donc je

play09:43

sais que là mon rayon là il ya dog chien

play09:46

et je sais que mes documents avec le bal

play09:50

manque pour répondre à cette question

play09:51

poppy abdou kion le chien là c'est ce

play09:56

truc bleus-là ces dogues

play09:57

donc c'est comme ça que fonctionne

play09:59

google c'est une machine encore une fois

play10:01

c'est pas d'imagés comme ça il n'y a pas

play10:04

un robot qui va dans un rayon et prendre

play10:06

un classeur mais informatiquement

play10:09

c'est ce fonctionnement là que nous

play10:13

avons donc avant même que nous

play10:16

saisissions notre requête google a

play10:19

organisé des informations disponibles

play10:21

bas dans des pages web dans leur index

play10:24

de recherche confirmant un index google

play10:26

avec une copie des pages web des

play10:29

contenus qu'on trouve peut trouver sur

play10:31

le web et notamment sur son autre site

play10:33

par exemple si on est éditeur créateurs

play10:35

de sites donc c'est un deck s'apparente

play10:39

à une bibliothèque comme je viens de le

play10:40

dire

play10:40

et donc

play10:42

c'est important de dire que ça contient

play10:45

beaucoup plus d'informations que toutes

play10:46

les bibliothèques du monde réunis et

play10:49

c'est là l'idée en fait c'est que google

play10:51

a toujours voulu faire le maximum par

play10:56

rapport à ça on avait des années 90-2000

play10:59

d'exemple si copé dit bien connue alors

play11:01

je crois que c'était en kart à des

play11:02

choses comme ça c'était rien c'était

play11:05

rien c'est déjà énorme mais c'était rien

play11:07

à côté de ce que google aujourd'hui

play11:11

google aujourd'hui quand on prend du

play11:13

recul et c'est important d'en parler

play11:15

c'est énorme c'est énorme de se dire que

play11:18

auparavant devaient aller voir un

play11:19

spécialiste on devait téléphoner à des

play11:21

gens spécialisés

play11:22

on devait aller voir des bouquins dans

play11:23

des bibliothèques à paris où je ne sais

play11:25

quoi pour trouver des informations

play11:27

essentielles est très très précise et

play11:30

aujourd'hui en fait non ben on a

play11:32

d'autres smartphones

play11:33

on a tablet on a un but un ordinateur de

play11:35

bureau on va sur google on tape quelque

play11:37

chose on a des informations c'est énorme

play11:38

c'est énorme qui aurait cru il ya 30 ans

play11:41

ou 40 ans que ça ça aurait pu exister

play11:43

personne personne et ça c'est important

play11:45

de le dire et c'est important d'en

play11:47

prendre conscience surtout si vous

play11:49

intéresser aux moteurs de recherche est

play11:51

aussi référence donc voilà on a une

play11:55

requête qui est tapé on à google qui a

play11:57

déjà fait un bon travail d'indexer des

play12:00

documents d'explorer le web et tout ça

play12:02

danalyse machin et quand vous avez tapez

play12:06

votre requête

play12:07

il va passer au crible des centaines de

play12:09

milliards de pages web qui sont dans son

play12:11

annexe pour essayer de trouver les

play12:13

résultats les plus pertinents et utiles

play12:15

en réponse à votre requête ce qui permet

play12:18

ensuite d'avoir des supers résultats

play12:20

avec plein de couleurs des images google

play12:23

maps un itinéraire d information bref

play12:27

tout un tas de choses en fonction de

play12:29

votre requête ça peut ça peut changer et

play12:32

c'est un peu ça que propose google

play12:34

aujourd'hui c'est sa promesse est

play12:36

derrière tout ça nous avons d'autres

play12:39

types de résultats nous n'avons pas des

play12:41

résultats que naturel donc qu'ils sont

play12:43

vraiment fait à partir de la pertinence

play12:46

de

play12:47

de ce qui est proposé et c'est non on a

play12:49

aussi de la publicité qui l'a

play12:51

globalement on paye voilà et on a un

play12:55

encart publicitaire un endroit donc

play12:57

c'est nous qui choisissons ou est-ce

play12:58

qu'on veut être

play13:00

publiés ou est-ce qu'on veut mettre la

play13:02

publicité mais au final voilà on peut

play13:05

avoir un très très mauvais contenu étant

play13:07

complet et ben voilà on peut tout à fait

play13:10

être visible donc c'est vraiment deux

play13:12

choses distinctes qu'on a à la fois

play13:13

résultats naturels et les résultats

play13:15

sponsorisés les résultats publicitaires

play13:16

et les résultats naturels c'est vraiment

play13:19

là dessus que le fonctionnement du

play13:21

moteur de recherche et est intéressant

play13:23

autre chose d'intéressant à dire c'est

play13:26

que google ne cesse d'améliorer votre

play13:30

expérience notre expérience en bougeant

play13:33

les lignes en mettant des couleurs des

play13:35

vidéos en essayant d'enrichir ses pages

play13:38

avant on avait dit le lien bleu avec un

play13:40

peu de publicité aujourd'hui on a plein

play13:42

de vidéos d'image même des petites box

play13:44

qui nous répondent directement

play13:45

c'est vraiment super finalement comme

play13:48

programme donc voilà pour la

play13:50

présentation générale de google et donc

play13:51

si on va dans le détail de chaque étape

play13:54

donc on a une première partie qui se

play13:56

passe donc avant votre recherche

play14:00

on à l'exploration et l'indexation et

play14:02

l'exploration indexation donc si cet

play14:03

onglet là comment la recherche google

play14:05

organise des informations donc on a des

play14:07

milliards de pages qui existe voilà sûr

play14:09

quand on va sur internet manière

play14:13

générale et le réseau internet et que on

play14:15

navigue sur le web donc tout ce qui est

play14:16

accessible avec un navigateur ou autre

play14:19

globalement on a tout un tas de

play14:21

l'adresse lavoyer generes qui finit par

play14:24

crawling indexing si je vais sans

play14:26

information consommateurs j'ai une autre

play14:28

adresse si je vais ici une autre adresse

play14:29

et pour votre site ou pour votre copain

play14:33

potes qui a un site ou pour n'importe

play14:36

quelle entreprise etc

play14:37

on a aussi une adresse principale la

play14:39

page d'accueil nom de domaine google.com

play14:41

point fr et ensuite on a différentes

play14:44

adresses

play14:44

globalement on a un premier programme et

play14:47

là je rentre un peu dans le détail on a

play14:50

un problème

play14:50

un premier programme pardon qui

play14:52

s'appelle un crawler un crawler c'est

play14:55

quoi c'est un programme informatique qui

play14:57

va explorer son but c'est de trouver des

play15:01

url c'est à dire des nouvelles pages à

play15:03

explorer ce crawler fonctionne

play15:07

étroitement avec ce qu'on appelle aussi

play15:09

un scraper un scraper c'est un programme

play15:12

informatique encore mais qui ne va pas

play15:15

juste chercher des nouveaux liens comme

play15:17

les liens qui sont ici ça c'est de

play15:18

crawler qui le fait le scra peur non lui

play15:21

c'est vraiment récupérer des

play15:22

informations donc ça récupérer les

play15:23

titres et qui est contenue récupérer des

play15:26

images bref tout dépend du scra peur

play15:28

qu'on a configuré

play15:29

mais globalement ça récupère de

play15:31

l'information ça peut copier tout un

play15:33

document entier ça peux tu perds et

play15:35

simplement que les titres bref ça dépend

play15:37

du scraper encore une fois donc on a le

play15:39

crawler qui explore et trouvent des

play15:41

nouveaux liens et globalement en

play15:42

parallèle on a un scraper qui va

play15:44

récupérer des informations faire des

play15:46

copies de certaines choses pour ensuite

play15:49

les envoyer dans l'index via un

play15:52

indexeurs et l'index heures c'est donc

play15:54

un autre programme informatique un autre

play15:56

processus qui permet de créer un axe et

play15:59

de gérer aussi l'index donc on a

play16:02

vraiment plusieurs phases

play16:04

bien sûr il ya des sous programme du

play16:06

crawler des sous programme du scra peur

play16:08

on a des tas de choses qui se passe en

play16:09

coulisses et c'est chez google

play16:11

mais si vous devez retenir peut-être ou

play16:13

avec quatre choses avant de parler de la

play16:16

roquette s'est on a un crawler qui

play16:19

explorent des url

play16:20

en parallèle le scraper récupéra des

play16:22

informations sur ces url ca va ces pages

play16:26

voilà ces informations sont copiés

play16:29

ensuite dans un index via l'aide d'un

play16:33

indexeurs et ensuite vous avez votre

play16:38

requête qui rentrent en ligne de compte

play16:39

c'est à dire que l'exploration c'est un

play16:42

processus continu

play16:43

ils ont organisé des informations lors

play16:46

de l'indexation et ensuite vous avez des

play16:48

algorithmes de recherche qui vont

play16:49

essayer d'étudier votre requête

play16:52

vous avez par exemple quelque chose qui

play16:54

va analyser les termes de recherche

play16:55

quelque chose qui va chercher des

play16:58

correspondances vous avez quelque chose

play16:59

qui va classer les pages selon leur

play17:02

utilité

play17:02

vous avez encore un autre algorithme qui

play17:04

va afficher des meilleurs résultats

play17:06

selon certains critères et c'est à leur

play17:07

popularité machin la vitesse la sécurité

play17:10

et vous avez aussi tout un tas de choses

play17:12

qui vont prendre en compte le contexte

play17:15

c'est à dire où vous situer

play17:17

géographiquement parlant qui soulève

play17:19

vraiment voulu dire qu'est ce qu'on peut

play17:20

vous proposer l'instant t veut dire vous

play17:22

prenez par exemple en ce moment on a un

play17:25

contexte bon jour où j'enregistre cette

play17:28

vidéo en tout cas on entend encore

play17:30

parler

play17:31

de la crise sanitaire du coronavirus bon

play17:33

bah si vous tapez virus aujourd'hui

play17:35

peut-être qu'en actualité vous allez

play17:36

avoir coronavirus si vous tapez coheed

play17:40

ça va pas être juste une page wikipédia

play17:42

qui va expliquer ce que c'est le comice

play17:43

vous avez aussi toutes les indications

play17:46

concernant les chiffres concernant le

play17:47

coc vide donc tout ça c'est de l'analyse

play17:50

de contexte et s'est proposé aux

play17:51

internautes une expérience des données

play17:53

pertinentes des données utiles qui vont

play17:56

vous permettre d'avoir des réponses

play17:57

voilà donc globalement vous avez

play18:02

l'exploration et l'indexation avec un

play18:05

crawler un scraper un indexeurs qui

play18:08

globalement vous récupérer une bonne

play18:10

partie du web exclure tout ce qui leur

play18:13

intérêt ce pas pour mettre dans l'index

play18:15

et quand vous faites une recherche

play18:17

google va l'analyser va essayer de

play18:19

déduire le contexte va essayer d'aller

play18:21

chercher document dans son index pour

play18:23

vous les restituer je m'arrête sur

play18:25

quelques singles rythme important

play18:27

tout d'abord les algorithmes de

play18:29

pertinence les algorithmes de pertinence

play18:31

c'est un ensemble de critères en fait

play18:33

qui sont analysés sur les pages qui

play18:36

permettent de voir si une page un site

play18:38

un contenu et pertinents pour une

play18:41

requête recette de gâteau au chocolat si

play18:43

je ne parle pas de chocolat et je parle

play18:44

que de citron ce n'est pas pertinent

play18:47

il ya peut-être un gâteau il ya

play18:48

peut-être une recette mais il n'y a pas

play18:50

de chocolat

play18:50

donc ce n'est pas pertinent ou ce sera

play18:53

peu pertinents il ya tout un tas

play18:57

critères on a des centaines d'un

play18:59

centaines et des centaines qui vont

play19:01

analyser globalement votre titre de page

play19:05

comment est structuré contenu laisse

play19:07

pense le maire général voilà qu'est ce

play19:11

que vous allez donner comme contenu

play19:13

qu'est-ce qui est ce que c'est pertinent

play19:14

voilà ça ce sont les aveugles de

play19:16

pertinence vous avez aussi les

play19:17

algorithmes comportementaux donc là

play19:19

c'est plus lié à lui x c'est à dire

play19:21

est-ce que voilà

play19:24

on arrive à travailler avec votre site

play19:26

taper une requête on arrive sur votre

play19:27

site votre pas l'autre résultat est ce

play19:30

que je lis un pigment est ce que je

play19:33

reste souvent sur cette page là est-ce

play19:35

que j'ai accéder à l'information

play19:37

simplement bref c'est tout ce qui est

play19:39

algorithmes comportementale et ensuite

play19:41

vous avez les algorithmes de calcul de

play19:43

popularité qui sont les algorithmes qui

play19:46

vont globalement essayer de voir si le

play19:48

site où la page et populaires pour tel

play19:51

ou tel pour monter tout sur tel ou tel

play19:54

page de résultat pour nous rien donné ça

play19:57

c'est lié à se situe le site où la page

play20:01

sur le web c'est à dire globalement si

play20:05

on part sur la formule de base du

play20:07

pagerank c'est l'algorithme qui a créé

play20:10

notamment les deux fondateurs de google

play20:11

et qui ont fait d'ailleurs la renommée

play20:13

en partie de google plus on est cité

play20:16

plus on est populaire c'est un peu comme

play20:18

dans les livres si vous voyez souvent le

play20:19

même nom était cité basse et peut-être

play20:21

que cette personne est populaire bon bah

play20:22

c'est un peu pareil avec que google

play20:23

c'est à dire que lui il va regarder

play20:26

toutes les pages du web

play20:27

il va voir comment sont faits les

play20:29

citations aujourd'hui tout le monde site

play20:31

facebook tout le monde site amazon tout

play20:33

le monde parle de ces deux sites donc ce

play20:35

sont des gros sites qui monte très haut

play20:37

pourquoi wikipedia monte très haut parce

play20:40

que ben c'est une encyclopédie acquis

play20:42

énormément d'informations utiles et

play20:43

globalement wikipedia monte quand même

play20:45

souvent sur beaucoup de requêtes

play20:46

et bien c'est pareil quand vous parlez

play20:48

de cdiscount quand vous parlez de tel ou

play20:50

tel site e-commerce la fnac ou haute

play20:51

pourquoi ils sont toujours en haut parce

play20:53

que ce sont les sites qui sont

play20:53

populaires que ce sont ceux sont des

play20:55

sites qui sont beaucoup cité sur le web

play20:57

donc vous avez des algorithmes notamment

play21:00

la douane de pagerank

play21:01

il ya d'autres sous algorithmes et

play21:03

d'autres alternatives et d'autres trucs

play21:05

qui rentrent en ligne de compte bien

play21:06

entendu mais globalement les algorithmes

play21:09

de calcul de popularité permettent de

play21:10

savoir si un site est populaire vous

play21:12

avez des algorithmes de pertinence

play21:14

vous avez des aveugles comportementaux

play21:18

vous avez des algorithmes de calcul de

play21:20

popularité donc ça c'est la plupart des

play21:24

abris pour saisir qu'est-ce qu'on donne

play21:26

et où est-ce que s'est positionné

play21:29

dans le temps et également vous avez un

play21:32

autre truc qui est super intéressant qui

play21:33

est vraiment les algorithmes un anti

play21:36

spam ou globalement au fur et à mesure

play21:40

que google explore le web et indexe le

play21:43

web

play21:43

eh bien il ya des choix qui sont faits

play21:45

est-ce que ce site est ce pas est-ce que

play21:47

ce site et passe pas ça c'est peut-être

play21:49

lors de l'exploration déjà il va écarter

play21:51

énormément de spam et on va avoir

play21:54

toujours une toute petite partie de sidi

play21:56

sont un petit peu spam ils sont pas top

play21:58

top et que google va essayer de filtrer

play22:02

au phare à mesure du temps et nous avons

play22:03

notamment des filtres antispam

play22:05

aujourd'hui des filtres qui sont mis sur

play22:08

la sur le contenu sur sur les liens sur

play22:11

des techniques de manipulation des

play22:12

choses que font certaines personnes pour

play22:15

pouvoir tricher est monté ou parfois

play22:18

juste parce qu'ils ne savent pas faire

play22:19

et donc google

play22:21

s'il détecte du contenu de mauvaise

play22:22

qualité ben le filtre antispam peut

play22:25

sanctionner ce résultat ce site si

play22:27

google détecte qu'il a eu des techniques

play22:29

de manipulation pour avoir trop de

play22:31

citations etc

play22:32

bon bah pareil vous avez le filtre

play22:34

antispam qui peut sanctionner ce site

play22:37

voilà donc le filtre qui était très

play22:40

connu auparavant c'était google panda

play22:42

l'appui sans un bouton et globalement ça

play22:44

sanctionner une partie du web qui avait

play22:46

un mauvais contenu ou encore une

play22:47

mauvaise qualité et on avait aussi

play22:49

google pingouins de l'autre côté qui

play22:51

sanctionnait tout ce qui était net

play22:53

linking les liens de mauvaise qualité

play22:54

les citations spam qui sont

play22:59

manipulateur tout simplement du du

play23:02

classement et aujourd'hui ce sont des

play23:05

processus continuel qui fonctionne voilà

play23:08

toute l'année et qui qui essayent de

play23:11

pénaliser de sanctionner les contenus de

play23:14

mauvaise qualité et les liens de

play23:15

mauvaise qualité

play23:16

donc voilà pour cette grosse explication

play23:20

sur comment fonctionne un moteur de

play23:21

recherche j'essaie de donner des détails

play23:22

j'ai essayé de vous expliquer le plus

play23:24

simplement possible

play23:25

c'est un métier à part entière il faut

play23:27

le dire moi même je ne suis pas

play23:29

concepteur de moteurs de recherche et il

play23:31

ya peut-être certains jargon voilà que

play23:33

je n'ai pas et mais voilà cette vidéo

play23:35

est là pour les personnes qui sont

play23:38

désireuses d'apprendre de trouver des

play23:41

informations sur les moteurs de

play23:43

recherche

play23:43

et j'espère que ça a été clair et que

play23:46

vous avez un petit peu mieux compris

play23:47

comment ça fonctionne et donc n'oubliez

play23:48

pas en conclusion que ce n'est pas je

play23:51

tape une requête et google va chercher

play23:53

là tout de suite à un instant t sur le

play23:54

vif des documents pour notre quête ça

play23:57

serait trop gourmand en ressources ne

play23:58

serait pas possible ce sera extrêmement

play23:59

lent nom dans google fait de

play24:02

l'exploration essaye de détecter

play24:05

qu'est-ce qui est spam récupère que ce

play24:07

qui est vraiment utile va ensuite mail

play24:10

indexer tout ça dans un index donc toute

play24:13

cette partie là c'est crowley scrap est

play24:16

indexé dans un index et ensuite on à la

play24:19

roquette qui est tapé on analyse la

play24:20

roquette on analyse les documents dans

play24:22

l'index qui pourrait correspondre à la

play24:24

demande de la personne utilisatrice du

play24:27

moteur de recherche

play24:28

et on va lui restituer vienne interface

play24:30

utilisateur est bien ensemble de

play24:32

résultats utiles et selon un classement

play24:34

qui est définie parce que les pages ont

play24:37

été analysés avec des algorithmes de

play24:39

pertinence avec des algorithmes de

play24:41

calcul de popularité et des algorithmes

play24:43

de comportement voilà tout simplement

play24:46

voilà sur ce et bien je vous souhaite

play24:50

une très bonne continuation je vous dis

play24:52

à très bientôt pour une nouvelle vidéo

play24:53

n'hésitez pas à liker vous abonner

play24:54

déclencher la cloche des notifications

play24:57

et je vous dis à bientôt

play24:59

bye

Rate This

5.0 / 5 (0 votes)

Related Tags
Moteur de rechercheFonctionnementDébutantsGoogleIndexationAlgorithmesPertinencePopularitéAnti-spamSEO
Do you need a summary in English?