Moteur de rechercheNous allons voir ici le fonctionnement des moteurs de recherche. Cela couvrira les processus de crawling et d’indexation ainsi que des concepts tels que le budget de crawl et le PageRank.

Le fonctionnement des moteurs de recherche consiste à explorer des centaines de milliards de pages à l’aide de leurs propres robots d’exploration. Ces derniers sont communément appelés “robots” ou “spiders” de moteurs de recherche. Les moteurs de recherche naviguent sur le web en téléchargeant des pages web puis en suivant les liens de ces pages pour découvrir les nouvelles pages qui ont été mises à disposition.

L’index des moteurs de recherche

Les sites web qui ont été découverts par le moteur de recherche sont ajoutés dans une structure de données appelée index.

Le but de l’algorithme du moteur de recherche est de présenter un ensemble pertinent de résultats de recherche de haute qualité qui répondra à la requête/question de l’utilisateur le plus rapidement possible.
Celui-ci sélectionne ensuite une option dans la liste des résultats de recherche et cette action, ainsi que les activités ultérieures, contribuent à l’apprentissage futur qui peut affecter le classement du moteur de recherche.

Que se passe-t-il lorsqu’une recherche est effectuée ?

Quand un utilisateur saisit une requête dans un moteur de recherche, l’ensemble des pages jugées pertinentes sont identifiées à partir de l’index et un algorithme est utilisé pour classer hiérarchiquement les pages pertinentes dans un ensemble de résultats.
Ces algorithmes diffèrent d’un moteur de recherche à l’autre. Ainsi, une page qui est bien classée pour une requête de recherche dans Google peut ne pas être bien classée pour la même requête dans Bing.

Comment fonctionne le crawling sur le web ?

Tous les robots des moteurs de recherche commerciaux commencent à explorer un site web en téléchargeant ses robots. Ils utilisent un certain nombre d’algorithmes et de règles pour déterminer à quelle fréquence une page doit être explorée à nouveau et le nombre de pages d’un site qui doivent être indexées.

Images et autres fichiers non textuels

Même si un moteur de recherche ne peut extraire qu’une quantité limitée d’informations sur les types de fichiers non textuels, ces derniers peuvent toujours être indexés, être classés dans les résultats de recherche et recevoir du trafic. Vous trouverez une liste complète des types de fichiers qui peuvent être indexés par Google ici.

Exploration et extraction des liens des pages

Ce processus de suivi des liens permet aux moteurs de recherche de découvrir toutes les pages web accessibles au public sur internet qui sont liées à au moins une autre page.

Soumission de pages

Les pages individuelles peuvent également être soumises directement aux moteurs de recherche via leurs interfaces respectives. La méthode manuelle de découverte des pages peut être utilisée lorsque de nouveaux contenus sont publiés sur le site, ou lorsque des changements ont eu lieu et que l’on souhaite réduire au minimum le temps nécessaire aux moteurs de recherche pour voir le contenu modifié.

Indexation par les moteurs de recherche

Vous vous souvenez de l’époque d’avant Internet, où il fallait consulter une encyclopédie pour connaître le monde et fouiller dans les pages jaunes pour trouver un plombier ? Même aux débuts du web, avant les moteurs de recherche, nous devions chercher dans les annuaires pour trouver des informations.

C’est le processus par lequel les moteurs de recherche organisent les informations avant une recherche pour permettre des réponses très rapides aux requêtes.

Le cache d’une page

Les moteurs de recherche peuvent non seulement indexer les pages, mais également stocker une version textuelle hautement compressée d’un document comprenant tous les HTML et les métadonnées.
Ce document mis en cache est le dernier instantané de la page que le moteur de recherche a vu.
La version en cache d’une page est accessible en cliquant sur la petite flèche verte située à côté de l’URL de chaque résultat de recherche et en choisissant l’option de mise en cache.

Le PageRank

Le “PageRank” désigne un algorithme de Google nommé d’après le co-fondateur de Google, Larry Page. C’est une valeur pour chaque page calculée en comptant le nombre de liens pointant vers une page afin de déterminer la valeur de la page par rapport à toutes les autres pages sur Internet. Cette valeur transmise par chaque lien individuel est basée sur le nombre et la valeur des liens qui pointent vers la page contenant le lien.
La valeur du PageRank n’est que l’un des nombreux signaux utilisés dans le cadre du grand algorithme de classement de Google.

Comment le PageRank circule dans les pages

Les pages passent le PageRank, autrement dit l’équité des liens, par d’autres pages via des liens. Quand une page renvoie à un contenu situé ailleurs, cela est perçu comme un vote de confiance, dans la mesure où le contenu lié est recommandé comme étant pertinent ou utile pour les utilisateurs.

L’importance des liens de retour

Les backlinks sont la pierre angulaire de la façon dont les moteurs de recherche comprennent l’importance d’une page. De nombreux tests et études ont été réalisés pour identifier la corrélation entre les liens retour et les classements.

Puisque vous savez maintenant ce qui existe dans le paysage des moteurs de recherche, voyons quelques-uns des domaines dans lesquels ils diffèrent.

Les médias sociaux comme signal de classement

Officiellement, Google n’utilise pas les médias sociaux comme facteur de classement. Selon Matt Cutts, cela est dû à la difficulté de comprendre les identités sociales, et au fait que Google veut éviter d’utiliser des données qui peuvent être incomplètes ou trompeuses.

Taux de crawl et limite du taux de crawl

La vitesse d’exploration est définie comme le nombre d’URL par seconde que les moteurs de recherche tentent d’explorer un site. Il est normalement proportionnel au nombre de connexions HTTP actives qu’ils choisissent d’ouvrir simultanément.

Problèmes liés aux sites plus importants

Il est particulièrement important de gérer le budget de crawl pour les grands sites comportant de nombreuses URL et dont le contenu est très renouvelé. Les sites plus volumineux peuvent rencontrer des problèmes pour obtenir de nouvelles pages qui n’ont jamais été explorées ou indexées pour apparaître dans les pages de résultats d’un moteur de recherche.

Problèmes avec les URL de faible valeur

Cela peut poser problème car cela pourrait signifier que le budget d’exploration est gaspillé pour des URL de faible valeur alors que les URL de valeur plus élevée sont explorées moins souvent que vous ne le souhaiteriez idéalement.

Il est également possible d’analyser les fichiers journaux des serveurs, lesquels enregistrent chaque fois qu’une page est demandée par un moteur de recherche et fournissent les données les plus précises sur les URL qui sont explorées et leur fréquence.

Vous en savez maintenant un peu plus sur le fonctionnement d’un moteur de recherche et comment il fonctionne pour classer votre site dans ses résultats. Si vous souhaitez optimiser votre site internet pour apparaitre en meilleur position dans les résultats des moteurs de recherche, nos consultants SEO sont à votre écoute et à votre service pour discuter de votre future stratégie de visibilité.