Les crawlers pour les nuls - Le Muscle Référencement

La toute première étape, la première chose à laquelle on doit penser quand on veut commencer à référencer correctement un site dans les moteurs de recherches c’est de faire en sorte que ledit site soit accessible et indexable par les robots des moteurs de recherches. Un site qui n’est pas accessible et / ou indexable n’a aucune chance d’apparaitre dans les résultats puisqu’il ne sera pas dans la « base de données » des moteurs

Si les algos de rankings des moteurs sont des technos basées sur des algorithmes complexes, les robots, eux, sont fait à partir de technologies relativement simples et qui ont de nombreuses limitations. Si votre site n’est pas accessible et/ou indexable c’est possiblement qu’il présente un facteur bloquant qui empêche le robot de crawler le site.

Dans cet article nous allons couvrir quelques faits sur les crawlers afin que les débutants en référencement puissent prendre quelques indications de quoi faire pour améliorer l’accessibilité et l’indexabilité de leur(s) site(s).

Les robots parcourent les sites de lien en lien

Jusqu’ici tout le monde suit ? Le concept est simple. Les robots des outils de recherche parcourent le web en passant par les liens hypertexte. Donc si votre site n’est pas linké depuis ailleurs sur la toile (même si c’est depuis un média social) il ne sera pas crawlé et vous n’apparaitrait pas dans les SERPs. (en theorie)

IMPORTANT : il faut lier votre site afin d’assurer qu’il soit crawlé. N’hésitez donc pas en début de vie du site de faire du link building de base à partir de Forum, annuaires, commentaires de blogs. Possiblement acheter quelques liens. Je vous invite à lire ce vieil article (toujours valide) sur les filons de link building sous exploité.

3 problèmes récurrents qui sont dus au fait que les crawlers

Les pages orphelines

Ce sont des pages qui ne sont pas liés au reste du site – et par conséquent elles ne sont pas crawlées, ni indexées et n’ont aucune chance d’acquérir des positions

Le DUST

Votre site crée automatiquement des liens avec de multiples URLs vers la même page, cela peut être du a la possibilité d’accéder au même produit de différente manière (/homme/pull/produit ou /pull/homme/produit, ou /promotion/produit etc…) c’était très commun sur les e-commerces Magento à une époque.

Dans certains cas ou un site dynamique se sert d’un ID dans l’URL pour afficher le contenu, il est nécessaire de « brider » la réécriture d’URL afin de ne pas avoir une infinité d’URLs potentielles.

Par exemple :
Dans www.monsite.com/produits/$nom-du-produit$/12345 la partie importante de l’URL est « 12345 » et quelque fois les développeurs qui implémentent le site rendent la partie /produits/$nom-du-produit$ complètement virtuelle et l’URL www.monsite.com/12345 appellerait exactement la même page.

Dans l’absolu ce n’est pas trop un souci si personnes ne le remarque et si le site n’a pas d’erreur. Mais cela met le site a la merci de petits malins qui peuvent commencer à lier ces pages d’un peu partout tout en modifiant les URLs. Et vous vous retrouverez avec des milliers de fois la même page à DUST.

i.e.

toutes ces pages seront les memes puisque le contenu sera appele dynamquement par l’ID « 12345 »

La page canonicale qui redirige en 301 vers la page liée

Alors pour le coup, ce n’est pas trop un vrai gros problème dans la mesure où ce sera la page liée qui apparaitra, mais si vous avez le problème décrit dans le schéma ci-dessous de soucis essayez de le régler parce que le côté cyclique du truc a tendance à perturber le crawl et l’indexation quand même.

Les robots font ce qu’on leur dit (généralement)

Si vos pages ne s’indexent pas, il est possible que vous ayez laissé des instructions sur vos pages ou dans le fichier robots.txt qui empêche les robots d’accéder à votre site ou a certaines pages de votre site.

Je vous invite à aller voir l’excellent article du tout aussi excellent Aymeric Bouillat sur les fichiers robots.txt et l’ordre de priorité des règles et à vérifier la présence et le statut de balises <meta name= »robots » content= » « > dans vos pages.

Les robots sont aveugles

Du coup il ne faut pas mettre d’information importante sous la forme d’images. Je sais ca a l’air évident comme ça mais vous verrez que de temps en temps le branding prends le dessus et vous vous retrouverez a debatre de la presence de logos ou d’icones en guise de titres de pages parce que rajouter la même chose au format texte serait redondant ou pas assez stylé.

Les robots interprètent (encore) mal le Javascript

Alors c’est quelque chose qui va beaucoup, beaucoup, beaucoup mieux depuis relativement peu de temps. Il y a quelque chose comme 6 ans a peine, les robots ils étaient capable d’interpréter mes genoux en termes de Javascript. Aujourd’hui c’est beaucoup mieux mais faut pas pousser non plus et puis selon comment votre site est foutu, ou sont vos fichiers javascripts et quels accès les robots ont à vos fichiers, il se peut qu’ls ne puissent pas tout interpréter.

Attention là c’est vraiment important parce que si vous avez des parties vitales de votre site comme la navigation ou les contenus, complétement gérées par javascript et que les robots ne peuvent pas l’interpréter vous pouvez vous retrouver avec des sites incrawlables ou vides de tout contenu écrit.

Alors encore une fois c’est de plus en plus rare, et maintenant la plupart des technos javascript ont des features SEO en natif qui assurent que les moteurs on accès aux contenus mais il sera de bon ton de vérifier tout ça.

Les robots de remplissent pas les formulaires

Encore une fois ça a l’air évident mais tout ce qui se trouve derrière un login / password sauf accident ne doit pas être crawlable. Et je dirais que c’est mieux comme ça. Je n’ai pas franchement envie que mes coordonnées bancaires apparaissent comme ça en clair dans les SERPs.

Cela dit, si vous avez du contenu public important qui se trouve derrière un formulaire, il va falloir penser à le mettre ailleurs sur le site, histoire que les robots y aient accès.

Les robots n’acceptent pas les cookies

Encore une fois c’est quelque chose qui a l’air évident mais… Non, les robots des moteurs n’acceptent pas les cookies. Par conséquent si vous avez des fonctionnalités qui affichent certains contenu sur votre site liées a la présence de cookies (contenu Nouveau visiteur Vs. Contenu 2eme visite par exemple) et bien il va falloir penser à mettre tout cela au clair et faire bien attention que le contenu affiche sans cookies soit celui sur lequel vous voulez que la pertinence de votre site soit jugée. Sinon vous risquez d’avoir quelques surprises.

Les robots suivent les redirections serveur

(Et derrière elles sont interprétées différemment par l’algorithme des moteurs)
Donc au cas ou vous vous posiez la question, oui! Les robots suivent bel et bien les redirections 301, 302 etc. et envoient la « valeur » de cette redirection au moteur de recherche pour qu’il l’interprète.

Il faudra donc faire attention à quelle redirection car elles n’ont pas toute le même rôle ni le même effet sur les pages sources et destination dans les moteurs.

Ahref a publié un guide des redirections pour le SEO plutôt bien fait il y a un moment de cela sur la question.

Cependant dans l’absolu vous allez vous retrouver le plus souvent en face de 2 cas de figure :

Redirection 301 (permanente)

Les internautes sont envoyés de la page source vers la page de destination et la page de destination de la redirection va à terme remplacer la page source dans les moteurs de recherche.

Redirection 302 (temporaire)

Les internautes sont envoyés de la page de source vers la page de destination MAIS google va garder l’URL de la page source dans ses résultats.

Les robots (enfin Google) sont bases aux US

C’est un truc qu’il faut savoir, et c’est important parce que dans certains cas pour des sites internationaux, il se peut que vous ayez mis en place une détection de l’IP utilisateur pour le renvoyer sur une version linguistique qui corresponde.

Sauf que, L’ami Google lui il a une IP US. Donc vous allez l’envoyer direct sur la version US de votre site, ou sur la version anglaise. Et comme Google ne click pas sur les boutons, et n’accepte pas les cookies, même si vous liez votre version française, lui il verra que de l’anglais. Et du coup vos versions autres que la version US / anglaise se retrouveront dans les oubliettes de SERPs.

0 Partages

1 thought on “Les crawlers pour les nuls”

Luca sanitori 20 juillet 2025 at 13:37

Super article, clair et accessible même pour les non-initiés ! 🙌 J’ai particulièrement apprécié les explications sur les pages orphelines et le DUST, des notions souvent négligées mais qui peuvent vraiment impacter la visibilité d’un site. Merci pour les exemples concrets. À quand un guide “robots.txt pour les nuls” ? 😄

Reply ↓

Laisser un commentaire Annuler la réponse

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.