Empêcher l'indexation d'une page dans tous les moteurs de recherche
L'autre jour j'ai enregistré un article pour tester mon blog en prod, ça marchais nickel mais il me fallait du contenu pour tester mon SEO vite fait, et pour éviter qu'on arrive sur un blog vide, je l'ai laissé le temps de finir quelques bricoles. Le problème c'est que cet article sur Kim Dotcom, je n'en ai plus besoin, mais trop tard il est passé dans le crawl du moteur de recherche et a été indexé...
Suppression pure et simple de la Bdd
Alors la première solution, c'est de virer l'article de ma base de donnée, comme ça il ne reviendra plus. A la place le visiteur qui clique sur cette URL arrivera sur une 404... Génial c'est vite réglé ! Mais non, pas génial... Et d'une le mec va pas forcément aimer se manger une 404 dans le front (oui il est déçu il voulait très vraiment beaucoup lire cet article), mais de deux et c'est bien ça le plus important, c'est le crawler googlebot qui va lui aussi se ramasser une 404. Bon lui il a l'habitude, il en mange quelques millions par jours mais quand même, il s'en rappelle et niveau SEO, ton classement s'en rappelle aussi, surtout si ton site sort de l'emballage (et se trouve après la 45ème page) !
Alors non en fait il faut la jouer plus fine que ça...
Suppression dans 'Outils pour les webmasters'
Il y a une option dans les Outils pour les webmasters qui consiste à supprimer manuellement les URL qu'on ne veut plus voir indexées dans le moteur de recherche (dans la rubrique Optimisation). C'est sympa et ça fonctionne assez bien. En 48h maxi l'indexation de la page non désirée se transforme en vieux souvenir. Cette méthode est de loin la meilleure, sauf qu'elle ne concerne que Google et ne peut être utilisée que si on veut l'appliquer sur un petit nombre de pages. Et oui tout ce qui est manuel devient pénible des qu'un grand nombre d'opérations est nécessaire c'est pour ça qu'on automatise tout dès qu'on peut le faire. (Et oui c'est pour ca !)
Esquive latérale avec le fichier robot.txt
Le fichier robot.txt lui, sera peut être plus utile tien. Au moins il concerne tous les moteurs et semble simple à implémenter. Et bien non ! Et d'une on se retrouve avec le même problème de pénibilité dès qu'on a trop de contenu à vouloir faire disparaitre mais de deux si le crawl est interdit au moteur, l'indexation, elle ne l'est pas! Google est un peu plus idiot qu'on voudrait le laisser penser, car si on l’empêche de crawler cette page, il ne la crawlera pas, par contre rien n’empêche de l’indexer si il trouve un lien qui pointe vers elle. Donc on se retrouverait avec une page indexée mais non crawlée ce qui veut dire qu'on retrouverait un petit message comme ça sous les résultats retrouvés dans le moteur de recherche :
La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site. En savoir plus
Ce message veut dire que la page a bien été indexée mais qu'elle n'a pas été crawlée, normal vu qu'on lui demande de ne pas le faire avec le fichier robot.txt ; autrement dit c'est un peu le bordel.
Meta robots
Et oui, on peut trouver plus simple que tout ça. On peut rajouter une balise META dans le HEAD de la page ! La balise meta name='robots' est spécifiquement faite pour passer un petit message individuel au robot, qui ne concernera que la page en question. On peut donc tout simplement lui demander de passer le message suivant :
Ne m'indexe pas gentil robot mais par contre crawl moi comme un fou
Bon c'est un peu romancé pour les besoins de l'article mais en gros c'est tout à fait ça quand même. Voila comment ça se traduit plus académiquement :)
meta name="robots" content="noindex,follow"
Donc notre page sera parcourue et les URL qu'elle contient seront suivies, et tout ça sans indexer la page elle même, ni dans Google, ni dans aucun autre moteur digne de ce nom pour peu qu'il sache lire une balise meta robots ! Alors on peut me dire que rajouter cette meta est assez compliquée sur des templates d'articles etc etc... Mais en cherchant 3 minutes c'est très simple à automatiser tout ça ! Aussi simple qu'éditer le titre ou le contenu de sa news... En rajoutant un champ booléen "index" sur la ligne article dans la bdd, qui affichera ou non cette balise dans le head au moment de la restitution de la vue, c'est une solution, il en existe d'autre, mais la n'est pas la question...
Bon du coup l'article sur Kim Dotcom, je le laisse, sinon on saura pas de quel article bouzeu je parle :)
Retour a la liste