Remplacer fichier robots.txt " Disallow " par balise meta " Noindex "

par Albert (67) Lun 9 Déc 2019 - 20:40

Bonsoir

Dans un fichier robots.txt, " Disallow " n' empêche pas l' indexation d' une page.
Si dans ce fichier il y a : " Disallow : page A ", cette page ne sera pas lue et pas indexée dans un premier temps.
Si une autre page comportant un lien vers la page A est lue, la page A sera indexée.

Depuis quelques temps, sur ce forum, des administrateurs s' étonnent ,voire paniquent, en voyant des alertes de Google Search Console : " Page indexée malgré le blocage par le fichier robots.txt " .
Comme je l' ai expliqué plus haut, ce n' est pas étonnant.

La seule méthode efficace ( à ce jour ), pour ne pas indexer une page, est la présence d' une balise meta-robots " Noindex " sur la page.

La question est : " êtes vous pour remplacer Disallow dans le fichier robots.txt ( inefficace) par une balise meta-robots Noindex efficace ? .

Merci de votre attention Cool

par **Pinguino** Mar 10 Déc 2019 - 15:13

Bonjour,

J'interviens simplement pour donner davantage d'informations. Effectivement dans le robots.txt, il s'agit de directives de crawl et non d'indexation. Toutefois, vous ne prenez pas en compte le facteur "crawl" d'un forum dans votre analyse.

En gros, un forum est très complexe en comparaison à un simple blog ou à un site vitrine. Cela vient principalement du fait que les utilisateurs ont accès à énormément de fonctionnalités et d’interactions (participation, modération, statistiques, messages privés, ajout en tant qu'ami, ...). Et chaque action pour un utilisateur défini a souvent une URL unique qui lui est dédiée.

De fait, un crawler va rapidement se perdre dans ces milliers d'URLs inutiles. D'autant plus que dans votre logique, il va obtenir énormément de NOINDEX et va comprendre que 90% du forum n'est pas à indexer. Le signal envoyé n'est clairement pas terrible dans ce cas en terme de qualité perçue et d'optimisation ...

Nous tentons au maximum de ne pas afficher d'URLs réservées aux membres pour les invités (et donc les crawlers). Malheureusement, tout n'est pas gérable de cette façon. Le robots.txt est donc utilisé afin de ne pas laisser les crawlers perdre du temps sur des URLs inutiles. C'est autant de temps gagner pour crawler les pages principales : la page d'accueil, les forums, les derniers sujets, les sujets, ...

Vous parlez du robots.txt mais vous ne mentionnez aucunement les URLs qui sont bloquées via ce fichier. Sont-elles intéressantes au point de laisser les robots les crawler, et en conséquence de minimiser le crawl des pages intéressantes ? Le crawl de ces pages inutiles par Google et autres bots va avoir un effet sur la charge serveur également, diminuant d'autant la charge allouée aux ressources utiles.

Voici la liste pour info :

User-agent: *
Disallow: /abuse
Disallow: /admgt/
Disallow: /donate
Disallow: /go/
Disallow: /modcp
Disallow: /post
Disallow: /privmsg
Disallow: /spa/
Disallow: /sta/
Disallow: /bw
Disallow: /topicit/index.php/connect
Disallow: /calendar_scheduler.forum
Noindex: /login

Pour information : la page LOGIN est bloquée en raison des forums privés dont tous les sujets redirigent sur cette dernière Wink

Certains administrateurs paniquent car depuis quelques temps, des alertes sont envoyées par e-mail alors que le fichier robots.txt n'a que très peu évolué depuis plus de 10 ans ... Et les mêmes administrateurs ne prennent même pas le temps de regarder quelles sont les pages concernées par les alertes afin de voir si l'alerte porte sur des pages importantes ou non. Sans parler des faux-positifs car il n'est pas rare qu'une simple demande de réexamen permette de corriger l'alerte Wink

par Albert (67) Mar 7 Jan 2020 - 10:54

Bonjour à toutes et à tous, et meilleurs vœux pour l' année 2020 Cool

Merci Pinguino pour votre intervention.

Effectivement, le crawl des pages sans intérêt est inutile, et indexer ces mêmes pages est tout aussi inutile ( d' autant plus que certaines mènent à une erreur 404 ).
Il y a alors un choix à faire : " J' interdis le crawl, ou j' interdis l' indexation ? ".
Quel pourrait être la meilleure solution ? ... ??? ...

PS : Depuis le 1er septembre 2019, Noindex n' est plus pris en compte lorsqu' il se trouve dans le fichier robots.txt .
Dans notre cas, " Noindex: / login " ne sert à rien. Cette page n' est pas indexée car il y a une balise meta-robots Noindex Very Happy

Remplacer fichier robots.txt " Disallow " par balise meta " Noindex "

Êtes-vous pour ou contre ?

Remplacer fichier robots.txt " Disallow " par balise meta " Noindex "

Re: Remplacer fichier robots.txt " Disallow " par balise meta " Noindex "

Re: Remplacer fichier robots.txt " Disallow " par balise meta " Noindex "