Remplacer fichier robots.txt " Disallow " par balise meta " Noindex "
2 participants
Forum gratuit : Le forum des forums actifs :: Divers :: Suggestions / Améliorations :: Vos suggestions pour vos forums (sondages) :: Suggestions refusées
Page 1 sur 1 • Partagez
Êtes-vous pour ou contre ?
Remplacer fichier robots.txt " Disallow " par balise meta " Noindex "
Bonsoir
Dans un fichier robots.txt, " Disallow " n' empêche pas l' indexation d' une page.
Si dans ce fichier il y a : " Disallow : page A ", cette page ne sera pas lue et pas indexée dans un premier temps.
Si une autre page comportant un lien vers la page A est lue, la page A sera indexée.
Depuis quelques temps, sur ce forum, des administrateurs s' étonnent ,voire paniquent, en voyant des alertes de Google Search Console : " Page indexée malgré le blocage par le fichier robots.txt " .
Comme je l' ai expliqué plus haut, ce n' est pas étonnant.
La seule méthode efficace ( à ce jour ), pour ne pas indexer une page, est la présence d' une balise meta-robots " Noindex " sur la page.
La question est : " êtes vous pour remplacer Disallow dans le fichier robots.txt ( inefficace) par une balise meta-robots Noindex efficace ? .
Merci de votre attention
Dans un fichier robots.txt, " Disallow " n' empêche pas l' indexation d' une page.
Si dans ce fichier il y a : " Disallow : page A ", cette page ne sera pas lue et pas indexée dans un premier temps.
Si une autre page comportant un lien vers la page A est lue, la page A sera indexée.
Depuis quelques temps, sur ce forum, des administrateurs s' étonnent ,voire paniquent, en voyant des alertes de Google Search Console : " Page indexée malgré le blocage par le fichier robots.txt " .
Comme je l' ai expliqué plus haut, ce n' est pas étonnant.
La seule méthode efficace ( à ce jour ), pour ne pas indexer une page, est la présence d' une balise meta-robots " Noindex " sur la page.
La question est : " êtes vous pour remplacer Disallow dans le fichier robots.txt ( inefficace) par une balise meta-robots Noindex efficace ? .
Merci de votre attention
Re: Remplacer fichier robots.txt " Disallow " par balise meta " Noindex "
Bonjour,
J'interviens simplement pour donner davantage d'informations. Effectivement dans le robots.txt, il s'agit de directives de crawl et non d'indexation. Toutefois, vous ne prenez pas en compte le facteur "crawl" d'un forum dans votre analyse.
En gros, un forum est très complexe en comparaison à un simple blog ou à un site vitrine. Cela vient principalement du fait que les utilisateurs ont accès à énormément de fonctionnalités et d’interactions (participation, modération, statistiques, messages privés, ajout en tant qu'ami, ...). Et chaque action pour un utilisateur défini a souvent une URL unique qui lui est dédiée.
De fait, un crawler va rapidement se perdre dans ces milliers d'URLs inutiles. D'autant plus que dans votre logique, il va obtenir énormément de NOINDEX et va comprendre que 90% du forum n'est pas à indexer. Le signal envoyé n'est clairement pas terrible dans ce cas en terme de qualité perçue et d'optimisation ...
Nous tentons au maximum de ne pas afficher d'URLs réservées aux membres pour les invités (et donc les crawlers). Malheureusement, tout n'est pas gérable de cette façon. Le robots.txt est donc utilisé afin de ne pas laisser les crawlers perdre du temps sur des URLs inutiles. C'est autant de temps gagner pour crawler les pages principales : la page d'accueil, les forums, les derniers sujets, les sujets, ...
Vous parlez du robots.txt mais vous ne mentionnez aucunement les URLs qui sont bloquées via ce fichier. Sont-elles intéressantes au point de laisser les robots les crawler, et en conséquence de minimiser le crawl des pages intéressantes ? Le crawl de ces pages inutiles par Google et autres bots va avoir un effet sur la charge serveur également, diminuant d'autant la charge allouée aux ressources utiles.
Voici la liste pour info :
Pour information : la page LOGIN est bloquée en raison des forums privés dont tous les sujets redirigent sur cette dernière
Certains administrateurs paniquent car depuis quelques temps, des alertes sont envoyées par e-mail alors que le fichier robots.txt n'a que très peu évolué depuis plus de 10 ans ... Et les mêmes administrateurs ne prennent même pas le temps de regarder quelles sont les pages concernées par les alertes afin de voir si l'alerte porte sur des pages importantes ou non. Sans parler des faux-positifs car il n'est pas rare qu'une simple demande de réexamen permette de corriger l'alerte
J'interviens simplement pour donner davantage d'informations. Effectivement dans le robots.txt, il s'agit de directives de crawl et non d'indexation. Toutefois, vous ne prenez pas en compte le facteur "crawl" d'un forum dans votre analyse.
En gros, un forum est très complexe en comparaison à un simple blog ou à un site vitrine. Cela vient principalement du fait que les utilisateurs ont accès à énormément de fonctionnalités et d’interactions (participation, modération, statistiques, messages privés, ajout en tant qu'ami, ...). Et chaque action pour un utilisateur défini a souvent une URL unique qui lui est dédiée.
De fait, un crawler va rapidement se perdre dans ces milliers d'URLs inutiles. D'autant plus que dans votre logique, il va obtenir énormément de NOINDEX et va comprendre que 90% du forum n'est pas à indexer. Le signal envoyé n'est clairement pas terrible dans ce cas en terme de qualité perçue et d'optimisation ...
Nous tentons au maximum de ne pas afficher d'URLs réservées aux membres pour les invités (et donc les crawlers). Malheureusement, tout n'est pas gérable de cette façon. Le robots.txt est donc utilisé afin de ne pas laisser les crawlers perdre du temps sur des URLs inutiles. C'est autant de temps gagner pour crawler les pages principales : la page d'accueil, les forums, les derniers sujets, les sujets, ...
Vous parlez du robots.txt mais vous ne mentionnez aucunement les URLs qui sont bloquées via ce fichier. Sont-elles intéressantes au point de laisser les robots les crawler, et en conséquence de minimiser le crawl des pages intéressantes ? Le crawl de ces pages inutiles par Google et autres bots va avoir un effet sur la charge serveur également, diminuant d'autant la charge allouée aux ressources utiles.
Voici la liste pour info :
User-agent: *
Disallow: /abuse
Disallow: /admgt/
Disallow: /donate
Disallow: /go/
Disallow: /modcp
Disallow: /post
Disallow: /privmsg
Disallow: /spa/
Disallow: /sta/
Disallow: /bw
Disallow: /topicit/index.php/connect
Disallow: /calendar_scheduler.forum
Noindex: /login
Pour information : la page LOGIN est bloquée en raison des forums privés dont tous les sujets redirigent sur cette dernière
Certains administrateurs paniquent car depuis quelques temps, des alertes sont envoyées par e-mail alors que le fichier robots.txt n'a que très peu évolué depuis plus de 10 ans ... Et les mêmes administrateurs ne prennent même pas le temps de regarder quelles sont les pages concernées par les alertes afin de voir si l'alerte porte sur des pages importantes ou non. Sans parler des faux-positifs car il n'est pas rare qu'une simple demande de réexamen permette de corriger l'alerte
Pinguino- Adminactif
-
Messages : 14042
Inscrit(e) le : 02/05/2004
Re: Remplacer fichier robots.txt " Disallow " par balise meta " Noindex "
Bonjour à toutes et à tous, et meilleurs vœux pour l' année 2020
Merci Pinguino pour votre intervention.
Effectivement, le crawl des pages sans intérêt est inutile, et indexer ces mêmes pages est tout aussi inutile ( d' autant plus que certaines mènent à une erreur 404 ).
Il y a alors un choix à faire : " J' interdis le crawl, ou j' interdis l' indexation ? ".
Quel pourrait être la meilleure solution ? ... ??? ...
PS : Depuis le 1er septembre 2019, Noindex n' est plus pris en compte lorsqu' il se trouve dans le fichier robots.txt .
Dans notre cas, " Noindex: / login " ne sert à rien. Cette page n' est pas indexée car il y a une balise meta-robots Noindex
Merci Pinguino pour votre intervention.
Effectivement, le crawl des pages sans intérêt est inutile, et indexer ces mêmes pages est tout aussi inutile ( d' autant plus que certaines mènent à une erreur 404 ).
Il y a alors un choix à faire : " J' interdis le crawl, ou j' interdis l' indexation ? ".
Quel pourrait être la meilleure solution ? ... ??? ...
PS : Depuis le 1er septembre 2019, Noindex n' est plus pris en compte lorsqu' il se trouve dans le fichier robots.txt .
Dans notre cas, " Noindex: / login " ne sert à rien. Cette page n' est pas indexée car il y a une balise meta-robots Noindex
Sujets similaires
» Ou placer la balise HTML de <Meta balise de google ? sur mon fourm ? >
» Balise meta
» balise meta
» Balise meta
» balise méta
» Balise meta
» balise meta
» Balise meta
» balise méta
Forum gratuit : Le forum des forums actifs :: Divers :: Suggestions / Améliorations :: Vos suggestions pour vos forums (sondages) :: Suggestions refusées
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum