Critères de crawl et d’indexation d’une page par Google (partie 2)

Suite de notre article…

Le contenu dupliqué est également un facteur important pour le crawl et l’indexation des pages d’un site Internet. En effet, si au cours d’un crawl, le robot de Google détecte que plusieurs pages ont un contenu trop similaire, seule l’une de ces pages sera indexée et crawlée par la suite. Les autres pages sont purement écartées et ignorées.
Le « duplicate content » peut engendrer un double problème. Le crawl de pages similaires consomme de la bande passante. Si en plus, celle-ci est limitée (voir notre article précédent sur le sujet), des pages à forte valeur ajoutée risquent de ne pas être crawlées en raison de la limitation du « crédit crawl » du site.

Si le « duplicate content » ne peut pas être résolu directement en modifiant le contenu, Google recommande d’utiliser une redirection 301 de toutes les pages concernées vers une unique page qui regrouperait l’ensemble du contenu similaire. Ceci nous semble assez surprenant. Bien que la redirection 301 permette de pallier le contenu dupliqué tout en transmettant le jus de liens des pages redirigées, cela ne nous semble guère faisable pour les sites e-commerces proposant de nombreuses variantes d’un même produit. L’utilisation de l’attribut rel= »canonical » nous semble plus judicieuse dans ce cas.

Les identifiants de session sont également un élément pouvant limiter le crawl des pages de façon significative.  En plus d’être inesthétique pour l’utilisateur (il faut toujours penser également à vos visiteurs), l’usage des ID de sessions dans les URL complique la tâche des robots des moteurs de recherche : multiplication de pages totalement similaires (à chaque passage du robot, l’ID de session, donc l’URL, sera différent pour la même page) mais aussi consommation inutile de bande passante et du  « crédit craw » du site.
Google propose un outil très pratique pour gérer les paramètres d’URL et ainsi permettre de dire à GoogleBot de ne pas tenir compte de certains paramètres. L’utilisation de cet outil, dans Google Webmaster Tools > Configuration du site > Paramètres > Traitement des paramètres, permet donc très facilement d’ignorer les identifiants de session et d’améliorer ainsi de façon très significative le crawl des sites utilisant des ID de session.
Malgré tout, Google recommande quand même de ne pas utiliser les ID de session dans les URL, car le risque de contenu dupliqué reste fort.

Le cas particulier des affiliations peut également être un gros problème pour l’indexation en fonction des éléments mis à disposition. Bien souvent, les affilieurs mettent un contenu identique à la disposition de leurs affiliés, par différentes méthodes. Généralement ce sont les iframes qui sont employés. Bien qu’ils permettent une indexation d’un contenu externe comme étant celui de la page, l’utilisation d’iframes, comporte un très fort risque de contenu dupliqué. Le contenu dupliqué ayant les conséquences que nous avons développées au début de cet article.
Le co-branding n’offre pas une meilleure solution. En effet, dans ce cas très peu de choses changent (un logo, une accroche) et le contenu est d’autant plus identique. Cependant, Google aurait la capacité de reconnaître ce type d’affiliation et de regrouper les contenus dupliqués en un seul.

La suite, bientôt…

Laissez nous un commentaire ou posez votre question

Current day month ye@r *