Critères de crawl et d’indexation d’une page par Google (partie 1)

Qui ne se pose pas souvent la question : mais pourquoi Google n’indexe pas toutes les pages de mon site ?

A cette question, il peut avoir plusieurs réponses que nous allons essayer de traiter ici. Nous ne parlerons pas des classiques comme les meta robots ou le fichier “robots.txt”. Ces éléments ne sont déjà que trop traités sur le Web et généralement très bien connus et maîtrisés.

Beaucoup pensent que le nombre de pages crawlées par Google sur un site est fixé à l’avance et quand le nombre est atteint, le robot passe au site suivant. Ceci est bien évidemment faux. C’est peut-être vrai pour des robots peu évolués, mais les robots de principaux moteurs de recherche ont leurs propres critères décisionnels pour savoir ce qu’ils vont crawler et indexer.
L’un des principaux paramètres qui va déterminer le nombre de pages de votre site qui vont être crawlé par Google est le PageRank. Il n’est plus à démontrer qu’un backlink vers votre page d’accueil en provenance d’une page à fort Pagerank en permettra le crawl et l’indexation par Google en quelques minutes. Votre page d’accueil fait elle-même un lien vers plusieurs pages de premier niveau qui seront elles-mêmes crawlées. Plus les liens seront profonds, plus le Pagerank redistribué sera faible et moins ces pages auront tendance à être crawlées. Il faut également, en plus de PageRank de la page, parler de l’aspect concurrentiel d’une page. Plus une page aura des pages similaires dont le PageRank est supérieur, moins cette page sera crawlée fréquemment. De fait, une page sans PageRank ne sera donc jamais ou très rarement crawlée par Google.
On peut donc en conclure qu’il est très important d’avir des backlinks sur toutes les pages de son site. Revenons à notre sujet.

Un autre paramètre essentiel et qui peut paraître surprenant, c’est la bande passante disponible sur votre hébergement. La bande passante détermine le nombre de connexions simultanées possible à un serveur. Si votre site se trouve sur un serveur avec une IP qui héberge de très nombreux sites, le nombre de crawl possibles sur cette IP sera théoriquement déterminé par la bande passante disponible. Si seulement quelques pages d’un site peuvent être crawlées à un moment donné, les autres pages seront alors ignorées et il faudra attendre un autre passage du robot pour que ces pages soient elles aussi crawlées, si la bande passante le permet …

Nous avons mis en avant jusqu’ici deux critères : le PageRank de chaque page et la bande passante disponible sur le serveur d’hébergement. L’impact de l’hébergement n’est pas négligeable et même un site très populaire, avec de forts PageRank pour de nombreuses pages, pourrait être fortement pénalisé et termes de crawl et d’indexation, par un hébergement de mauvaise qualité ou sur lequel il y aurait trop de sites qui se partagent le même serveur.

Dans le prochain article consacré au sujet, nous parlerons de l’influence du contenu dupliqué sur le crawl de Googlebot. La suite, bientôt …

Patrick.

Laissez nous un commentaire ou posez votre question

Current day month ye@r *