L’indexation des fichiers PDF dans Google

Comment indexer les fichiers PDF dans les résultats de recherche de Google ?

Google se donne pour mission de regrouper toutes les informations du web (et plus) et de les rendre universellement accessibles et utiles. Lors de sa recherche, Google est amené à rencontrer des fichiers différents des pages web classiques, tels que des documents PDF, des tableaux et des présentations PowerPoint. L’algorithme de Google n’est pas ralenti par ce type de fichiers, il va en extraire le contenu approprié et l’indexer convenablement dans les résultats de recherche.

indexation fichier PDF

Comment Google indexe-t-il vos fichiers PDF ?

Google a commencé à indexer les fichiers PDF en 2001, et actuellement des centaines de millions de fichiers PDF sont indexés.

Généralement Google indexe le contenu textuel des fichiers PDF (écrit dans n’importe quelle langue), qui utilise généralement diverses sortes de codages de caractères, pourvu qu’ils ne soient pas protégés ou cryptés. Si le texte est inséré comme une image, Google va traiter les images avec des algorithmes d’OCR (reconnaissance optique de caractères) pour en extraire le texte. En règle générale, si vous pouvez copier et coller le texte d’un document PDF dans un document de texte standard, Google devrait pouvoir indexer ce texte.

Par contre, les images ne sont pas indexées. Si vous souhaitez indexer les images de vos documents PDF, vous devrez créer et les insérer dans des pages web classiques (format HTML).

Comment sont traités les liens dans les documents PDF ?

Généralement les liens présents dans un fichier PDF sont traités de la même façon que les liens HTML : ils peuvent apporter du PageRank (popularité) et Google peut les suivre après avoir « crawlé » le fichier PDF.

Comment supprimer votre fichier PDF des résultats de recherche de Google ?

La façon la plus simple d’empêcher des documents PDF d’apparaître dans des résultats de recherche est d’ajouter un X-Robots-Tag : noindex dans l’en-tête HTTP utilisé pour le fichier.

Si vos PDF sont déjà indexés, ils disparaitront au fil du temps en utilisant le X-Robot-Tag avec la directive noindex.

Pour une désindexation plus rapide, vous pouvez utiliser l’outil de « demande de suppression d’URL » dans Google Webmaster Tools.

Les fichiers PDF peuvent-ils bien se positionner dans Google ?

Les fichiers PDF se classeront généralement de la même façon que les autres pages Web. Les documents PDF qui sont très bien classés dans les résultats de recherche de Google, le doivent essentiellement à leur contenu et à la manière dont ils sont liés à d’autres pages Web.

Adobe PDF

Est-ce que c’est considéré comme du « duplicate content » lorsque j’ai à la fois une copie de mes pages en PDF et en HTML ?

Nous recommandons si possible, de proposer une seule copie de votre contenu.

Si ceci n’est pas possible, assurez-vous que vous indiquez votre version principale, y compris l’URL principale dans votre Sitemap ou en spécifiant la version canonique dans le HTML ou dans les en-têtes HTTP du fichier PDF.

Comment influencer le titre de mon PDF affiché dans les résultats de recherche?

Les deux principaux éléments qui vont déterminer le titre affiché dans Google, sont les métadonnées de titre dans le fichier et l’ancre de liaisons indiquant le fichier PDF.

Inspiré de l’article de Gary Illyes, Webmaster Trends Analyst sur http://googlewebmastercentral.blogspot.com

Tags: ,

Un commentaire pour “L’indexation des fichiers PDF dans Google”

  1. kamagra dit :

    Comme à l’habitude, podcast super intéressant ! Merci beaucoup

Laissez nous un commentaire ou posez votre question

Current day month ye@r *