Analyser l’indexation sur Google

  • 17 février 2012
  • admin

À l’heure où Google indexe tout et n’importe quoi  (JavaScript, activation de formulaires ….), il peut te paraître ridicule de parler d’indexation.  Il est cependant parfois nécessaire de reprendre les bases, par exemple en lisant le livre « réussir son référencement web » ou en prenant un peu de recul par rapport à la discipline du référencement naturel qui est à la fois tellement simple et en même temps si complexe…

«Back to basics» donc, avec des éléments qui me paraissent peu connus sur l’analyse de l’indexation de ses contenus dans Google, et surtout des enseignements que l’on peut tirer de ces analyses.

 

Comment mesurer l’indexation sur Google : la commande «site:» et ses limites

Traditionnellement, la mesure de l’indexation de ses contenus sur Google est faite grâce à la commande «site:monsite.com» dans Google. Cette requête renvoie l’ensemble des pages indexées de ton domaine par le moteur de recherche mais aussi, et surtout le nombre de pages que le moteur associe à ton nom de domaine. Ici pour l’exemple du site web 1ere-position.fr (une célèbre agence de référencement parait-il…) Google retourne 1 120 résultats donc 1 120 pages indexées.

Oui mais voilà… La représentativité de cet indicateur est relative puisqu’un crawl du site avec un outil tiers te donnera environ 500 page HTLM de contenu indexable.

indexation-google-commande-site

Ce manque de pertinence du chiffre données par Google par rapport à la réalité pourrait être expliqué par plusieurs facteurs (en fait ce sont plus des hypothèses personnelles donc si tu as plus d’informations sur le sujet, je t’invite à les partager en commentaires).

La duplication de contenu interne : le résultat retourné par Google retournerait l’ensemble des url et des différentes formes d’url trouvées  pour un même contenu ou un contenu proche (filtres de navigation, pagination, url de tracking…)  autant de facteurs expliquant que Google trouve un grands nombre d’url indexables sur ton site mais qui ne reflète pas la disponibilité et le volume de contenus qualitatif sur ton site.

L’historique du site : il semblerait également que la vie du site ait une incidence importante sur cette indication. Par exemple un site web e-commerce mettant à jour fréquemment des produits sur une période donnée (saisons : été, hiver)  puis retirés de la vente aurait un nombre d’url indexées avec cette commande considérablement au dessus de la réalité. (Google fournirait donc un nombre d’url historiquement indexées sur un domaine qu’il conserverait en cache).

Sur l’exemple de 1ere-position.fr, le nombre d’url trouvées par Google correspond à 45 % de la réalité, sur le cas d’un site e-commerce avec des  mouvements importants de disponibilité des produits variant en fonction des collections, cet indicateur tombe à 5 %.

Bref cette commande te donne tout et n’importe quoi…  Les résultats retournés sont également très variables dans le temps fonction des  bons vouloirs du moteur sans informations sur la manière dont est calculé ce chiffre.

 

Contourner les limites de la commande «site:» dans Google, la commande «site:*»

Assez peu connu, la commande «site:*» permet de retourner uniquement les résultats de recherche considérés comme pertinents par Google. Ainsi, pour 1ere-position.fr cette commande retourne 315 résultats au lieu de 1 120 avec la commande «site:».  Note que l’on s’est rapproché au passage du chiffre de 500 url indexables  puisque ce chiffre de 315 représente 63 % du nombre de pages indexables repérées avec un crawler externe.

indexation-google-commande-site-etoile

Nous avons donc là un indicateur potentiel permettant d’analyser la pertinence des contenus produit tout a fait intéressant que l’on pourrait nommé  «taux de pertinence», «taux de qualité», «taux d’indexation» qui pourrait constituer un KPI SEO dans bien des contextes… Cet indicateur de performance n’a d’ailleurs pas de nom standard à priori…

[ Au passage je signale à l’ensemble des trolls susceptibles de commenter la valeur de cet indicateur pour agence de référencement de passer ton chemin et de retourner à la chasse aux farfadets puisque ce n’est pas ici l’objet du débat et que cette valeur est explicable et parfaitement normale dans ce contexte.  Ton commentaire sera purement et simplement modéré et j’invoquerai  les esprits malins de la forêt pour qu’ils te pourchassent en guise de punition. ]

 

Les limites de la commande «site:*» pour l’analyse de l’indexation dans Google

La commande «site:*» est donc pratique pour mesurer le degré de pertinence des contenus  indexés  mais cela pose certains problèmes…

  • Le premier  est que la construction de l’indicateur  du taux de pertinence nécessite la mise à jour d’une variable : celle du volume de contenus soumis. Pour ça, il va vite être pénible d’effectuer un crawl périodique de site avec un outil tiers (type Screaming Frog Seo Spider, Xenu, XML Sitemap Tools ….) pour récupérer cette valeur.
  • Le second est que la commande «site:*» est très vite limitée lorsque l’on cherche à mesurer la pertinence sur des contenus précis : template de fiche produit, indexation sur une rubrique précise du site avec la commande site:* inurl:[paramètre] avec le paramètre permettant d’identifier une rubrique ou un type de contenu spécifique.

 

Aller plus loin dans l’analyse de l’indexation avec le Google Webmaster Tools et les Sitemap XML

Il existe donc une solution alternative pour contourner ce problème : recourir aux sitemap XML et à l’analyse de l’indexation dans le Google Webmaster Tools.

  • Le premier avantage du sitemap XML est qu’il peut être généré dynamiquement par le CMS et qu’il sera mis à jour automatiquement. L’avantage est également que la plupart des CMS permettant de générer des sitemap dynamiques ne vont proposer que que les url pertinentes (indépendamment des problème de duplication de contenu qui peuvent survenir avec des url dynamiques).
  • Le second avantage est qu’il est possible de thématiser ces sitemaps XML afin d’avoir une vue sur le taux de pertinence de chaque type de contenu de votre site (fiche produit, catégorie, par ex pour un site e-commerce).

Par exemple,  si je soumets via un sitemap thématique de 470 url, le Google Webmaster Tools m’indique «445 url dans l’index web». Ce chiffre correspond au nombre d’url jugées pertinentes par Google, soit un ratio de 95 % de pertinence.

analyse-sitemap-google-webmaster-tools

 

Et maintenant, comment j’analyse l’indexation de mon site web sur Google et la pertinence de mes contenus ?

Tu peux maintenant t’amuser a créer des sitemaps thématiques et te rendre compte que la vie n’est pas toujours aussi rose avec des ratios atteignant le zéro défaut. Il faudra encore et toujours travailler tes contenus et ton référencement naturel. 🙂

Plusieurs facteurs peuvent expliquer des ratios faibles, malheureusement le Google Webmaster Tools ne te donnera pas la réponse, ni même le détail des pages «non pertinentes». Il te faudra envisager les hypothèses suivantes pour organiser ta capacité à progresser.

Densité de contenu trop faible : Les pages offrant un faible volume de contenu textuel sont susceptibles de rentrer dans le filtre des pages jugées «non pertinentes».

Duplication interne :  Le volume de contenu ne fait pas tout. Il est possible que si des pages différentes avec un volume de contenu ont un taux de similarité important (contenu généré dynamiquement par exemple), les pages peuvent se retrouver dans ce filtre.

Popularité trop faible : À l’ inverse des pages offrant peu de contenu peuvent éviter ce filtre si elles sont populaires (valorisées dans le maillage de liens internes et externes).

Antériorité/paternité des contenus/duplication externe : la syndication des contenus est devenue monnaie courante sur le web et ce facteur mal maîtrisé peut vite devenir problématique pour ton référencement naturel. Par exemple les sites e-commerce diffusant largement leur contenus (description produit) sur les comparateurs de prix peuvent se voir décrédité de la «paternité» des contenus. Cela est rendu possible par le critère d’antériorité (premier indexé premier servi), la popularité des sites marchands qui est bien souvent plus faible que celle des comparateurs, ou encore l’utilisation  massive des mêmes descriptifs (issus des fournisseurs). Dans les  cas cités, le crédit (la pertinence) des contenus est affectée à tes concurrents.  Tu te rendras vite compte du problème à l’analyse de l’indexation de ton site web…

Sur ce,  bonne analyse ! 😉