Analyser l’indexation sur Google

À l’heure où Google indexe tout et n’importe quoi  (JavaScript, activation de formulaires ….), il peut te paraître ridicule de parler d’indexation.  Il est cependant parfois nécessaire de reprendre les bases, par exemple en lisant le livre « réussir son référencement web » ou en prenant un peu de recul par rapport à la discipline du référencement naturel qui est à la fois tellement simple et en même temps si complexe…

«Back to basics» donc, avec des éléments qui me paraissent peu connus sur l’analyse de l’indexation de ses contenus dans Google, et surtout des enseignements que l’on peut tirer de ces analyses.

 

Comment mesurer l’indexation sur Google : la commande «site:» et ses limites

Traditionnellement, la mesure de l’indexation de ses contenus sur Google est faite grâce à la commande «site:monsite.com» dans Google. Cette requête renvoie l’ensemble des pages indexées de ton domaine par le moteur de recherche mais aussi, et surtout le nombre de pages que le moteur associe à ton nom de domaine. Ici pour l’exemple du site web 1ere-position.fr (une célèbre agence de référencement parait-il…) Google retourne 1 120 résultats donc 1 120 pages indexées.

Oui mais voilà… La représentativité de cet indicateur est relative puisqu’un crawl du site avec un outil tiers te donnera environ 500 page HTLM de contenu indexable.

indexation-google-commande-site

Ce manque de pertinence du chiffre données par Google par rapport à la réalité pourrait être expliqué par plusieurs facteurs (en fait ce sont plus des hypothèses personnelles donc si tu as plus d’informations sur le sujet, je t’invite à les partager en commentaires).

La duplication de contenu interne : le résultat retourné par Google retournerait l’ensemble des url et des différentes formes d’url trouvées  pour un même contenu ou un contenu proche (filtres de navigation, pagination, url de tracking…)  autant de facteurs expliquant que Google trouve un grands nombre d’url indexables sur ton site mais qui ne reflète pas la disponibilité et le volume de contenus qualitatif sur ton site.

L’historique du site : il semblerait également que la vie du site ait une incidence importante sur cette indication. Par exemple un site web e-commerce mettant à jour fréquemment des produits sur une période donnée (saisons : été, hiver)  puis retirés de la vente aurait un nombre d’url indexées avec cette commande considérablement au dessus de la réalité. (Google fournirait donc un nombre d’url historiquement indexées sur un domaine qu’il conserverait en cache).

Sur l’exemple de 1ere-position.fr, le nombre d’url trouvées par Google correspond à 45 % de la réalité, sur le cas d’un site e-commerce avec des  mouvements importants de disponibilité des produits variant en fonction des collections, cet indicateur tombe à 5 %.

Bref cette commande te donne tout et n’importe quoi…  Les résultats retournés sont également très variables dans le temps fonction des  bons vouloirs du moteur sans informations sur la manière dont est calculé ce chiffre.

 

Contourner les limites de la commande «site:» dans Google, la commande «site:*»

Assez peu connu, la commande «site:*» permet de retourner uniquement les résultats de recherche considérés comme pertinents par Google. Ainsi, pour 1ere-position.fr cette commande retourne 315 résultats au lieu de 1 120 avec la commande «site:».  Note que l’on s’est rapproché au passage du chiffre de 500 url indexables  puisque ce chiffre de 315 représente 63 % du nombre de pages indexables repérées avec un crawler externe.

indexation-google-commande-site-etoile

Nous avons donc là un indicateur potentiel permettant d’analyser la pertinence des contenus produit tout a fait intéressant que l’on pourrait nommé  «taux de pertinence», «taux de qualité», «taux d’indexation» qui pourrait constituer un KPI SEO dans bien des contextes… Cet indicateur de performance n’a d’ailleurs pas de nom standard à priori…

[ Au passage je signale à l’ensemble des trolls susceptibles de commenter la valeur de cet indicateur pour agence de référencement de passer ton chemin et de retourner à la chasse aux farfadets puisque ce n’est pas ici l’objet du débat et que cette valeur est explicable et parfaitement normale dans ce contexte.  Ton commentaire sera purement et simplement modéré et j’invoquerai  les esprits malins de la forêt pour qu’ils te pourchassent en guise de punition. ]

 

Les limites de la commande «site:*» pour l’analyse de l’indexation dans Google

La commande «site:*» est donc pratique pour mesurer le degré de pertinence des contenus  indexés  mais cela pose certains problèmes…

  • Le premier  est que la construction de l’indicateur  du taux de pertinence nécessite la mise à jour d’une variable : celle du volume de contenus soumis. Pour ça, il va vite être pénible d’effectuer un crawl périodique de site avec un outil tiers (type Screaming Frog Seo Spider, Xenu, XML Sitemap Tools ….) pour récupérer cette valeur.
  • Le second est que la commande «site:*» est très vite limitée lorsque l’on cherche à mesurer la pertinence sur des contenus précis : template de fiche produit, indexation sur une rubrique précise du site avec la commande site:* inurl:[paramètre] avec le paramètre permettant d’identifier une rubrique ou un type de contenu spécifique.

 

Aller plus loin dans l’analyse de l’indexation avec le Google Webmaster Tools et les Sitemap XML

Il existe donc une solution alternative pour contourner ce problème : recourir aux sitemap XML et à l’analyse de l’indexation dans le Google Webmaster Tools.

  • Le premier avantage du sitemap XML est qu’il peut être généré dynamiquement par le CMS et qu’il sera mis à jour automatiquement. L’avantage est également que la plupart des CMS permettant de générer des sitemap dynamiques ne vont proposer que que les url pertinentes (indépendamment des problème de duplication de contenu qui peuvent survenir avec des url dynamiques).
  • Le second avantage est qu’il est possible de thématiser ces sitemaps XML afin d’avoir une vue sur le taux de pertinence de chaque type de contenu de votre site (fiche produit, catégorie, par ex pour un site e-commerce).

Par exemple,  si je soumets via un sitemap thématique de 470 url, le Google Webmaster Tools m’indique «445 url dans l’index web». Ce chiffre correspond au nombre d’url jugées pertinentes par Google, soit un ratio de 95 % de pertinence.

analyse-sitemap-google-webmaster-tools

 

Et maintenant, comment j’analyse l’indexation de mon site web sur Google et la pertinence de mes contenus ?

Tu peux maintenant t’amuser a créer des sitemaps thématiques et te rendre compte que la vie n’est pas toujours aussi rose avec des ratios atteignant le zéro défaut. Il faudra encore et toujours travailler tes contenus et ton référencement naturel. 🙂

Plusieurs facteurs peuvent expliquer des ratios faibles, malheureusement le Google Webmaster Tools ne te donnera pas la réponse, ni même le détail des pages «non pertinentes». Il te faudra envisager les hypothèses suivantes pour organiser ta capacité à progresser.

Densité de contenu trop faible : Les pages offrant un faible volume de contenu textuel sont susceptibles de rentrer dans le filtre des pages jugées «non pertinentes».

Duplication interne :  Le volume de contenu ne fait pas tout. Il est possible que si des pages différentes avec un volume de contenu ont un taux de similarité important (contenu généré dynamiquement par exemple), les pages peuvent se retrouver dans ce filtre.

Popularité trop faible : À l’ inverse des pages offrant peu de contenu peuvent éviter ce filtre si elles sont populaires (valorisées dans le maillage de liens internes et externes).

Antériorité/paternité des contenus/duplication externe : la syndication des contenus est devenue monnaie courante sur le web et ce facteur mal maîtrisé peut vite devenir problématique pour ton référencement naturel. Par exemple les sites e-commerce diffusant largement leur contenus (description produit) sur les comparateurs de prix peuvent se voir décrédité de la «paternité» des contenus. Cela est rendu possible par le critère d’antériorité (premier indexé premier servi), la popularité des sites marchands qui est bien souvent plus faible que celle des comparateurs, ou encore l’utilisation  massive des mêmes descriptifs (issus des fournisseurs). Dans les  cas cités, le crédit (la pertinence) des contenus est affectée à tes concurrents.  Tu te rendras vite compte du problème à l’analyse de l’indexation de ton site web…

Sur ce,  bonne analyse ! 😉

Commentaires

  1. Hmm il me semble que l’opérateur site: n’est pas conçu pour fonctionner sans mots clés derrière.
    Au lieu de
    site:1ere-position.fr
    Tu dois avoir
    site:1ere-position.fr 1ere-position

  2. C’est une question d’index primaire / secondaire. D’ailleurs, faut tester aussi site:&. Il retourne des résultats un peu différent. C’est assez flou au final.

  3. Voilà Laurent, tout simplement énorme comme suggestion, j’avoues, je ne connaissais pas…Je ne sais pas si j’utiliserais un jour mais en vérifiant « les dire » de l’article, en effet, les url sont bien sélectionnées.
    Comme on est que 2 a avoir commenté, que moi je viens de passer par l’apéro, j’en conclus qu’on est les deux seul glands a accepter d’avoir zapper un truc sur Google, perso j’ai mis le tweet en favoris et cette requête va encore me servir…
    Si toi aussi tu te sens con de ne pas avoir pu être le premier a rédiger un article sur les requêtes magiques de google, cris le haut et fort…on est tous des glands, et google le sait ! Misère faut que j’arrête l’apéro le samedi midi moi !!!

  4. Loïc Hélias

    Idem que Jerem, je ne savais qu’il y avait besoin de l’ajout d’un mot clé derrière.
    Pourtant un jour j’avais bien étudié toutes ces fameuses requètes au sein du moteur…. un jour …
    @ +
    Loïc

  5. Effectivement la commande site: est complète avec un mot clé devant. A ne pas confondre site : et site:, on ne sait jamais 🙂

  6. J’adore ce type d’article où au départ on se dit que nous n’allons rien apprendre de nouveau (phrase mythique en SEO) et qui permet de découvrir d’autres usages, fonctionnalités ou méthodes.
    C’était pas gagné en traitant de la commande site: dans Google en 2012 et pourtant, j’ai encore appris un truc SEO aujourd’hui, merci !
    P.S : Ce donnerait presque l’idée de faire une série d’article dans le thème « Savez-vous vraiment utiliser XXX ? »

  7. « Au lieu de
    site:1ere-position.fr
    Tu dois avoir
    site:1ere-position.fr 1ere-position »
    je ne vois aucune différence sur google entre les deux commandes: exactement le même nombre de résultats…

  8. On peut ajouter aussi une directorie pour avoir un type de page specifique.
    Exemple: site:1ere-position.fr/comment/
    On peut aussi le croiser avec d autres operateurs comme par exemple inurl: pour etre sur de n avoir que ce type de pages.
    Exemple: site:1ere-position.fr/ inurl:par-sites-web
    Si vous ajouté l’etoile a la fin de la commande site vous n aurez que les pages dans l’index principal.

  9. Merci d’avoir eclairci ce point ! je fais tourner l’article à mes camarades de la licence Référencement & Rédac web.
    On se plaint souvent des résultats biaisés sans avoir trop de réponses claires de la part de nos enseignants. Par contre, si je peux me permettre il y a pas mal de fautes d’ortho dans ton article ; )

  10. Aurélien Guiton

    Salut et merci à tous pour vos commentaires, RT …
    @laurent, @helene effectivement pas de différence pour cet exemple, la commande site: utilisé avec un mot clés qui se trouve logiquement sur toutes les pages du site me donne le même nombre de « pages indexées » que sans mots clés. Ce que je comprend dans ta remarque est que la commande « site: » n’est pas faite à l’origine pour mesurer l’indexation mais pour limiter la recherche sur un seul domaine..
    @keeg La question de l’index primaire / secondaire est intéressante (si ça existe). Pour moi la différence entre les deux serait les pages jugées pertinentes et les pages dupliquée, de faible qualité. Sur l’exemple de 1ere-position.fr on voit que ce n’est pas ça puisque j’ai beaucoup plus de pages indexées à un instant T que de pages indexables. A mon avis, c’est plus une question d’historique du site ou encore de prise en compte de tous les type de contenus (j’ai -de500 pages indexables pour plus de 1000 pages retournées par la commande sur l’exemple)
    @jeremy ravi que ce soit encore lisible et instructif après l’apéro :-), j’en apprends tout les jours sur ton blog déjanté même si ton article sur les commandes google est un peu incomplet 🙂 (dsl pas possible de mettre des liens en dur dans les commentaires c’est pas de la radinerie)
    @Davidd: Merci pour ton enthousiasme ( j’ai vu l’appel du pied… )
    @PierreH: oui merci pour cette précision, la commande site:* peu aussi s’utiliser en compléments d’autres commande comme « inurl: » mais les résultats sont souvent moins pertinent avec plus de finesse d’analyse, dans ce cas je préfère recourir aux sitemaps XML et Webmaster Tools
    @william: merci pour ton commentaire « maître Capello », j’ai relu l’article et corrigé quelques boulettes mais il en reste surement quelques unes. J’ai aussi pris la liberté de supprimer ton lien comme tu n’as pas listé de manière exhaustive l’ensemble des fautes d’orthographe (peu de valeur ajouté) et que ton lien n’a rien à voir avec la thématique du site et de l’article.
    J’éprouve pas non plus assez de satisfaction dans le fait d’être placé au dessus de tes enseignants et de vanter mes mérites auprès de tes camarades pour laisser passer ton lien mais c’était bien tenté…. sans rancune 🙂

  11. J’ai une question : j’ai vue en utilisant site : monsite.com/tag/toto que ces pages de mon blog étaient indexées dans google. Ce sont des pages tag.
    1- est ce gênant ou une qualification en duplicate content par rapport a ma page article ?
    2- doit on empêcher ces pages (monsite.com/tag/toto) d’être indexée ?
    3- ou doit on les empêchées ? dans le robots.txt ou ne pas les faire apparaitre dans le sitemap ?
    Merci pour vos réponses.

  12. Aurélien Guiton

    @Charles : Question intéressante ! il y a pas de réponse binaire et les méthodes d’analyse de la pertinence des pages indexé doivent te permettre de répondre à cette question.
    Dans l’absolu, je te conseillerai d’analyser la pertinence de ces pages avec la méthode du site:* et ou du sitemap sur tes pages tags pour évaluer le degré de pertinence de ces pages. Si tu as un faible niveau de pertinence, je te conseillerai dans un premier temps de revoir leur conception (personnalisation d’un texte d’intro, extraits d’articles uniquement, systèmes de contenus connexes) pour qu’elle ne soient pas considérées en duplicate.
    Tu n’as pas de risque à les laisser en l’état et je ne voit pas l’avantage d’en interdire l’indexation (peut être un peu de dilution de popularité mais bon … ). Essai plutôt de travailler sur ce gabarit de page tag si tu utilises activement le système de tags pour la catégorisation de tes articles et que tu juges ce système pertinent pour l’internaute….

Laisser un commentaire

XHTML: Vous pouvez utiliser ces tags : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

En tête de liste sinon rien
Take the lead!
Référencement payant : visez la première page Google
Comment être
en 1ère page de Google en 2019 ?
Le Livre Blanc
des 20 ans de 1ère Position
Quel budget
pour une meilleure position sur Google ?
Réponse rapide et prestation sur-mesure.

Partagez vos objectifs
de vente ou marketing
avec nos consultants en référencement et stratégie digitale

Être recontacté !

Selon votre besoin, consultez directement notre équipe d’experts

Vous souhaitez

Connaître nos offresNous proposer vos services

Vous êtes

Une grande entrepriseUn grand compteUn artisanUne TPEUne PME

Votre besoin

Référencement Naturel SEORéférencement Payant SEAAuditRéseaux SociauxRédaction de contenuFormation

Votre projet

J’accepte les conditions | Lire

Une agence certifiée

Nous contacter