Conférence d’Olivier Andrieu au SEO CAMP 2012

Conference Olivier-Andrieu Duplicate Content - SEO Camp 2012 - 1ère Position

Depuis Panda, le duplicate content sur google fait peur à la France. Et les intervenants de la Search Quality Team de Google, présents au SEO Camp 2012, ironisent volontiers sur les référenceurs français.

Non seulement « Les Français sont obsédés par le duplicate content » mais « ils travaillent beaucoup trop le netlinking ». Comment contredire Google ? 😉

Il n’empêche que le fait que Google Panda* ait été déployé aux États-Unis 6 mois avant la France n’est sans doute pas innocent dans le «fear effect» en France évoqué par Olivier Andrieu.

Cette petite phrase de nos amis de chez Google était surtout l’occasion de rappeler les Guidelines de Google, notre Bible à tous évidemment (ou pas) :-).

Bref, revenons-en à nos moutons (ou nous moutons ?). Tout d’abord Olivier Andrieu. Faut-il vraiment le présenter ? Si c’est le cas je vous conseille plutôt de lire sa présentation : Olivier Andrieu. Cette conférence a donc débuté sur le coup de 11h, avec @yohannseo assis à ma gauche, nous deux en mode live tweet. Mais traitons plutôt du sujet qui nous intéresse ici.

*Fumisterie : cf @david_degrelle

 

Qu’est-ce que le Duplicate Content (DC) ?

Pour rappel le DC (pour les intimes) correspond à duplication de contenus sur les sites, qu’il s’agisse d’un texte complet, ou partiel. S’il inquiète autant c’est que les moteurs de recherche ont la volonté de proposer des résultats qui soient les plus pertinents possibles aux internautes, et cela en favorisant les pages aux contenus uniques.

Il pose aussi problème dans la mesure où une page dupliquée peut être davantage popularisée, donc positionnée, que ce soit sur le site en question ou au niveau externe.

 

Les différentes formes de Duplicate Content

La duplication de contenu intrasite

Le contenu dupliqué intrasite concerne les contenus éditoriaux d’un même site. Les cas les plus courants sont des articles de presse qui peuvent par exemple appartenir à la rubrique «actualité» et «actualité à la une ». Nous avons alors deux chemins de navigation avec deux URLs différentes pour un même contenu.

Cela peut également se produire sur un site e-commerce, où il est parfois nécessaire de créer plusieurs portes d’entrées pour un produit (déstockage, soldes, collection été, etc.).

Il faut savoir que Google fait très bien la différence entre les éléments de navigation et le texte en lui-même, voilà pourquoi on parle de «contenus éditoriaux» dupliqués, et non de «pages». Remarque : les fichiers PDFs sont aussi sujets au DC.

Solutions :

  • Même si celui-ci demande un certain travail, des efforts de réécriture doivent être fait. Il est tout à fait possible également d’ajouter du contenu dans une des deux URLs. La solution de spinning «de qualité» existe également, même si la position de Google à ce sujet est connue.
  • L’utilisation de l’attribut  rel=canonical. Celui-ci permet d’informer Google sur la source originale du contenu. 
  • La désindexation de la page via la meta « noindex ». C’est certes une solution un peu barbare mais qui n’en ai pas moins une.

 

Le contenu dupliqué intersite

Il concerne les contenus éditoriaux sur deux sites distincts. Le cas le plus courant est le vol de contenu. Veillez donc à populariser vos pages, car un contenu dupliqué ailleurs mais davantage populaire (avec plus de liens externes) aura de très grandes chances de se positionner devant le vôtre, et même si celui-ci a été publié avant.

Solutions :

  • L’utilisation de l’attribut  rel=canonical. Evidemment comme l’auditoire la fait remarquer son implémentation est moins aisée lorsqu’il s’agit d’un autre site.
  • Ne pas proposer le contenu complet des articles dans le flux RSS, par exemple, permet de réduire les risques de leurs reprises sur d’autres sites.

 

Le contenu dupliqué dit du type DUST

DUST signifie «Duplicate Content, Same Text ». Celui-ci est causé  par la multiplication d’URLs, par exemple par l’ajout possible d’un «index.php » à la fin d’une URL ou encore la création de liens externes via des pages taguées pour des campagnes (utm_source=google, utm_medium=cpc, utm_term=running+shoes etc).

Le risque engendré ici réside dans la dilution de la popularité dû à la déperdition des backlinks car même si au final le code source de ces pages est le même, Google n’est pas encore suffisamment intelligent pour prendre en compte cet élément.

Voici une requête pour donner une idée du nombre de pages concernées par cette problématique : https://www.google.fr/search?sourceid=chrome&ie=UTF-8&q=inurl%3Autm_source

Solutions :

  • Configurer les paramètres d’URLs dans Google Webmaster Tools.
  • L’utilisation de redirections 301.
  • L’utilisation de l’attribut  rel=canonical.

 

Le contenu dupliqué par similarité des TITLE et META DESCRIPTION

En effet, c’est aussi une forme de duplicate content. La balise <title> d’une page étant le premier critère de pertinence, Google aura du mal à favoriser les pages de votre site dans son indexation si celles-ci sont concernées par ce problème.

Solution :

  • Optimiser ses en-têtes dans une logique de pertinence sémantique en pensant à sa mise en valeur dans les SERP. Google Webmaster Tools donne  la possibilité de vérifier la similarité des balises méta d’un site.

Le contenu dupliqué sur les sites multilingues 

Comment faire lorsqu’un site contient une version par pays et que plusieurs de ces pays parlent la même langue ? L’exemple d’Olivier Andrieu est celui d’une extension de nom de domaine belge, suisse et française.

Solutions :

  • Indiquer le pays cible dans Google Webmaster Tools (Configuration du site > Paramètres).

 

Outils pour vérifier le Duplicate Content

Plusieurs méthodes et outils existent pour estimer le duplicate content. Il faut tout de même garder à l’esprit que ces méthodes mathématiques sont issues d’hypothèses, même si il est très probable que Google utilise des calculs qui s’en inspirent.

Voici quelques-uns de ces outils :

 

Conclusion et remerciements

Il existe d’autres cas de duplicate content que ceux évoqués ici. Vous retrouverez d’ailleurs dans la présentation d’Olivier Andrieu (ci-après) des liens complémentaires.

Par ailleurs, il est inutile de tomber dans la parano du duplicate content. Continuez de proposer du contenu utile et pertinent et tout se passera bien (ou  commencer à le faire). Un site n’est pas pénalisé pour contenu dupliqué. Les pages concernées sont simplement déclassées par l’algorithme dans les pages de résultats.

Pour finir ce résumé j’aimerais remercier particulièrement Olivier Andrieu qui est autant pédagogue que sympathique. 🙂

 

Pour me suivre sur twitter : @LoicHequet

La présentation sur le Duplicate Content au SEO Campus 2012 sur Slideshare

Commentaires

  1. Article référence sur le sujet !
    J’ajoute une solution WP pour le Dust http://yoast.com/wordpress/seo/#permalink-redirect

  2. Loïc Hequet

    Merci Laurent !
    c’est sympa de t’avoir rencontré 🙂
    à de prochaines rencontres SEO

  3. Article vraiment complet. Merci pour le partage du slide pour ceux qui n’était pas présent au SEO CAMP. Le petit point supplémentaire qui pouvait être évoqué est celui qui consiste à faire un peu de veille pour vérifier le plagiat de contenu.

  4. j’ai trouvé cet article vraiment très intéressant ! Il y avait des techniques que je connaissais pas, j’ajouterai à cela que l’abus du spin est dangereux pour les sites. Mais vraiment merci pour ce partage pertinent ainsi que pour les outils fournis qui peuvent s’avérer très pratiques.

  5. Merci pour cet article récapitulatif.
    Je me suis toujours posé une question concernant le DC intrasite: dans le cas de site e-commerce ou les produits peuvent être associés à plusieurs catégories, et ou sur chaque page catégorie on retrouve un texte unique de présentation de la catégorie, et un extrait de présentation de chaque produit: cet extrait doit-il être unique pour chaque catégorie, ou bien le texte de présentation de la catégorie suffit-il à lever le filtre sur le duplicate ?

  6. Loïc Hequet

    Tout est une question de densité. Le site ne sera pas pénalisé si chaque page du site contient en majorité du texte qui lui est propre.
    Le texte de présentation de la catégorie doit donc être suffisamment riche, et l’extrait quand à lui être bref.

Laisser un commentaire

XHTML: Vous pouvez utiliser ces tags : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

En tête de liste sinon rien
Take the lead!
Référencement payant : visez la première page Google
Comment être
en 1ère page de Google en 2019 ?
Le Livre Blanc
des 20 ans de 1ère Position
Quel budget
pour une meilleure position sur Google ?
Réponse rapide et prestation sur-mesure.

Partagez vos objectifs
de vente ou marketing
avec nos consultants en référencement et stratégie digitale

Être recontacté !

Selon votre besoin, consultez directement notre équipe d’experts

Vous souhaitez

Connaître nos offresNous proposer vos services

Vous êtes

Une grande entrepriseUn grand compteUn artisanUne TPEUne PME

Votre besoin

Référencement Naturel SEORéférencement Payant SEAAuditRéseaux SociauxRédaction de contenuFormation

Votre projet

J’accepte les conditions | Lire

Une agence certifiée

Nous contacter