Conférence d’Olivier Andrieu au SEO CAMP 2012

Rédigé manuellement le 21 mars 2012 par

Depuis Panda le duplicate content sur google fait peur à la France. Et les intervenants de la Search Quality Team de Google présents au SEO Camp 2012 ironisent volontiers sur les référenceurs français.

Non seulement « Les Français sont obsédés par le duplicate content » mais « ils travaillent beaucoup trop le netlinking ». Comment contredire Google ;-) ?

Il n’empêche que le fait que Google Panda* ait été déployé aux Etats-Unis 6 mois avant la France n’est sans doute pas innocent dans le « fear effect » en France évoqué par Olivier Andrieu.

Cette petite phrase de nos amis de chez Google était surtout l’occasion de rappeler les Guidelines de Google, notre Bible à tous évidemment (ou pas :-).

Conférence Duplicate Content Olivier Andrieu SEO Camp 2012

Bref, revenons-en à nos moutons (ou nous moutons ?). Tout d’abord Olivier Andrieu. Faut-il vraiment le présenter ? Si c’est le cas je vous conseille plutôt de lire sa présentation : Olivier Andrieu. Cette conférence a donc débuté sur le coup de 11h, avec @yohannseo assis à ma gauche, nous deux en mode live tweet (la preuve). Mais traitons plutôt du sujet qui nous intéresse ici.

*Fumisterie : cf @david_degrelle

Qu’est-ce que le Duplicate Content (DC) ?

Pour rappel le DC (pour les intimes) correspond à duplication de contenus sur les sites, qu’il s’agisse d’un texte complet, ou partiel. S’il inquiète autant c’est que les moteurs de recherche ont la volonté de proposer des résultats qui soient les plus pertinents possibles aux internautes, et cela en favorisant les pages aux contenus uniques.

Il pose aussi problème dans la mesure où une page dupliquée peut être davantage popularisée, donc positionnée, que ce soit sur le site en question ou au niveau externe.

Les différentes formes de Duplicate Content

La duplication de contenu intrasite.

Le contenu dupliqué intrasite concerne les contenus éditoriaux d’un même site. Les cas les plus courants sont des articles de presse qui peuvent par exemple appartenir à la rubrique «actualité» et «actualité à la une ». Nous avons alors deux chemins de navigation avec deux URLs différentes pour un même contenu.

Cela peut également se produire sur un site e-Commerce où il est parfois nécessaire de créer plusieurs portes d’entrées pour un produit (déstockage, soldes, collection été, etc.).

Il faut savoir que Google fait très bien la différence entre les éléments de navigation et le texte en lui-même, voilà pourquoi on parle de « contenus éditoriaux » dupliqués, et non de « pages ». Remarque : les fichiers PDFs sont aussi sujets au DC.

Solutions :

  • même si celui-ci demande un certain travail, des efforts de réécriture doivent être fait. Il est tout à fait possible également d’ajouter du contenu dans une des deux URLs. La solution de spinning « de qualité » existe également, même si la position de Google à ce sujet est connue.
  • l’utilisation de l’attribut  rel=canonical. Celui-ci permet d’informer Google sur la source originale du contenu. Plus d’informations sur le sujet :
  • la désindexation de la page via la meta « noindex ». C’est certes une solution un peu barbare mais qui n’en ai pas moins une.

Le contenu dupliqué intersite.

Il concerne les contenus éditoriaux sur deux sites distincts. Le cas le plus courant est le vol de contenu. Veillez donc à populariser vos pages, car un contenu dupliqué ailleurs mais davantage populaire (avec plus de liens externe) aura de très grandes chances de se positionner devant le vôtre, et même si celui-ci a été publié avant.

Solutions :

  • l’utilisation de l’attribut  rel=canonical. Evidemment comme l’auditoire la fait remarquer son implémentation est moins aisée lorsqu’il s’agit d’un autre site.
  • ne pas proposer le contenu complet des articles dans le flux RSS, par exemple, permet de réduire les risques de leurs reprises sur d’autres sites.

Le contenu dupliqué dit du type DUST

DUST signifie «Duplicate Content, Same Text ». Celui-ci est causé  par la multiplication d’URLs, par exemple par l’ajout possible d’un «index.php » à la fin d’une URL ou encore la création de liens externes via des pages taguées pour des campagnes (utm_source=google, utm_medium=cpc, utm_term=running+shoes etc).

Le risque engendré ici réside dans la dilution de la popularité dû à la déperdition des backlinks car même si au final le code source de ces pages est le même, Google n’est pas encore suffisamment intelligent pour prendre en compte cet élément.

Voici une requête pour donner une idée du nombre de pages concernées par cette problématique : https://www.google.fr/search?sourceid=chrome&ie=UTF-8&q=inurl%3Autm_source

Solutions :

  • configurer les paramètres d’URLs dans Google Webmaster Tools
  • l’utilisation de redirections 301
  • l’utilisation de l’attribut  rel=canonical, plus d’informations dans cette vidéo :

Le contenu dupliqué par similarité des TITLE et META DESCRIPTION.

En effet, c’est aussi une forme de duplicate content. La balise <title> d’une page étant le premier critère de pertinence, Google aura du mal à favoriser les pages de votre site dans son indexation si celles-ci sont concernées par ce problème.

Solution :

  • Optimiser ses en-têtes dans une logique de pertinence sémantique en pensant à sa mise en valeur dans les SERPS. Google Webmaster Tools donne  la possibilité de vérifier la similarité des balises méta d’un site.

Le contenu dupliqué sur les sites multilingues.  

Comment faire lorsqu’un site contient une version par pays et que plusieurs de ces pays parlent la même langue ? L’exemple d’Olivier Andrieu est celui d’une extension de nom de domaine belge, suisse et française.

Solutions :

  • Indiquer le pays cible dans Google Webmaster Tools (Configuration du site > Paramètres).

Outils pour vérifier le Duplicate Content

Plusieurs méthodes et outils existent pour estimer le duplicate content. Il faut tout de même garder à l’esprit que ces méthodes mathématiques sont issues d’hypothèses, même si il est très probable que Google utilise des calculs qui s’en inspirent.

Voici quelques-uns de ces outils :

Olivier nous a proposé bien d’autres outils pour vérifier vos contenus dupliqués.

Conclusion et remerciements

Il existe d’autres cas de duplicate content que ceux évoqués ici. Vous retrouverez d’ailleurs dans la présentation d’Olivier Andrieu (ci-après) des liens complémentaires.

Par ailleurs, il est inutile de tomber dans la parano du duplicate content. Continuez de proposer du contenu utile et pertinent et tout se passera bien (ou  commencer à le faire). Un site n’est pas pénalisé pour contenu dupliqué. Les pages concernées sont simplement déclassées par l’algorithme dans les pages de résultats.

Pour finir ce résumé j’aimerais remercier particulièrement Olivier Andrieu qui est autant pédagogue que sympathique :)

Pour me suivre sur twitter : @LoicHequet

La présentation sur le Duplicate Content au SEO Campus 2012 sur Slideshare :

Partager et noter cet article !







8 commentaires pour “Conférence d’Olivier Andrieu au SEO CAMP 2012”

  • Par Olivier Andrieu abondance.com, le 21 mars 2012 à 18:33

    Merci pour la dernière phrase, c’est sympa :)
    amcialement
    Olivier

  • Loïc Hequet

    Par Loïc Hequet , le 21 mars 2012 à 23:43

    Mais de rien ! au plaisir

  • Par LaurentB laurentbourrelly.com, le 22 mars 2012 à 15:41

    Article référence sur le sujet !
    J’ajoute une solution WP pour le Dust http://yoast.com/wordpress/seo/#permalink-redirect

  • Loïc Hequet

    Par Loïc Hequet twitter.com/loichequet, le 22 mars 2012 à 22:21

    Merci Laurent !

    c’est sympa de t’avoir rencontré :)

    à de prochaines rencontres SEO

  • Par Tony infowebmaster.fr, le 8 avril 2012 à 14:00

    Article vraiment complet. Merci pour le partage du slide pour ceux qui n’était pas présent au SEO CAMP. Le petit point supplémentaire qui pouvait être évoqué est celui qui consiste à faire un peu de veille pour vérifier le plagiat de contenu.

  • Par alex , le 10 avril 2012 à 15:30

    j’ai trouvé cet article vraiment très intéressant ! Il y avait des techniques que je connaissais pas, j’ajouterai à cela que l’abus du spin est dangereux pour les sites. Mais vraiment merci pour ce partage pertinent ainsi que pour les outils fournis qui peuvent s’avérer très pratiques.

  • Par Marco legraindeweb.fr, le 11 avril 2012 à 17:02

    Merci pour cet article récapitulatif.
    Je me suis toujours posé une question concernant le DC intrasite: dans le cas de site e-commerce ou les produits peuvent être associés à plusieurs catégories, et ou sur chaque page catégorie on retrouve un texte unique de présentation de la catégorie, et un extrait de présentation de chaque produit: cet extrait doit-il être unique pour chaque catégorie, ou bien le texte de présentation de la catégorie suffit-il à lever le filtre sur le duplicate ?

  • Loïc Hequet

    Par Loïc Hequet twitter.com/loichequet, le 12 avril 2012 à 10:08

    Tout est une question de densité. Le site ne sera pas pénalisé si chaque page du site contient en majorité du texte qui lui est propre.
    Le texte de présentation de la catégorie doit donc être suffisamment riche, et l’extrait quand à lui être bref.