Le duplicate content

Google n'apprécie pas le contenu dupliqué. Dans ses recommandations destinées aux webmasters il précise bien que le contenu des pages web doit être un contenu unique, qui n'existe nulle part ailleurs. Mais pourquoi cette phobie du duplicate content ? Est-ce uniquement parce que ça prend de la place sur ses serveurs de stocker une information qui existe déjà d'autre part ou est-ce pour d'autres raisons ?

Contenu en double

Pourquoi le duplicate-content n'est-il pas une bonne chose ?

Le copié-collé est d'une simplicité élémentaire. A une époque, quand les webmasters voyaient que le contenu d'une page d'un concurrent était très bien référencé, ils étaient tentés de recopier ce contenu pour le publier sur leur propre site et ainsi prendre la place de leur concurrent dans les résultats des moteurs de recherche.

Ce n'est pas très éthique de procéder de la sorte mais ça pouvait fonctionner. C'est donc à l'origine une technique pour tricher et manipuler les résultats des moteurs de recherche.

La présence de duplicate content sur un site est aussi la révélation que le contenu n'est pas très travaillé et que le webmaster ne se donne pas la peine de produire un contenu de qualité. C'est donc une indication pour Google comme quoi le site n'est pas un site de qualité. Il sera donc moins bien classé dans les résultats.

Il existe quatre sortes de duplicate-content

Le contenu dupliqué peut se matérialiser sous quatre formes différentes dont les causes sont différentes et dont les objectifs ne sont pas les mêmes. Je vous propose de mettre un coup de projecteur sur ces différentes formes de duplicate content avant de vous intéresser à votre site pour savoir si oui ou non vous êtes en présence de contenus dupliqués.

1. Le contenu recopié depuis un site externe.

Par flème ou par malveillance vous avez publié sur votre page du contenu que vous avez recopié depuis un autre site. Parfois on est tenté de recopier des articles de wikipedia, c'est une chose très courante. Même si on cite les sources et si parfois on cite la source en faisant un lien vers la source, le résultat est le même : les informations se retrouvent sur deux sites différents et sont en double. Au lieu de recopier un article il est pourtant tellement simple de faire un lien hypertexte vers cet article. C'est le principe même du web. Il est toujours possible d'écrire un petit paragraphe pour résumer ce que la page liée contient, afin de mieux introduire le lien. Mais recopier l'intégralité de l'article ou seulement quelques passages c'est réaliser un travail baclé et ça dénote un manque de professionnalisme et un manque de qualité apporté à la conception de son site web. De plus, si le visiteur se rend compte que ce que vous avez écrit ne provient pas vous, il perd alors toute confiance. Alors que faire un lien lui montre que vous vous êtes bien documenté et que vous êtes quelqu'un de sérieux. 

2. Le contenu dupliqué sur son propre site.

Toujours par fainéantise, on est souvent tenté de remettre sur une page ce qu'on a déjà écrit précédemment sur une autre page. Le même texte se retrouve donc à deux endroits sur votre site : c'est ce qu'on appelle du duplicate content interne. On le rencontre très souvent sur les blogs quand on a une page qui présente tous les billets publiés avec pour chacun d'eux le début du billet et un lien du style « lire la suite... ». Le problème que cela pose est que c'est souvent la page d'index qui sera référencée et non le billet lui même car en général les mots-clés les plus importants sont présents au début du texte, donc dans la partie qui est dupliquée. Pour remédier à ça on peut rédiger une mini-description qui sera utilisée uniquement dans les pages d'index ou les pages de catégorie. C'est un peu comme un paragraphe d'introduction pour le contenu qui se trouve sur une autre page. Parfois on appelle cette petite introduction le « chapo ».

3. Du contenu volé.

C'est l'inverse du premier cas. Cette fois c'est un autre site qui est venu recopier du contenu sur le votre pour le publier sur son propre site. Vous vous êtes donné du mal à écrire un article de qualité et vous le retrouvez sur une page qui ne vous appartient pas. Vous comprenez alors mieux pourquoi il ne faut pas vous même faire la même chose. C'est un autre site qui va profiter du fruit de votre travail en monétisant votre contenu sans votre autorisation. Et comment prouver que c'est vous qui avez publié ce contenu le premier ? Ce n'est pas la date de mise à jour de la page sur le serveur qui peut faire foi car vous avez pu corrigé une faute d'orthographe et la date se retrouve alors postérieure à la date de mise à jour de la page volée. Ce n'est pas non plus la date de découverte de la page par les robots de Google car il est possible que le site qui vous a volé votre contenu soit crawlé beaucoup plus souvent que le votre et Google a pu découvrir sa page en premier. Ce serait alors vous qui serez considéré comme un copieur. Il y a donc de fortes chances qu'en présence de contenu dupliqué ce soit les deux pages qui en périssent par un handicap infligé par Google pour leur positionnement dans les résultats de recherche. Et le site lui-même subit un handicap quand il présente trop de pages dont le contenu se retrouve à d'autres endroits du web car il est considéré comme un site de mauvaise qualité. 

4. Des pages accessibles par plusieurs URL.

Bien souvent ce n'est pas voulu et il faut y faire attention car un mauvais paramétrage du serveur peut générer énormément de duplicate content interne. Le plus courant ce sont les sites qui peuvent être accédés à la fois par le nom de domaine avec un www et par un nom de domaine sans www. Il faut utiliser l'URL-rewriting du .htaccess pour rediriger proprement toutes les urls d'une version vers une autre. A vous de choisir laquelle vous préférez pour votre site. 

On rencontre aussi très souvent ce problème sur les blogs avec le référencement des tags. Les pages peuvent alors avoir deux urls dont l'une se termine par des paramètres après le .html (mapage.html?tag=article). Les sites e-commerce sont également visés par le duplicate content interne si pour un même article on a laissé référencer toutes les versions de coloris ou de taille. Parfois c'est du aussi à la navigation avec les attributs prev et next. 

Pour éviter ces types de duplicate content il existe deux moyens : 

  • mettre les pages indésirables en noindex pour ne pas qu'elles soient prises en compte par Google dans son index
  • utiliser l'URL canonique avec la balise meta canonical qui précise aux moteurs de recherche quelle est l'url unique pour ce contenu. 

Le cas des flux RSS et des news d'actualité

Les flux RSS permettent de diffuser une information sur de nombreux sites en temps réel. Il en va de même pour les dépêches d'actualité qui se reprises par tous les sites d'information. Google est capable de reconnaitre, en partie, que ces informations dupliquées sont volatiles et il leur accordera une importance moindre dans le contenu de votre page sans pour autant pénaliser le site. Mais si une page est basée uniquement sur ce genre de contenu il y a peu de chances pour qu'elle soit bien référencée. Il faut utiliser ces techniques en complément d'un article ou d'un contenu de qualité.

L'arrivée de Google Panda

Google a mis en place, il y a maintenant quelques années, un algorithme destiné à quantifier la qualité des sites internets. Sont visés les sites de mauvaise qualité qui contiennent souvent du spam. Mais le duplicate content entre dans les critères de qualité de l'algorithme Panda. Ce qui est visé par Panda est principalement :

  • La présence de commentaires de spam
  • Les contenus pauvres qui présentent beaucoup de liens extérieurs
  • Le duplicate content car il est souvent utilisé dans les pages satellites et le scraping (pillage de contenu)
  • Les fermes de liens (farm-link)
  • Les agrégateurs de contenus et les comparateurs de prix
  • Le cloaking (présenter une version de page différente aux moteurs que celle présentée aux internautes)
  • les annuaires car ils présentent un contenu souvent très court, parfois même dupliqué (la même meta description qui se retrouve dans plusieurs annuaires), et s'apparentent parfois à des link-farms en raison de la présence de nombreux liens sortants.
  • Les forums de discussion en raison de la multiplicité de messages sans réponse et de la qualité rédactionnelle qui s'apparente souvent au style sms.


Panda favorise les sites présentant du contenu de qualité. Depuis l'arrivée de Panda il est recommandé d'écrire des articles beaucoup plus long que par le passé. C'est terminé l'époque où l'on pouvait se placer en première page avec un contenu de 200 mots. Il faut à présent faire beaucoup plus d'efforts et faire la chasse au duplicate content.