Duplicate Content

A la suite d’un récent article sur le blog officiel de Google au sujet du contenu dupliqué, il n’est pas inutile de faire un point sur le sujet.

Le « contenu dupliqué » (ou duplicate content) est un texte, ou une portion de texte présente sur plusieurs pages sur le web. Google fait particulièrement attention à ce qu’il peut considérer comme un « vol de contenu ». Il s’agit en effet de retrouver la version officielle de la version. On comprendra que la version officielle pour Google est sans-doute la plus ancienne, la plus demandée et la plus facile d’accès.

Cet article propose 2 traductions : l’une du guide officiel de Google sur le duplicate content, et l’autre sur le dernier article paru sur le blog officiel de Google.

 

Google

Google

Traduction des conseils aux webmasters Google :

Le Duplicate Content fait référence à des blocs de contenu conséquents qui, sur un domaine ou sur plusieurs domaines, soit se répètent parfaitement, soit sont à peu près semblables. Le plus souvent il ne s’agit pas de contenu destiné à tromper.

Exemple de contenu dupliqué sans intention de nuire :

  1. Forums de discussion qui peuvent générer à la fois des pages normales et des pages destinées à des terminaux mobiles.
  2. Articles d’un magasin qui sont affichés ou liés à partir de nombreuses URLs différentes.
  3. Versions imprimables de pages web.

Néanmoins, dans certains cas, le contenu est délibérément dupliqué à travers différents domaines afin de manipuler le classement dans les moteur de recherche ou de gagner plus de traffic. Des pratiques trompeuses comme celles ci peuvent aboutir à une mauvaise expérience utilisateur, quand un visiteur tombe sur quasiment le même contenu répété dans les résultats d’une recherche.

Google essaie avec persévérance d’indexer et de montrer des pages avec des informations différentes. Ce filtrage signifie que, par exemple, si votre site a pour chaque article une version « normale » et une version « pour impression », et qu’aucune des 2 n’est bloquée par le fichier « robot.txt » ou avec une balise méta robot noindex, Google va choisir de ne lister qu’une de ces 2 versions. Dans les rares cas ou Google considère que le contenu dupliqué pourrait être montré dans l’intention de manipuler notre classement et de décevoir nos utilisateurs, nous allons prendre les mesures appropriées dans l’indexation et le classement du site en question. En conséquences le classement du site peut souffrir ou le site peut être entièrement retiré de l’index de Google et dans ce cas il n’apparaitra plus dans les résultats des recherches.

Il y a quelques mesure que vous pouvez prendre pour vous prémunir contre les problèmes de contenu dupliqué et vous assurer que vos visiteurs voient le contenu que vous voulez qu’ils voient.

  1. Envisager de bloquer l’indexation de certaines pages :
    Plutôt que de laisser l’algorithme de Google choisir quelle est la meilleure version d’un document, vous pouvez nous aider à choisir la version que vous préférez. Par exemple, si vous ne voulez pas que nous indexions la version imprimable des articles de votre site, interdisez ces répertoires ou utilisez des expressions régulières dans votre fichier robot.txt.
  2. Utiliser des redirections 301 :
    Si vous avez restructuré votre site, utiliser des redirections permanentes Http 301 (redirections permanentes) dans votre fichier .htaccess pour rediriger habilement les utilisateurs, Googlebot et autres robot d’indexation (Dans Apache, vous pouvez aussi faire ça avec un fichier .htaccess ; dans IIS, vous pouvez faire cela avec la console d’administration).
  3. Soyez cohérent :
    Essayez de rester logique dans vos liens internes. Par exemple, ne faites pas des liens vers http://hat.weben.fr/, http://hat.weben.fr/index.htm et http://hat.weben.fr/busby-seo-test.htm si ces pages sont indentiques.
  4. Utilisez les extensions des noms de domaine :
    pour nous aider à proposer la version la plus appropriée d’un document, vous pouvez utiliser les extensions des noms de domaine pour distinguer le contenu spécifique à un pays. Nous avons plus de chance de savoir que weben.fr contient du contenu centré sur la France que seocontest.info/fr/ ou fr.seocontest.info.
  5. Soyez prudent avec la syndication :
    Si vous publiez des informations sur d’autres sites, Google va toujours montrer la version que nous pensons être la meilleure pour les utilisateurs et cela peut ne pas être celle que vous préférez. Néanmoins, cela nous aide quand les sites qui publient votre contenu incluent un lien vers votre article original. Vous pouvez également demander aux sites qui publient vos informations de bloquer la version sur leur site avec un fichier robot.txt.
  6. Utilisez Google Webmaster Tools pour pour dire comment vous préférez que votre site soit indexé :
    Vous pouvez dire à Google quel est votre domaine préféré (par exemple weben.fr ou www.weben.fr).
  7. Utiliser un minimum de répétition sur toutes vos pages :
    Par exemple au lieu d’inclure en pied de chaque page un long texte de copyright, indiquez un court résumé et faites un lien vers une page plus détaillée.
  8. Évitez de publier des brouillons :
    Les utilisateurs n’apprécient pas de tomber sur des pages « vides », aussi vous pouvez éviter les remplissages autant que possible. Par exemple, ne publiez pas une page tant que vous n’avez pas de contenu réel à publier. Si vous voulez vraiment publier des pages de remplissages, utilisez un robot.txt pour empêcher que Google ne les indexe.
  9. Comprenez votre gestionnaire de blog :
    Assurez-vous que vous connaissez la manière dont votre contenu est affiché sur votre site. Les blogs, les forums et les systèmes du même genre montrent souvent votre contenu de différentes manières. Par exemple un article de blog peut apparaitre sur la page d’accueil d’un blog, sur une page d’archive ou sur une page d’autres articles avec la même étiquette.
  10. Réduisez au minimum le contenu similaire :
    Si vous avez de nombreuses pages avec du contenu similaire, essayez de développer chaque page ou de réunir ces pages en une seule. Par exemple, si vous avez un site de voyage avec des pages séparées pour deux villes différents mais les mêmes information pour ces 2 villes, vous pouvez soit fusionner les 2 pages en une seule soit compléter chaque page de manière à ce qu’elles contiennent du contenu unique pour chaque ville.

Le duplicata de contenu sur un site n’est pas la cause d’actions sur ce site sauf s’il apparait que l’intention du duplicata est de tromper et de manipuler les résultats des moteurs de recherche. Si votre site subit un problème de contenu dupliqué, et que vous ne suivez pas les conseils prodigués ci-dessus, nous faisons notre travail en choisissant nous-même quelle version de votre contenu sera affichée dans nos résultats de recherches.

Néanmoins, si nos vérifications indiquent que vous vous êtes engagés dans des manœuvres trompeuses, et que votre site a été retiré de nos résultats de recherche, vérifiez soigneusement votre site. Si votre site a été retiré de nos résultats de recherche, visitez nos indications pour les webmasters pour plus d’informations. Un fois que vous avez fait les changements nécessaires et que vous êtes sûr que votre site ne viole plus nos règles, vous pouvez demander une réintégration de votre site.

Si vous trouvez qu’un autre site copie votre contenu après l’avoir volé (en le détournant et en le republiant), il y a peu de chance que cela influe négativement sur le classement de votre site dans les résultats des recherches sur Google. Si vous pointez un cas de Duplicate Content particulièrement frustrant , vous pouvez remplir une demande DMCA pour revendiquer votre propriété sur le contenu et demander le retrait de l’autre site de l’index de Google.

Si vous avez envie de discuter de cela avec Google, ou avez des idées sur comment nous pourrions mieux communiquer avec vous sur ce sujet, vous pouvez écrire un message sur le forum de discussion pour les webmasters de Google.

Traduction du blog officiel de Google (septembre 2008)

Il doit y avoir un soucis au niveau du contenu dupliqué (« duplicate content »). Les webmasters nous demandent souvent comment ça fonctionne, et craignent une pénalité pour duplication de contenu.

Soyons clairs une bonne fois pour toute : il n’y a aucune pénalité pour duplicata, du moins pas au sens que vous le pensez.
Il existe des pénalités liées à l’idée de proposer exactement le même contenu qu’un autre site — par exemple si vous pompez du contenu depuis d’autres sites sans rien n’y ajouter. Ces stratégies sont clairement déconseillées dans notre charte du webmaster.
Ne créez pas plusieurs pages, sous-domaines ou domaines présentant un contenu en grande partie identique. Évitez les programmes d’affiliation, sans véritable contenu informatif.
Si votre site fait partie d’un programme d’affiliation, assurez-vous qu’il est utile aux internautes. Présentez un contenu pertinent et original pour inciter les internautes à visiter votre site en premier.

 

(Remarque : Bien qu’utiliser le contenu publié sur d’autres sites soit déconseillé, que d’autres pompent sur vous est une autre histoire ; consultez ce billet si vous craignez d’être la cible d’un tel comportement).
Cependant, la plupart des webmasters que j’ai pu entendre ne font pas allusion à ce que je viens de décrire ; ils font souvent référence à de multiples adresses pointant vers le même contenu. Par exemple, www.example.com/skates.asp?couleur=noir&marque=riedell et www.example.com/skates.asp?marque=riedell&couleur=noir. Ce type de contenu peut éventuellement affecter les performances de votre site, mais n’entraîne en aucun cas des pénalités. Voici un extrait de notre article traitant du duplicata :
Le contenu en double n’entraîne pas de conséquences négatives particulières pour votre site sauf si l’objectif este de tromper et de manipuler les résultats des moteurs de recherche. En cas de problèmes de contenu en double, et si vous ne suivez pas les recommandations indiquées ci-dessus, nous nous chargeons de choisir la version du contenu à afficher dans nos résultats de recherche.
Ce type de duplicata est assez commun, et la plupart des CMS de le prennent pas bien en charge. Quand des gens vous disent que ce type de duplicata peut affecter votre site, ce n’est pas à cause de pénalités, mais à cause de la façon dont fonctionnent les sites web et les moteurs de recherche.
La majorité des moteurs de recherche aiment la diversité ; ils veulent vous proposer dix résultats différents, et pas dix adresses pointant toutes vers le même contenu. A cette fin, Google essaye de filtrer les documents dupliqués afin que les internautes rencontrent moins de redondances. Vous trouverez plus de détails sur ce billet, qui l’explique :
Lorsque nous détectons un contenu dupliqué, comme des variations dans les adresses, nous regroupant les différentes adresses.

Nous sélectionnons ce que nous pensons être l’adresse la plus représentative du groupe pour l’afficher dans les résultats.

Nous appliquons alors les propriétés de toutes les adresses contenues dans un groupe à l’adresse que nous avons choisi, comme la popularité.

 
Voici les différents effets possibles pour vous :
Ce que Google considère comme l’adresse la plus représentative pourrait ne pas correspondre à vos idées. Si vous souhaitez pouvoir contrôler quelle adresse s’affiche, vous devrez nous le spécifier via votre sitemap.

Si nous ne sommes pas en capacité de détecter toutes les adresses d’une même page, nous ne pourrons pas regrouper leurs propriétés. Ceci pourrait atténuer le signal déterminant le classement de ce contenu dans nos résultats en les répartissant en plusieurs adresses différentes.

Dans la plupart des cas, Google arrive a gérer ce type de duplicata. Cependant, faites attention au contenu dupliqué sur plusieurs domaines. Si vous construisez un site basé sur la duplication des données, vous devriez y repenser à deux fois dans le cas où votre modèle économique dépend du trafic de recherche (sauf si cela bénéficie à l’internaute). Par exemple, les partenaires du site Amazon se plaignent souvent du classement de leurs produits. Est-ce parce que Google fait tout pour les masquer ? Non. Mais comment espèrent-ils dépasser Amazon s’ils proposent exactement le même catalogue ? Amazon est une source reconnu (plus que n’importe lequel de leurs partenaires), et l’internaute lambda voudra sûrement consulter la fiche originale du produit sur Amazon, sauf si le site partenaire comporte des informations supplémentaires.

Enfin, pensez aux effets des duplicatas sur votre bande passante. Les duplicatas sont souvent source d’exploration inutile ; quand le robot de Google découvre 10 adresses sur votre site, il doit explorer chacune de ces adresses avant de savoir s’elles contiennent la même information ou pas. Plus le robot de Google passe du temps sur la duplication de contenu, et moins il en passera sur le reste de votre site.

En résumé : le « duplicate content » peut affecter votre site de multiples façons. Cependant, sauf si c’est une action délibérée, il n’y aura aucune pénalité. Ceci implique :
Vous n’avez pas à demander une reconsidération lorsque vous supprimer du contenu innocemment dupliqué.

Si vous débutez dans la conception de site, ne vous souciez pas trop de ces détails : la majorité des moteurs de recherche ont des techniques pour les détecter et les gérer.

Aidez vos amis webmasters en ne perpétuant pas le mythe du « duplicate content » et de ses pénalités ! Vous avez toutes les cartes en main pour l’éviter, et y remédier. Voici quelques articles pour bien commencer.

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

%d blogueurs aiment cette page :