En quête de contenu riche et fourni, il est tentant de s’inspirer de ce que propose la toile. La pratique du contenu dupliqué se généralise. Par manque de temps, d’inspiration ou juste par facilité, nombreux sont les rédacteurs de blogs ou de sites qui n’hésitent pas à récupérer purement et simplement les textes d’autres auteurs.
Et ce, en un simple copier-coller.
Peut-être sont-ils influencés par les critères de référencement des moteurs de recherche. Paradoxalement, certains pensent qu’ils ne seront pas démasqués, noyés dans cette même toile. Ils pensent même sortir du lot au moindre effort en gagnant en référencement ! En réalité, cette pratique n’est pas avantageuse pour l’entreprise en démarche d’optimisation de son positionnement dans les moteurs de recherche.
Ce dossier est proposé en trois articles.
- Dans un premier temps, oui, la copie nuit à la qualité d’un site. Et cela se mesure.
- Et comme dans toute course, il y a prise de risque : le second article ‘‘Vu ? Pris !’’ abordera l’aspect légal du sujet.
- Enfin, tout problème ayant sa solution, un récapitulatif de suggestions pour éviter, tracker et corriger les doublons sera présenté dans notre troisième article « Les solutions » aux doublons.
Contenu de site : facteur majeur de positionnement majoritairement dupliqué.
Le contenu demeure le troisième facteur de positionnement le plus important sur les neuf pris en compte par l’algorithme de Google, selon l‘étude 2015 de Search Engine Ranking Factors de Moz.com.
Plus précisément, les moteurs de recherche en général aiment les ‘’méga contenus’’ (1 000 à 2 000 mots). Ce sont ceux qui nécessitent un gros travail de préparation et de rédaction. Ils sont retenus par les internautes en quête de plus de valeur qu’ils n’en trouvent dans les trop nombreuses pages de 300 à 600 mots. Celles-ci sont courtes et rapidement scannables par l’œil, certes, mais souvent pauvres. Généralement bien positionnés, les longs contenus accroissent la visibilité auprès des utilisateurs. Ils génèrent un potentiel de trafic et de partage supplémentaires.
Alors, la tentation est grande de se faciliter la tâche : la rédaction peut être un exercice difficile et long quand le simple fait de copier-coller ne demande que quelques secondes.
Pourquoi faire compliquer quand on peut faire simple ?
C’est ainsi que, en 2015, Gary Illyes, Webmaster Trends Analyst chez Google, annonçait que sur les 120 000 milliards d’URL, 60% de ces contenus étaient dupliqués, soit 72 000 milliards d’URL. En 2013, on comptait 30 000 milliards d’URL indexées dont 30% de contenu en doublon. Pour quatre fois plus de pages indexées, la duplication est multipliée par huit en deux ans.
Le contenu dupliqué, ou la multiplication des bons mots.
Le contenu dupliqué, ou duplicate content, est un contenu (indexable par les moteurs de recherche) apparaissant sur le web plus d’une fois. C’est-à-dire que deux pages (ou plus) partagent au minimum l’un des éléments suivants : une même Url, des balises <title> et <meta description> identiques ou un contenu sémantique de la page similaire. Il ne présente aucun travail de transformation (ajout d’un avis personnel, exercice de synthèse ou de résumé). Simplement, le copieur reprend à son compte les bons mots d’un autre. A noter que le contenu traduit d’un autre site n’est pas considéré comme du contenu dupliqué.
Google définit ainsi le contenu en double : ‘’On entend généralement des blocs de contenu importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques ou sensiblement similaires. À l’origine, la plupart de ces contenus ne sont pas malveillants.’’
Ce phénomène de duplication concerne tout site vitrine, site e-commerce, blog, de toute taille.
Il peut présenter plusieurs formes :
- Le contenu dupliqué peut être interne ou externe. Des solutions sont proposées (à retrouver dans le troisième article du dossier).
- Par ailleurs, un contenu peut être soit non intentionnellement, soit délibérément dupliqué. Dans ce dernier cas, il s’agit d’une tromperie. Il y a en effet volonté de manipuler le classement d’un site par les moteurs de recherche ou d’accroître son trafic. Google pénalise ce type de site qui enfreint ses règles.
Le problème des contenus reformulés ou paraphrasés se pose également : est-ce du contenu dupliqué ? Ceci est un autre débat.
Y a-t’il un seuil de tolérance à la triche ?
Il n’existe pas de consensus en matière de seuil de la duplicité.
- Certains estiment que 70% de similarité est le maximum à atteindre (Olivier Andrieu). Au-dessus de ce taux, le contenu peut être considéré comme dupliqué.
- D’autres placent le seuil à 50% de similarité, considérant que sous ces 50 % de duplication les risques de se voir pénaliser par Google sont faibles. Voire inexistants sous 30 %.
- Enfin, les plus pessimistes, avancent que seulement 22,45% de duplication du contenu suffisent pour que la page tombe dans la désindexation.
Par conséquent, si l’on prend pour exemple le seuil de tolérance de 70%, à partir de celui-ci, Google devrait choisir entre votre site et le site copieur.
A qui le contenu dupliqué pose-t’il un problème ?
1- Tout d’abord, vis-à-vis de l’auteur de l’original : il vit une mauvaise expérience.
Par principe, récupérer sans peine le travail d’autrui et sans son accord est injuste et pas très moral. Il est navrant et frustrant pour l’auteur (le vrai) de consacrer du temps en recherche et en vérification d’informations, en rédaction, en corrections, en animation et de voir le fruit de son ouvrage exploité.
Être cité peut bien sûr être encourageant et valorisant. Toutefois, il peut être mal vécu d’être recopié volontairement et intégralement (même avec une modification de l’aspect graphique) ou de retrouver son contenu collé dans un blog bénéficiant de revenus publicitaires .
D’ailleurs, la frontière est ténue entre la duplication, le plagiat, le vol. Distinction que nous aborderons dans un prochain article ‘’Vu ? –Pris !’’.
2- Vis-à-vis des visiteurs d’un site : l’utilisateur vit aussi une mauvaise expérience.
- Le ‘’contenu double’’ dans les résultats de recherche produit de la frustration chez l’utilisateur. Il voit une répétition de contenus identiques alors qu’il recherche le choix.
- Il créé également de la déception. Le visiteur privilégie les contenus uniques et originaux, pertinents (notre article : « Le contenu en mutation »). Sinon, il quitte le site. La conséquence : le taux de rebond de ce dernier augmente.
- Il encourage l’internaute à qualifier le site de « peu fiable ». Ne lui garantissant pas un contenu de qualité, il touche ainsi à la notoriété du site et nuit à son image.
3- Vis-à-vis des moteurs de recherche : ils ne savent plus ou donner de la tête (qu’ils disent).
- Le phénomène oblige le moteur de recherche à crawler et indexer les contenus copiés en plus des originaux. Il l’oblige en outre à choisir entre deux sites : l’original et le copieur. Ce qui au final produit une perte en temps de stockage et en ressources serveurs et n’est pas économique.
- Par ailleurs, le travail d’indexation est perturbé, car les moteurs ne peuvent identifier le site d’origine et celui qui l’a copié. Il leur est compliqué de distinguer la page à ajouter à leur index, laquelle doit profiter des bénéfices SEO et être proposée en résultat dans les SERP.
- Enfin, le référencement du site est compromis. Les moteurs de recherche n’ont pas intérêt à afficher plusieurs fois le même contenu dans leurs résultats de recherche.
En outre, dans le cas de contenu dupliqué interne, le SEO est moins optimisé. Par conséquent, le site est moins efficace puisque :
• en cas d’indexation répétée d’un même contenu, Google risque de passer sur plus de pages que nécessaire,
• en cas de contenu indexé plusieurs fois, Google risque de ne pas afficher le bon contenu dans ses résultats,
• en cas de contenu accessible à plusieurs URL, les utilisateurs souhaitant faire un lien, risquent d’utiliser l’un ou l’autre. Au final, aucun n’aura de fort backlinks.
C’est pourtant le contenu unique provenant d’un contributeur authentique qui assure un positionnement durable et joue sur l’e-réputation de l’entreprise.
Il est donc utile de repérer les risques encourus par l’entreprise ne respectant pas l’éthique rédactionnelle du web et ceux encourus par le site victime de pillage ou de détournement. Nous aborderons ce point dans notre prochain article ‘‘Vu ? Pris !’’.