Il est désormais très difficile de produire sur le web un contenu que personne n’a jamais écrit ou traité sous la forme d’un article de blog. C’est pourquoi 20 à 25 % de l’ensemble du contenu textuel sur le web est désormais considéré comme une forme de copie ou de duplication.
Ces doublons ne constituent pas un problème majeur du point de vue du référencement, mais l’erreur est bien plus grave lorsque des sous-pages au contenu identique apparaissent dans une même page.
Pour éviter ces erreurs techniques et se conformer à l’algorithme de Google, il est important de clarifier ce qui est et n’est pas du contenu dupliqué.
Qu’est-ce que la duplication ?
Google définit le contenu dupliqué comme tout texte dans une page qui est presque identique ou identique à un autre texte similaire, mais les deux éléments de contenu sont disponibles à des URL différentes. En d’autres termes, le même contenu ne peut pas apparaître deux fois dans une page Web, car il est considéré comme du contenu et de la copie en double, ce qui peut être extrêmement préjudiciable au référencement d’un site Web.
Toutefois, il est important de souligner qu’un grand nombre de contenus ayant une structure similaire peut perturber les moteurs de recherche. Après tout, ils doivent déterminer laquelle des nombreuses versions identiques est la version originale et laquelle n’est qu’une copie.
Dans ce cas, il arrive souvent que la mauvaise page soit classée pour un mot clé donné, ou tout simplement qu’aucune des pages n’apparaisse dans le moteur de recherche.
Les types de duplication
Le contenu dupliqué peut apparaître dans une myriade d’endroits, de formes et de variations, mais il y a aussi des cas où deux éléments de contenu sont de taille identique mais ne posent pas de problème.
Par exemple, dans le cas d’un site web multilingue, un attribut hreflang peut être utilisé pour indiquer au moteur de recherche quelle est la langue originale et quelle est une copie. Dans ce cas, l’algorithme saura exactement quand et dans quelle langue donner la priorité au terme recherché, mais la situation n’est pas toujours aussi simple.
Descriptions spécifiques des produits
L’erreur de duplication la plus courante concerne principalement les boutiques en ligne et la description des produits qu’elles proposent. En effet, de nombreuses boutiques en ligne ont des difficultés à créer des descriptions de produits personnalisées et utilisent donc un modèle de description fourni par leur fournisseur.
Ces passages de texte ne contiennent souvent pas d’informations essentielles pour le client, il y a de fortes chances que d’autres vendeurs utilisent la même description et, enfin, l’URL unique qui est générée lorsque les paramètres d’un produit changent n’est souvent pas traitée correctement.
Du point de vue du référencement, le dernier élément tend à poser de sérieux problèmes, car la modification des paramètres du produit ne devrait pas affecter les URL, ou si les paramètres de l’URL changent, ils devraient être signalés aux robots.
URL par défaut :
://e comm/pantalon/noir
URL du pantalon jaune :
://e comm/pantalon/noir?jaune#54
URL du pantalon kaki :
://e comm/pantalon/noir?kaki#55
C’est un énorme problème car si, par exemple, un pantalon est disponible en plusieurs couleurs dans la boutique en ligne, mais que chaque jaune a une URL distincte et que la description du produit ne change que dans la mesure où du kaki ou du jaune est utilisé au lieu du noir, cela est considéré comme du contenu dupliqué. La description du produit elle-même est identique à 99 % pour toutes les versions de l’URL.
Pages de catégories
La configuration des pages de catégories est un problème pour de nombreuses boutiques en ligne, car les URL dynamiques qui sont générées après le tri des produits ne sont pas correctement attribuées.
Ainsi, par exemple, si vous triez les produits d’une catégorie par popularité / prix / nom / ou un autre filtre, le contenu de la page ne changera pas réellement, mais seulement l’ordre des produits, et avec lui la structure URL de la catégorie.
URL de la catégorie par défaut :
://e comm/categorie
Filtre décroissant par prix URL :
://e comm/categorie#sort=price-desc
Filtrer par prix croissant URL :
://e comm/categorie#sort=price-asc
En raison d’une configuration inadéquate, ces URL dynamiques en double et leurs combinaisons finiront par se retrouver dans l’index de Google et se feront concurrence pour le même classement de recherche.
HTTP / HTTPS et WWW / WWW sans
De nombreux sites web disposent des deux versions de leur contenu, qu’il s’agisse d’une version HTTP ou d’un nom de domaine avec un préfixe WWW.
http://www.e comm
http://e comm
https://e comm
https://www.e comm
Dans ce cas, toutes les pages et entrées qui ne sont pas redirigées par une redirection 301 vers la page de destination appropriée sont dupliquées. Par exemple, la page principale et les articles de blog individuels sont accessibles à la fois sous le protocole HTTP et HTTPS, ce qui est extrêmement préjudiciable du point de vue du référencement et peut également avoir un impact majeur sur le classement organique du site à long terme.
Toutefois, il est également possible que les liens externes vers le site ne soient pas concentrés en un seul point, de sorte que la force des liens du site web est répartie et diluée. Il y a des backlinks qui pointent vers la version WWW, et il y a des backlinks qui pointent vers la version non-WWW, c’est-à-dire que les deux sites ne se renforcent pas mutuellement.
Il est également utile d’examiner la version imprimable du site Web, car des doublons peuvent également s’y trouver. Si les deux versions sont situées sous des URL différentes (par exemple : https://e comm/site et https://e comm/print/site), vous devez absolument placer une balise noindex ou canonical sur les pages adaptées à l’impression, afin de respecter les règles de référencement.
Astuce : faire un test un site de redirection pour voir comment est redirigé votre page
Gestion du contenu dupliqué
Contenu personnalisé
La meilleure façon d’éviter les doublons est de toujours s’efforcer de produire un contenu unique. Il est donc utile d’optimiser les pages de produits pour inclure une description unique pour chaque sous-page. En outre, il est judicieux de demander des commentaires et des avis aux clients afin d’améliorer le contenu de la page et de la démarquer des autres produits similaires.
Balise canonique
La balise canonique ou canonical tag est typiquement conçue pour gérer le contenu dupliqué. Cet attribut est utilisé pour préciser laquelle des nombreuses versions identiques est la version originale. Les robots n’indexeront alors que la seule page marquée comme la variante préférée, et les autres seront classées en dessous et supprimées des résultats.
La page la plus forte de toutes, c’est-à-dire celle qui a le plus de liens externes pointant vers elle, doit toujours être choisie comme URL canonique. S’il n’y a pas de backlinks pointant vers l’une des pages, il est conseillé de choisir la version la mieux convertie ou la plus populaire.
Attribut Noindex
Les pages dupliquées qui ont été générées automatiquement par accident et qui ne contiennent aucune information pertinente pour les visiteurs du site doivent être marquées d’un attribut noindex afin que Google n’en tienne pas compte dans son classement.
Quelques autres points
Google ne cherche donc pas à classer plus bas les pages où il trouve du contenu dupliqué, mais s’il n’est pas précisé quelle est la version préférée, l’algorithme la sélectionnera. C’est pourquoi il est recommandé de placer des balises canoniques pour toutes les pages dont les éléments de contenu peuvent apparaître dans plus d’une version.
En outre, il est également utile de prêter attention à la structure des paramètres de suivi des URL dans le marketing en ligne afin d’utiliser » # » au lieu de » ? « . En effet, « # » empêche l’exploration et l’indexation des URL par les robots.