Duplicate content : que faut il en penser ?


Duplicate content = recopier un contenu déjà publié sur un site ,un blog, ou un document électronique mis sur internet.

Les moteurs de recherche essaient d’éliminer ces pages « doublons » en les filtrant . Lorsque plusieurs pages comportent un contenu identique ou fortement similaire, une seule d’entre elle figurera  dans les résultats. Généralement ce sera le site ou le blog le plus fort qui sera privilégié .

Et ce grâce à un filtre des moteurs de recherche : “ le duplicate content filter” .

Mais en aucun cas , les moteurs de recherche ne vont  pénaliser un site  à cause d’un”duplicate content” .Dans la plupart des cas  , il va ignorer l’article ou le contenu  ,mais attention ,s’ ils trouvent vraiment 2 pages identiques à 100% alors  il y a risque de “sandbox (blacklistage)”) ou perte de page rank (PR) .

Si une petite portion du contenu est originale (c’est ce que l’on appelle des  pages similaires, mais non identiques), alors ces pages figureront toujours dans les résultats de recherche portant sur ce contenu original.

Pour éviter qu’une de vos pages soie considérée « Duplicate Content », retenez que toutes les pages de votre site doivent absolument comporter des balises <Title> et <Description> différentes !

Il existe 3 types de “duplicate content” :

  1. Pages exactement identiques (100%) : par exemple les sites miroirs .La page qui a le plus fort PR(pagerank) sera l’url canonique ( l’adresse officielle ).Google désindexera les autres pages !
  2. Pages similaires, mais comportant des balises <TITLE> et<DESCRIPTION> différentes : ce sera la page du site  qui a le PR (pagerank) le plus élévé qui l’emportera .MAIS les autres pages ne seront pas désindexés et pourront être visibles en cliquant sur « relancer la recherche en incluant les pages ignorées »
  3. Pages différentes, mais comportant les mêmes balises <TITLE> et <DESCRIPTION> en fait posséder les mêmes balises  ne fait qu’aggraver la situation et on se retrouve au cas numéro 2 , voir même elles ne peuvent même pas être indéxé !

Les pages victimes du « Duplicate Content »sont classées en « résultats complémentaires » et ne figurent plus dans les résultats mais elles sont toujours indexées et  peuvent être consultées en cliquant sur la phrase « relancer la recherche en incluant les pages ignorées ».

Les pages classées en « Duplicate Content » ne perdent absolument pas  leurs PageRank sauf s’il y a une redirection sauvage ou une recopie totale de contenu (100% y compris l’en-tête du site et les balises de la page).

Les sites comportant des doublons ne sont pas pénalisés  sauf s’il y a 100% de “duplicate content”.Mais les sites victimes du « Duplicate Content » peuvent perdre des positions dans les résultats de recherche! Car une partie de leurs contenus  sera ignorée par Google(perte de pertinence).Cependant , Google ignore souvent le texte dupliqué et ne conservera que le texte original .

Cependant il arrive que Google ,en constatant deux pages identiques, privilégie le COPIEUR par rapport à l’auteur original du contenu , tout simplement parce que le site ou la page du copieur a un PageRank(PR) plus élevé . C’est à déplorer mais c’est comme cela .

N’autorisez jamais personne à recopier vos articles sans faire la demande express d’ajouter la source de vos articles , en l’occurence  votre URL de votre site .Cela engendra des liens de retours en plus et fera monter votre Page Rank (PR) .

A savoir : Les moteurs de recherche  sont encore loin de pouvoir considérer comme « similaires » des pages avec le même contenu mais diffusées dans des langues différentes.

En clair , si vous prenez un article en anglais et que vous le traduisez en francais , les moteurs ne pourront pas qualifier votre page de “duplicate content” .

Quel est le pourcentage de changement nécessaire pour ne pas se voir sa page qualifié de “duplicate content” ? C’est très difficile à le savoir , certains parlent de 70% d’autres moins .Je pense qu’au travers de différentes lectures , on peut affirmer qu’à partir de 50% , Google est très “gentil” et accepte votre page comme page original .

Previous Sandbox : que veut dire ce terme ?
Next SEO : le maitriser est une clé du succès.

No Comment

Leave a reply

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *