J'ai récemment rencontré un test de référencement qui a tenté de vérifier si le ratio de compression affecte les classements. Il semble qu'il y en ait peut-être qui croient que des ratios de compression plus élevés sont en corrélation avec les classements inférieurs. Comprendre la compressibilité dans le contexte du référencement nécessite de lire à la fois la source d'origine sur les ratios de compression et le document de recherche lui-même avant de tirer des conclusions pour savoir s'il s'agit ou non d'un mythe SEO.
Pages Web de compression des moteurs de recherche
La compressibilité, dans le contexte des moteurs de recherche, fait référence à la quantité de pages Web peut être compressée. Le rétrécissement d'un document dans un fichier zip est un exemple de compression. Les moteurs de recherche compressent les pages Web indexées car il économise de l'espace et entraîne un traitement plus rapide. C'est quelque chose que tous les moteurs de recherche font.
Sites Web et fournisseurs d'hôtes compressent les pages Web
La compression des pages Web est une bonne chose car elle aide à rechercher des robots de robots en cours d'exécution, ce qui envoie à son tour le signal à Googlebot qu'il ne va pas analyser le serveur et il est normal de saisir encore plus de pages pour l'indexation.
La compression accélère les sites Web, offrant aux visiteurs du site une expérience utilisateur de haute qualité. La plupart des hôtes Web permettent automatiquement la compression car il est bon pour les sites Web, les visiteurs du site et également bon pour les hôtes Web, car il enregistre les charges de bande passante. Tout le monde gagne avec la compression du site Web.
Des niveaux élevés de compression sont en corrélation avec le spam
Des chercheurs d'un moteur de recherche ont découvert que des pages Web hautement compressibles étaient en corrélation avec un contenu de faible qualité. L'étude a appelé Spam, putain de spam et statistiques: utiliser une analyse statistique pour localiser les pages Web de spam (PDF) a été réalisé en 2006 par deux des principaux chercheurs du monde, Marc Najork et Dennis Fetterly.
Najork travaille actuellement chez DeepMind en tant que chercheur distingué. Fetterly, ingénieur logiciel chez Google, est un auteur de nombreux articles de recherche importants liés à la recherche, à l'analyse de contenu et à d'autres sujets connexes. Ce document de recherche n'est pas n'importe quel document de recherche, il est important.
Ce que le document de recherche montre, c'est que 70% des pages Web qui se compressent à un niveau de 4,0 ou plus avaient tendance à être des pages de faible qualité avec un haut niveau d'utilisation des mots redondants. Le niveau de compression moyen des sites était d'environ 2,0.
Voici les moyennes des pages Web normales répertoriées par le document de recherche:
- Ratio de compression de 2,0:
Le rapport de compression le plus fréquente dans l'ensemble de données est de 2,0. - Ratio de compression de 2,1:
La moitié des pages ont un rapport de compression inférieur à 2,1 et la moitié ont un rapport de compression au-dessus. - Ratio de compression de 2,11:
En moyenne, le rapport de compression des pages analysées est de 2,11.
Ce serait un moyen de premier passage facile de filtrer le spam de contenu évident, il est donc logique qu'ils fassent cela pour éliminer le spam de contenu lourd. Mais le spam désherbant est plus compliqué que des solutions simples. Les moteurs de recherche utilisent plusieurs signaux car il se traduit par un niveau de précision plus élevé.
Les chercheurs ont indiqué que 70% des sites avec un niveau de compression de 4,0 ou plus étaient du spam. Cela signifie que les 30% autres n'étaient pas des sites de spam. Il y a toujours des valeurs aberrantes dans les statistiques et que 30% des sites non-spam expliquent pourquoi les moteurs de recherche ont tendance à utiliser plus d'un signal.
Les moteurs de recherche utilisent-ils la compressibilité?
Il est raisonnable de supposer que les moteurs de recherche utilisent la compressibilité pour identifier le spam évident à main lourde. Mais il est également raisonnable de supposer que si les moteurs de recherche l'utilisent, ils l'utilisent avec d'autres signaux afin d'augmenter la précision des mesures. Personne ne sait avec certitude si Google utilise la compressibilité.
Existe-t-il la preuve que la compression est un mythe SEO?
Certains SEO ont publié des recherches analysant le classement de milliers de sites pour des centaines de mots clés. Ils ont constaté que les sites de classement supérieur et classés inférieurs avaient un rapport de compression qui était essentiellement le même que le rapport de compression 2,11 que les chercheurs de 2006 ont découvert comme étant dans la gamme de normale.
Les SEO ont affirmé que les résultats prouvent que le ratio de compression est un mythe SEO. Bien sûr, cette affirmation est loin d'être correcte et voici deux raisons pour lesquelles.
1. Le taux de compression moyen des sites normaux en 2006 était de 2,11, ce qui signifie que la moyenne qu'ils ont découverte se situe bien dans la plage de sites Web normaux non SPAM, que l'on s'attendrait à voir dans les résultats de la recherche. N'oubliez pas que si un site est spam, il est censé être bloqué contre l'indexation.
2. Si nous supposons que Google utilise la compressibilité, un site devrait produire un rapport de compression de 4,0, plus d'envoyer d'autres signaux de faible qualité, pour déclencher une action algorithmique. Si cela se produisait, ces sites ne seraient pas du tout dans les résultats de recherche parce qu'ils ne seraient pas dans l'index et donc il n'y a aucun moyen de tester cela avec les SERP, non?
Il serait raisonnable de supposer que les sites avec des rapports de compression élevés de 4,0 ont été retirés. Mais nous ne le faisons pas savoir Ce n'est pas une certitude. Nous ne pouvons donc pas prouver qu'ils ont été supprimés.
La seule chose que nous savons, c'est qu'il y a ce document de recherche qui est rédigé par des scientifiques distingués.
La compressibilité est-elle un mythe SEO?
La compressibilité n'est peut-être pas un mythe SEO. Mais ce n'est probablement rien que les éditeurs ou les SEO devraient s'inquiéter tant qu'ils évitent les tactiques lourdes comme la farce des mots clés ou les pages de coupe-biscuits répétitives.
Google utilise la déshallon qui supprime les pages en double de leur index et consolide les signaux PageRank sur la page qu'ils choisissent d'être la page canonique (s'ils en choisissent un). La publication des pages en double ne déclenchera probablement aucun type de pénalité, y compris tout ce qui concerne les ratios de compression, car, comme cela a déjà été mentionné, les moteurs de recherche n'utilisent pas de signaux isolément.

