Googleusercontent.com : nouveau domaine, nouveaux problèmes
Depuis deux jours, un changement passé presque inaperçu dans les serp a eu lieu. Auparavant, quand on visualisait une page du cache de Google, le host qui nous permettait de visualiser le page en cache était une adresse ip. Aucun nom de domaine n’était associé (http://209.85.229.132/search). J’ai toujours trouvé cela un peu amateur et brouillon dela part de Google et j’avais supposé qu’il devait y avoir une bonne raison (soulager les serveurs DNS ?). Depuis deux jours cela a changé. Désormais l’url de cache a un vrai nom de domaine http://webcache.googleusercontent.com/search
Googleusercontent.com ou comment Google s’auto-spamme?
Avec un petit Whois, on apprend que ce domaine est enregistré depuis seulement 2008 et appartient logiquement à Google. A en croire l‘index de Yahoo, ce domaine est principalement utilisé pour héberger des PDF. Etrangement, beaucoup de ces pdf ne se retrouvent pas dans Google. Regardons de plus près ce que Google connaît de ce nouveau domaine. Faisons un simple site:googleusercontent.com
Et nous apercevons plein de résultats de recherches indéxés ! Or, Google précise bien qu’il faut faire désindexer ces résultats de recherche en utilisant le robots.txt. Google est donc, encore une fois, pris en plein flagrant délit d’auto-spam.
Désormais, le robots.txt semble comprendre cette interdiction désormais, mais il reste encore beaucoup de mauvaises pages : des pages de résultats, des vraies pages de cache. Oui, on peut même voir le cache de pages de cache. Voila un amateurisme qui ne m’étonne pas vraiment. Google aurait besoin de conseils SEO parfois
Des conséquences sur Analytics
Plus grave et plus intéressant, ces changements de domaine ont un impact sur les données Analytics. Auparavant, les visites en provenance du cache de Google était marquées comme venant d’un lien référent . Désormais, les pages en cache sont considérées comme venant de Google ! C’est plus logique mais ça booste légèrement les stats (environ 0.2% pour mon principal site). Le plus énervant, c’est surtout de retrouver désormais dans les keywords des mots-clés commençant par cache:-i2chypzkq4j:www . Les vrais mots-clés se situent après votre url; il y a donc moyen de les récupérer avec un filtre avancé ou avec un script javascript installé sur vos pages. Mais, pour cela, je ferai un autre post !
20 mai 2010 - 17:52
C’est là qu’on voit clairement la limite de google et le manque de communication entre les services , frnachement les gars de Analytics devrait etre au courant de ça et le prévoir dans leur soft avant que google ne fasse la modif en live , histoire de faire clean, même chose pour le cache du cache, ca doit etre 2 services qui ne se sont pas parlé …
3 juillet 2010 - 10:43
Bonjour
depuis deux jours je vois dans mes pages de stats de fréquentation apparaître que des internautes sont venues sur mon site à partir de la page:
http://webcache.googleusercontent.com/search
Que signifie cette bizarrerie ??? Merci de vos explications…
P.
3 juillet 2010 - 11:42
En fait, comme je l’explique dans l’article, cela veut dire que vos visiteurs sont venus à partir du cache de google. Cette page-ci, par exemple : http://webcache.googleusercontent.com/search?q=cache:ZdYjHMH4dP4J:www.chacunsatribu.com/+chacun+sa+tribu&cd=1&hl=fr&ct=clnk&gl=fr
3 juillet 2010 - 15:09
Oui, mais qu’est-ce qui peut bien conduire des visiteurs dans le cache de Google ??
8 août 2010 - 22:29
> Oui, mais qu’est-ce qui peut bien conduire des visiteurs dans le cache de Google ??
Ils ont fait une recherche, cliqué sur « En cache », suivi un lien sur la page en cache.
Tout simplement.