Vi è mai capitato, analizzando le statistiche da Google Analytics di un sito web che seguite, di imbattervi in traffico anomalo, non naturale, associato a domini con nomi strani?
Sto parlando ad esempio di domini come semalt.com, free-share-buttons.com o darodar.com…se anche a voi è capitato di incontrarli sappiate che si tratta di traffico spam, non generato da utenti umani ma da bot (programmi) o sistemi avanzati.
Non è tutto traffico quel che luccica: a volte è spam! A rischio anche voi?
Fenomeno in crescita
Il fenomeno è cominciato nei primi mesi del 2014, per poi crescere ed evolvere nei due anni successivi. Tecnicamente nessun account Google Analytics, senza aver preso le opportune precauzioni, ne è escluso.
Nonostante queste azioni di spam siano, nella loro malignità, democratiche, il traffico di questo tipo risulta più evidente in quei siti web che non generano elevati volumi di visite (incidendo anche un 5% sul totale). Per cui può capitare che analizzando l’andamento complessivo delle visite di questi siti si riscontrino degli incrementi improvvisi di traffico che altro non è che spam!
Come fare riconoscerlo?
Ci sono due modi facili e veloci per accorgersi se si è stati colpiti da questo “attacco”:
1) analizzare il rapporto “Acquisizione -> Referral” e vedere se ci sono accessi da domini strani, che non ci convincono. Spesso il traffico di questo tipo è caratterizzato da frequenza di rimbalzo al 100% o allo 0%, oppure da un tempo medio di permanenza sul sito di 0 secondi o una sola pagina vista per sessione, insomma i tipici valori degli accessi generati da macchine, e non da umani.
Una lista aggiornata di questi domini la potete trovare a questo link (sono diverse decine :( )
2) analizzare il rapporto “Pubblico -> Tecnologia -> Rete -> Nome host” e vedere se oltre al dominio del nostro sito web ce ne sono altri che non riconosciamo.
Qualità dei dati a rischio
Come potete immaginare, la qualità e l’attendibilità delle statistiche viene così compromessa e serve porvi rimedio con urgenza.
Anche l’affidabilità e la reputazione dello stesso strumento di Google è stata fortemente messa in discussione dopo questo attacco; nonostante, a dire il vero, forse ci sia ancora poca consapevolezza del problema, i più esperti dicono che si tratta del peggior attacco alla qualità dei dati di Google Analytics degli ultimi 15 anni.
Di cosa si tratta nello specifico
Prima di dirvi come prendere le giuste precauzioni, devo entrare un po’ più nello specifico del traffico spam e spiegarvi tecnicamente di cosa si tratta.
Di fatto esistono due casi in cui Google Analytics può registrare del traffico spammoso:
- accessi generati da crawler e bot (es. SEMalt) che effettivamente navigano il sito web;
- hit inviate direttamente ai server di Google tramite il nuovo Measurement Protocol (nato con Universal Analytics), senza che vi sia alcun programma che faccia l’accesso al sito; in questo caso si parla di “ghost referrals”. Alcune varianti avanzate di sistemi di spam possono simulare anche sessioni da traffico diretto oppure da google / organic (ad esempio con keywords di accesso “google officially -recommends ilovevitaly.com search shell”) oppure ancora registrare degli eventi.
La differenza tra le due modalità è quindi determinata dal fatto che ci sia un accesso al sito (crawler), oppure no (ghost referrals).
Traffico spam referral: implicazioni che si riflettono su metriche falsate. Bot in azione
Come risolvere il problema?
Vediamo finalmente adesso come porre rimedio a questa criticità e quali precauzioni adottare. Le soluzioni sono diverse e più o meno efficaci e risolutive, quindi occorre trovare il giusto mix!
- Creare dei filtri su Analytics [il metodo più efficace]
La soluzione prevede di creare dei filtri su Google Analytics in modo da escludere il tracciamento del traffico spam.
Il primo filtro da creare è quello di “host”, ovvero un filtro che includa solo il traffico associato all’effettivo nome host del sito web oppure ad altri ritenuti validi e affidabili (ad esempio il dominio utilizzato dai servizi Translate e Cache di Google, googleusercontent.com).
Questo permette di risolvere con buona efficienza il problema dei ghost referrals.
Il secondo filtro da creare è quello che va ad escludere i domini spam referral associati ai bot (quelli della lista condivisa sopra).
In questo caso la difficoltà sta nel fatto che abbiamo un limite di 255 caratteri a disposizione, quindi anche usando un regular expression, occorrerà fare più di un filtro per includerli tutti. Inoltre, cosa non da poco, è necessario aggiornarli ogni volta che ne vengono individuati di nuovi.
- Firewall o blocco a livello di web server [funziona solo in parte]
La configurazione di un firewall a livello di web server oppure di “blocchi” tramite .htaccess funziona solo per i crawler che effettivamente accedono al sito (e quindi sono identificabili e bloccabili), ma sono inefficaci contro i “ghost referrals”.
- Funzionalità “filtro bot” di Google Analytics [comunque consigliato, ma non efficace]
Meno di un anno fa, Google Analytics ha introdotto una funzionalità che permette di “escludere tutti gli hit da bot e spider noti”, accessibile dalle impostazioni vista nel pannello di amministrazione.
Sebbene sia consigliato abilitare questa impostazione, non è risolutiva, almeno non con i bot spam più recenti.
*Tips*
- quando in Google Analytics si creano dei filtri a livello di vista è sempre buona norma avere una vista “clone” in cui non sia presente alcun filtro (così da poter sempre avere un backup del traffico registrato da Google);
- ogniqualvolta si crea o aggiorna un filtro di questo tipo, è bene aggiungere anche una annotazione in Google Analytics della modifica fatta (così da poter risalire facilmente al perché di eventuali variazioni di traffico);
- Simo Ahava ha da poco rilasciato un tool gratuito (“Spam Filter Insertion Tool”) che permette di creare in modo automatico e immediato dei filtri spam direttamente nell’account Google Analytics collegato (già testato e funziona, grazie Simo! ;) );
- è possibile richiedere la rimozione dal database di SEMalt in modo che il suo crawler smetta di scansionare il nostro sito attraverso questo form di richiesta (http://semalt.com/project_crawler.php)
La soluzione da NON adottare
La cosa assolutamente da non fare è ricorrere alla funzionalità “esclusione referral”, disponibile a livello di impostazioni di proprietà di Analytics.
Escludendo infatti i vari domini spam da qua, avremmo come risultato che gli accessi spam non saranno più attribuiti al traffico da referral bensì a quello diretto.
Traffico spam referral cosa fare? Sicuramente non utilizzare funzionalità “esclusione referral”
Rimedio preventivo e soluzione non retroattiva
I metodi che vi ho spiegato sopra aiutano solo ad evitare che i vostri account continuino a registrare traffico spam. Purtroppo, tutti gli accessi “sporchi” che sono stati registrati ce li dobbiamo tenere e non possono essere cancellati (i filtri di Analytics infatti non sono retroattivi).
Di conseguenza, l’unico modo per analizzare le statistiche passate, affette da traffico spam, è quello di creare un segmento avanzato personalizzato nel quale escludere proprio questi accessi e poter quindi ottenere dati “puliti”.
Conclusioni
Se anche voi come me vi siete domandati il perché di queste azioni spammose, penso che in parte le risposte siano da trovarsi proprio nei nomi dei domini degli spam referral.
C’è chi semplicemente ha trovato un modo del tutto originale per farsi promozione (“best seo offer” o “Get Free Traffic Now”), chi vuole offendere (“googlsucks”), chi vuole danneggiare (entrando su alcuni siti si rischia di beccarsi trojan o virus).
La speranza è che il team di Google Analytics trovi un rimedio efficace a tutto questo, che risolva a monte il problema evitando che i suoi utenti/clienti debbano occuparsi di porre delle pezze al suo strumento per ottenere dei dati attendibili.
A mio avviso c’è ancora una scarsa consapevolezza generale di questo attacco e sono inoltre mancate delle comunicazioni ufficiali da parte di Google volte appunto a informare e spiegare come gestire il problema.
Specie se si considera che parliamo di uno strumento utilizzato per la raccolta dati di circa 27 millioni di siti web (dati di BuiltWith).
Quindi, quanti di voi ne erano al corrente? :)
Ciao Giovanni,
il problema nel mio caso è molto frequente e lo sto combattendo da diverso tempo.
Per fortuna che il tuo articolo ho risolto un paio di dubbi che avevo, in primis quello di non utilizzare filtri con esclusione refferal…. dagli effetti pessimi…
Ho solo una domanda sulla corretta impostazione del filtro per eliminare questi “simpatici amichetti” in Analytics.
Ho impostato il filtro su personalizzato
campo filtro: nome host
Pattern filtro: buy-cheap-online.info
E’ corretto?
Grazie mille
Marco
Ciao Marco,
bene, sono contento di averti aiutato! :)
Se fai un filtro personalizzato, in questo caso ti consiglio di usare nel “campo filtro” la dimensione “Sorgente campagna”. In questo modo escludi tutto il traffico referral da quel particolare dominio. Se vuoi escludere più domini, nel campo “pattern filtro” devi usare la pipe ‘|’ tra un dominio e l’altro (ad esempio: “dominio-spam-1.com|dominio-spam-2.com”).
In bocca al lupo! ;)
Grazie Giovanni,
ho impostato il filtro come da te suggerito…speriamo bene.
Un ultimissima domanda.
Ho sentito dire (in un corso base di SEO) che se il sito raggiunge una frequenza di rimbalzo complessiva pari all’88% viene bannato da Google.
Quanto mi è stato detto corrisponde a verità oppure è una leggenda metropolitana?
Ciao Marco,
no direi che è una leggenda metropolitana, anche perché la frequenza di rimbalzo è una metrica facilmente “manovrabile a favore” tramite script, quindi mi stupirebbe che Google si basasse anche su questa come fattore di ranking. ;)
Ciao,
prima di tutto, complimenti per il post.
Ho una domanda relativa ad un caso particolare. Nelle impostazioni di Google Analitycs, a livello della lista di referral ho trovato il dominio stesso per cui si stavano tracciando i dati insieme ai soliti semalt and co. In che modo la presenza del dominio steso può incidere sui dati statistici finali? Rischio che non vengano visualizzate delle sessioni?
Grazie mille e complimenti,
Danilo.
Ciao Danilo,
grazie mille. :)
Spero di non arrivare troppo in ritardo nel risponderti..
Il caso che descrivi viene chiamato “auto-referral” e le cause possono essere diverse. Trovi più informazioni nella guida ufficiale di Google a questo link.
Inoltre, un altro suggerimento è quello di aggiungere il tuo dominio tra le esclusioni dei referral (vedi qua).
Ciao!
Ho anche io questo problema su diversi siti e la prima risorsa italiana trovata siete voi, proprio dopo aver visto proprio oggi le foto della nuova sede, complimenti doppi e in bocca al lupo!
La mia domanda è: i filtri sono retroattivi o “solo” dal momento in cui si mettono non vengono più tracciate queste schifezze? Ossia, è possibile pulire le statistiche passate?
PS Ciao Marco, se leggi, congratulazioni, bello l’hangar studio :)
Ciao Vanny,
intanto grazie per i complimenti e crepi il lupo! ;)
I filtri non sono retroattivi e quindi agiscono solo dal momento in cui li crei. Purtroppo quindi non c’è nessun modo per pulire definitivamente questo traffico, l’unico modo per analizzare dei dati puliti è creare e applicare un segmento per pulire il traffico spam. Puoi crearlo da zero tu oppure aggiungere dalla galleria il segmento “Segment to Eliminate Spam Referrals” e personalizzarlo.