BLOG

Contenuti duplicati: cosa sono e come gestirli lato SEO

Hai mai sentito parlare di contenuti duplicati o di un presunto tema di penalizzazione derivante dalla loro presenza?

Internet è ricco di articoli e discussioni su questo tema, ma le argomentazioni e le conclusioni sono spesso diverse, contrastanti e poco chiare.
In questo articolo vorrei cercare di fare chiarezza e spiegarti come, con alcuni accorgimenti, sia possibile gestire al meglio la presenza di potenziali contenuti duplicati, siano essi interni al sito o esterni (vale a dire duplicati rispetto a contenuti presenti in altri siti/domini).

Vorrei, però, fin da subito, sfatare un mito: non esiste una vera e propria penalizzazione da parte di Google derivante dalla presenza di contenuti duplicati che vada a colpire l’intero sito e la sua indicizzazione (lo afferma Matt Cutts di Google in questo video in cui risponde ad una domanda a tal proposito).
L’unica eccezione è rappresentata dal caso in cui i contenuti sono deliberatamente duplicati tra diversi domini nel tentativo di controllare il posizionamento nei motori di ricerca o acquisire un traffico maggiore. Si tratta, però, davvero di un caso limite quale per esempio quello di un blog che si popola di contenuti in modo automatico tramite un feed RSS e senza alcun tipo di personalizzazione o di siti web composti di soli contenuti copiati integralmente da altri siti.

Generalmente, pur non essendo prevista una penalizzazione, quando ci sono più contenuti identici (o molto simili) in più di un URL su Internet, Google decide, a propria discrezione, quale versione sia quella più rilevante. Ciò può non essere ottimale se, in caso di duplicati interni, la versione scelta da Google non corrisponde con quella che il sito ritiene la più idonea.

Ma, andiamo con ordine: che cosa si intende per contenuti duplicati?
I contenuti duplicati sono blocchi di testo significativi che appaiono in Internet all’interno di più di un URL, che possono appartenere allo stesso sito o anche a siti diversi.

Tipologie di contenuti duplicati

I contenuti duplicati non derivano solo da una volontaria copiatura di testi o di porzioni degli stessi, ma molto spesso anche da cause tecniche legate al funzionamento del CMS o, per gli e-commerce, per motivazioni connesse alla gestione del catalogo prodotti. Quest’ultima tipologie di fattispecie, connessa a tematiche perlopiù di natura tecnica, genera i cosiddetti contenuti duplicati interni.

I contenuti duplicati non derivano solo dalla copiatura di testi, ma anche da cause tecniche legate al CMS o alla gestione del catalogo

Tra le principali casistiche che portano alla generazione di contenuti duplicati, si rilevano le seguenti:

Contenuti duplicati esterni

Contenuti copiati (rispetto a siti terzi)

Si tratta di pagine nelle quali il testo è uguale a quello presente in altri siti (per esempio di fornitori, piuttosto che di competitor).
Tale casistica si riscontra specialmente nelle schede prodotto di e-commerce, contenenti le informazioni tecniche sui prodotti e sulle loro funzioni d’uso.
Non è raro, infatti, il caso di e-commerce che vendono gli stessi prodotti e utilizzano le descrizioni provenienti dai propri fornitori. Ciò porta alla presenza dei medesimi contenuti testuali in numerosi e-commerce.

Contenuti duplicati interni

Presenza di parametri negli URL

I parametri che si vengono a creare negli URL, come ad esempio quelli connessi al monitoraggio dei clic e ad alcuni codici di Google Analytics o altri software di web analytics, possono dar vita a contenuti completamente duplicati (tale problema può essere anche solo dall’ordine in cui gli stessi compaiono nell’URL).

Anche i parametri dell’URL che identificano una specifica sessione dell’utente (i cosiddetti ID di sessione) danno vita ad un problema di contenuti duplicati; si pensi ad esempio ad URL del tipo www.example.com?id=2235 .

HTTP e HTTPS o con-WWW e senza-WWW

Se il tuo sito presenta versioni separate di URL “con www” (ad esempio www.example.com) e “senza www” (example.com) e gli stessi contenuti sono, quindi, presenti su due URL diversi, si tratta anche in tal caso di contenuti duplicati.

La stessa problematica si rileva anche per i siti che mantengono disponibili i contenuti sia nella versione HTTP che in quella HTTPS.
Infatti, se entrambe le versioni di una pagina sono visibili ai motori di ricerca, sorge un problema di contenuti duplicati.

Come individuare i contenuti duplicati

Esistono diversi strumenti per individuare i contenuti duplicati, siano essi interni o esterni al sito. Di seguito puoi trovare alcuni, quelli da me ritenuti più significativi:

La funzione “miglioramenti HTML” di Google Search Console

Tale funzione dello strumento gratuito di Google, infatti, consente di identificare tag title e meta description duplicate, che spesso (non sempre, sia chiaro) sono un segnale utile a identificare la presenza di contenuti duplicati

Siteliner

Siteliner è uno strumento gratuito che ti consente di individuare, tra le altre cose, anche i contenuti duplicati interni al tuo sito (qui puoi trovare il tool se vuoi vedere i risultati inserendo l’URL del tuo sito).

Copyscape

Copyscape è uno strumento di facile utilizzo che ti consente di trovare gratuitamente eventuali copie delle tue pagine web online. Basta, infatti, inserire la singola URL per la quale vuoi che venga svolta l’analisi e premere il tasto “copyscape search” (a questo link puoi trovare lo strumento, se vuoi provarlo).
Copyscape è particolarmente indicato per la ricerca di contenuti duplicati esterni.

Duplicate content checker di SEO Review Tools

Anche questo tool consente, semplicemente inserendo una URL, di verificare la presenza di contenuti duplicati interni o esterni al sito (puoi testarlo a questo link se ti ha incuriosito)
In generale, il consiglio è comunque sempre quello di utilizzare più di uno strumento, così da poter ottenere risultati quanto più completi possibili per la tua ricerca

Come gestire i contenuti duplicati

Le modalità di gestione dei contenuti duplicati variano a seconda delle casistiche: nel caso di contenuti copiati da altri siti la soluzione ottimale è quella di personalizzare i contenuti stessi, mentre nel caso di contenuti duplicati interni al sito è necessario fornire a Google indicazioni su quale pagina sia la più importante e corretta.

Contenuti copiati da siti terzi

Per quel riguarda tale casistica, la soluzione ottimale risiede nel personalizzare quanto più possibile i contenuti testuali rispetto a quelli già presenti online. In tal modo è possibile differenziarsi, offrire contenuti originali e unici (e, pertanto, apprezzati dai motori di ricerca). Ciò consente anche di utilizzare un tono ed uno stile descrittivo che rispecchi l’identità di brand e sia quanto più adatto possibile al proprio pubblico.

Nel caso di contenuti completamente duplicati rispetto alla concorrenza e/o ai fornitori, Google potrebbe tendere a premiare in termini di posizionamento i siti/brand che presentano un maggior livello di notorietà e una migliore situazione in termini di link in entrata (dal momento che quest’ultima risulterebbe essere una delle poche variabili rispetto ai siti competitor), spesso senza dar valore ad un elemento che dimostrerebbe scientificamente chi è l’originale e chi ha copiato: vale a dire la data di pubblicazione” del contenuto.
Questa casistica, tipica delle schede prodotto di e-commerce che vendono prodotti di brand terzi e copiano le descrizioni dai propri fornitori, non è ottimale, in particolare se il proprio sito si trova a competere con grandi player internazionali e/o marchi che godono di più alta notorietà.

Ma cosa si intende per personalizzare?

Con personalizzazione, idealmente si intende la realizzazione di un testo, sulla base del tono e dello stile proprio dell’azienda che scrive il contenuto stesso. Non si tratta, dunque, di una riscrittura con parole diverse di un qualcosa che già esiste (Google potrebbe accorgersene), quanto piuttosto di una vera e propria creazione da zero del contenuto.

Personalizzare non significa riscrivere con parole diverse un testo che già esiste, ma creare da zero il contenuto

Ovviamente la casistica sopra descritta può essere onerosa in termini di tempo, in particolare per e-commerce dotati di migliaia di pagine; nel caso in cui la creazione di testi ad hoc fosse impossibile, una strada potrebbe essere quella di fornire comunque alle stesse elementi distintivi rispetto al resto del Web.
Per esempio nel caso sopra citato di e-commerce dotati di listing molto consistenti, creando dei brevi testi personalizzati da posizionare all’inizio della pagina che fungano da “descrizione breve” dei prodotti e integrando la possibilità di scrivere recensioni da parte degli utenti (le recensioni stesse rappresentano un elemento peculiare e unico, caratterizzante la pagina stessa)

Contenuti copiati da parte di siti terzi

Nel momento in cui pubblichi un contenuto online, esiste anche la possibilità che siano altri siti a copiarti.
In tal caso, talvolta Google capisce che sono altri siti ad aver copiato i tuoi contenuti, ma, purtroppo, ciò non sempre avviene. In quest’ultimo caso la duplicazione dei tuoi contenuti da parte di terzi potrebbe portare a perdita di posizionamenti da parte del tuo sito (magari a favore di siti che ti hanno copia ma possiedono maggiore autorevolezza).

Cosa fare allora?
Le soluzioni in tal caso possono essere due:

  1. In prima istanza contattare il webmaster dei siti informandolo che ti sei accorto che hanno copiato i contenuti del tuo sito web e chiedendo di rimuovere lo stesso
  2. Qualora quanto descritto al punto 1 non portasse alla rimozione del contenuto puoi segnalare tali pagine a Google tramite lo strumento “Rimozione di contenuti da Google” (qui trovi lo strumento, se la cosa ti ha incuriosito).
    Google, dopo aver verificato l’autenticità della tua segnalazione controllando la pagina segnalata, procederà con il rimuoverla dal suo indice web

Contenuti duplicati interni al sito

Se il medesimo contenuto può essere trovato in diversi URL appartenenti allo stesso dominio, si dovrebbe provvedere a fornire ai motori di ricerca indicazioni su quale versione sia quella preferita (la cosiddetta “versione canonica”).

Esistono, a seconda delle casistiche, tre principali modalità per fornire tale indicazione:

  • utilizzando un reindirizzamento 301 all’URL “preferita”
  • inserendo nel codice sorgente il tag “rel = canonical”
  • utilizzando lo strumento di gestione dei parametri in Google Search Console

Nei prossimi paragrafi cercherò di di fornirti qualche suggerimento su quando utilizzare ognuna di queste soluzioni, esaminando le principali e più comuni casistiche.

Reindirizzamento di tipo 301

In molti casi, il modo migliore per risolvere il problema di contenuti duplicati è quello di impostare un reindirizzamento 301 dalla pagina “duplicata” alla pagina ritenuta standard e preferita.

Infatti, quando più pagine uguali vengono combinate in una singola pagina, non solo smetteranno di competere tra loro per il medesimo posizionamento, ma otterranno anche un segnale più forte di pertinenza e unicità.
Ciò aumenta la capacità della pagina “corretta” di posizionarsi al meglio.

Tale soluzione andrebbe applicata in particolar modo nei seguenti casi:

  • il sito web è disponibile sia nella versione “con-www”, sia in quella “senza-www”
  • le medesime pagine sono disponibili sia nel protocollo HTTP, che in quello HTTPS
  • le pagine sono disponibili sia con slash che senza slash alla fine dei rispettivi URL
  • le pagine duplicate che non sono utili in alcun modo nè agli utenti, nè al tracciamento, nè alle funzionalità del sito
  • cambio di dominio o cambio di scrittura degli URL

Tag “rel = canonical”

Un’altra soluzione per risolvere un problema di contenuti duplicati è quella di utilizzare l’attributo “rel = canonical”.
Tale attributo indica ai motori di ricerca che una data pagina deve essere trattata a tutti gli effetti come una copia dell’URL preferito specificato nel tag stesso. Ciò implica che anche tutti i link e il valore in termini di posizionamento che i motori di ricerca applicano a questa pagina dovrebbero, invece, attribuiti alla pagina canonica.

Tale soluzione andrebbe applicata in particolar modo nei seguenti casi:

  • URL contenenti parametri (quali quelli riferiti all’ ID di sessione o al tracciamento) che portano alla creazione di versioni duplicate della medesima pagina
  • URL contenenti parametri relativi all’ordinamento dei listing di prodotti o a filtri che non sono di valore da un punto di vista SEO
  • prodotti collocati in molteplici categorie e che presentano URL diversi (ad esempio www.example.com/categoria-a/prodotto-a e www.example.com/categoria-b/prodotto-a)

Strumento di gestione dei parametri in Google Search Console

Google Search Console consente, mediante la funzione “Parametri URL”, di specificare in che modo Googlebot dovrebbe eseguire la scansione di diversi parametri URL a seconda del parametro stesso.
Si può infatti, alternativamente, indicare a Google la specifica funzione esercitata da ogni singolo parametro nel proprio sito, indicando per esempio se non cambia i contenuti della pagina, semplicemente li ordina, li filtra, numera le pagine, etc

Il principale inconveniente di utilizzare la gestione dei parametri come metodo primario per trattare i contenuti duplicati è che le modifiche apportate funzionano solo per Google, ma non per Bing o altri crawler di motori di ricerca.
Risulta, quindi, sempre ottimale agire anche direttamente a livello di codice sorgente

Come avrai potuto intuire, le casistiche possono essere le più varie e disparate, ma l’approccio da adottare è sempre il medesimo: chiedersi quale tra i contenuti duplicati è quello da noi preferito e segnalarlo, mediante le modalità opportune, ai motori di ricerca.

E tu, hai qualche contenuto duplicato? Ti ricordi di gestirlo lato SEO?

Vuoi avere via mail
anche i prossimi articoli?

  • contenuti pensati solo per la newsletter (oltre agli articoli del blog)
  • cadenza irregolare: quando c'è qualcosa da dire
  • 4.024 iscritti (no, non è dinamico: lo aggiorniamo quando ce ne ricordiamo)

Se ti è piaciuto questo articolo...

regalaci un momento di gloria e condividilo
nei tuoi profili social

Commenti

Lascia un tuo commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *