12 Luglio 2022

robots.txt – Gli errori più comuni e come evitarli

Il file robots.txt indica ai motori di ricerca come eseguire la scansione del tuo sito. In questo articolo spieghiamo gli errori più comuni e come evitarli.

Ogni webmaster sa che ci sono alcuni aspetti di un sito web di cui non vuoi eseguire la scansione o l’indicizzazione. Il file robots.txt ti dà l’opportunità di specificare queste sezioni e trasmetterle ai crawler dei motori di ricerca. In questo articolo, mostreremo gli errori comuni che possono verificarsi durante la creazione di un file robots.txt, come evitarli e come monitorare il tuo file robots.txt.

Ci sono molte ragioni per cui gli operatori di siti Web potrebbero voler escludere determinate parti di un sito Web dall’indice dei motori di ricerca, ad esempio se le pagine sono nascoste dietro un accesso, sono archiviate o se si desidera testare le pagine di un sito Web prima che vengano pubblicate. “A Standard for Robot Exclusion” è stato pubblicato nel 1994 per renderlo possibile. Questo protocollo stabilisce le linee guida che prima di iniziare la scansione, il crawler del motore di ricerca dovrebbe prima cercare il file robots.txt nella directory principale e leggere le istruzioni nel file.

Durante la creazione del file robots.txt possono verificarsi molti possibili errori, ad esempio errori di sintassi se un’istruzione non è scritta correttamente o errori derivanti dal blocco involontario di una directory.

Ecco alcuni degli errori robots.txt più comuni:

Errore n. 1: utilizzo di sintassi errata

robots.txt è un semplice file di testo e può essere facilmente creato utilizzando un editor di testo. Una voce nel file robots.txt è sempre composta da due parti: la prima parte specifica l’interprete a cui applicare l’istruzione (es. Googlebot), e la seconda parte contiene comandi, come “Disallow”, e contiene un elenco di tutte le sottopagine di cui non è necessario eseguire la scansione. Affinché le istruzioni nel file robots.txt abbiano effetto, è necessario utilizzare la sintassi corretta come mostrato di seguito.

 

User-agent: Googlebot 
Disallow: /example_directory/

 

Nell’esempio precedente, al crawler di Google è vietato eseguire la scansione della /example_directory/. Se vuoi che questo si applichi a tutti i crawler, dovresti utilizzare il seguente codice nel tuo file robots.txt:

 

User-agent: * 
Disallow: /directory_esempio/

 

L’asterisco (noto anche come jolly) funge da variabile per tutti i crawler. Allo stesso modo, puoi utilizzare una barra (/) per impedire l’indicizzazione dell’intero sito Web (ad esempio per una versione di prova prima di metterlo online in produzione ).

 

User-agent: * 
Disallow: /

 

Errore n. 2: blocco dei componenti del percorso anziché di una directory (dimenticando “/”)

Quando si esclude una directory dalle ricerche per indicizzazione, ricordarsi sempre di aggiungere la barra alla fine del nome della directory. Per esempio,

Disallow: /directory non solo blocca /directory/, ma anche /directory-one.html

Se si desidera escludere più pagine dall’indicizzazione, è necessario aggiungere ciascuna directory in una riga diversa. L’aggiunta di più percorsi nella stessa riga di solito porta a errori indesiderati.

 

User-agent: googlebot 
Disallow: /example-directory/ 
Disallow: /example-directory-2/ 
Disallow: /example-file.html

robots txt valori

Errore n. 3: blocco involontario delle directory

Prima che il file robots.txt venga caricato nella directory principale del sito web, dovresti sempre controllare se la sua sintassi è corretta. Anche il più piccolo errore potrebbe comportare che il crawler ignori le istruzioni nel file e porti alla scansione di pagine che non dovrebbero essere indicizzate. Assicurati sempre che le directory che non devono essere indicizzate siano elencate dopo il comando Disallow:.

Anche nei casi in cui la struttura della pagina del tuo sito web cambia, ad esempio a causa di un restyle, dovresti sempre controllare se nel file robots.txt sono presenti errori.

Errore n. 4 – Non si salva il file robots.txt nella directory principale

L’errore più comune associato al file robots.txt non riesce a salvare il file nella directory principale del sito web. Le sottodirectory vengono generalmente ignorate poiché gli interpreti cercano solo il file robots.txt nella directory principale.

L’URL corretto per il file robots.txt di un sito web deve avere il seguente formato:

 

http://www.your-website.com/robots.txt

 

Errore n. 5: non consentire le pagine con un reindirizzamento

Se le pagine bloccate nel tuo file robots.txt hanno reindirizzamenti ad altre pagine, il crawler potrebbe non riconoscere i reindirizzamenti. Nella peggiore delle ipotesi, ciò potrebbe far sì che la pagina venga ancora visualizzata nei risultati di ricerca ma con un URL errato. Inoltre, anche i dati di Google Analytics per il tuo progetto potrebbero essere errati.

Suggerimento: robots.txt rispetto a noindex

È importante notare che l’esclusione delle pagine nel file robots.txt non implica necessariamente che le pagine non vengano indicizzate. Ad esempio, se un URL escluso dalla scansione nel file robots.txt è collegato a una pagina esterna. Il file robots.txt ti dà semplicemente il controllo sull’agente utente. Tuttavia, al posto della Meta description appare spesso quanto segue poiché al bot è vietato eseguire la scansione:

“Una descrizione per questo risultato non è disponibile a causa del file robots.txt di questo sito.”

Figura 4: Esempio di snippet di una pagina bloccata utilizzando il file robots.txt ma ancora indicizzata

Come puoi vedere, è sufficiente un solo link nella rispettiva pagina per far sì che la pagina venga indicizzata, anche se l’URL è impostato su “Disallow” nel file robots.txt. Allo stesso modo, l’utilizzo del tag <noindex> può, in questo caso, non impedire l’indicizzazione poiché il crawler non è mai riuscito a leggere questa parte del codice a causa del comando disallow nel file robots.txt.

Per impedire la visualizzazione di determinati URL nell’indice di Google, dovresti utilizzare il tag <noindex>, ma consentire comunque al crawler di accedere a questa directory.

Conclusioni

Abbiamo visto ed esaminato molto velocemente quelli che sono i principali errori del file robots.txt che in alcuni casi può compromettere in modo molto significativo la visibilità ed il posizionamento del tuo sito web, arrivando nei casi più gravi fino alla totale eliminazione della SERP.

Se stai pensando di non avere problemi di questo tipo con il file robots.txt perchè conosci bene il suo funzionamento e non faresti mai azioni improvvisate, devi sapere che a volte gli errori nel file robots.txt sono frutto di sviste nella configurazione di CMS come WordPress o anche attacchi malware o azioni di sabotaggio mirate a far perdere indicizzazione e posizionamento al tuo sito.

Il miglior consiglio che possiamo darti è quello di tenere monitorato costantemente il file robots.txt almeno con cadenza settimanale e verificarne la corretta sintassi ed il corretto funzionamento quando avverti dei segnali di allarme come un calo improvviso del traffico o la presenza sulla SERP dei motori di ricerca.

Hai dei dubbi? Non sai da dove iniziare? Contattaci !

Abbiamo tutte le risposte alle tue domande per aiutarti nella giusta scelta.

Chatta con noi

Chatta direttamente con il nostro supporto prevendita.

0256569681

Contattaci telefonicamente negli orari d’ufficio 9:30 – 19:30

Contattaci online

Apri una richiesta direttamente nell’area dei contatti.

INFORMAZIONI

Managed Server S.r.l. è un player italiano di riferimento nel fornire soluzioni avanzate di sistemistica GNU/Linux orientate all’alta performance. Con un modello di sottoscrizione dai costi contenuti e prevedibili, ci assicuriamo che i nostri clienti abbiano accesso a tecnologie avanzate nel campo dell’hosting, server dedicati e servizi cloud. Oltre a questo, offriamo consulenza sistemistica su sistemi Linux e manutenzione specializzata in DBMS, IT Security, Cloud e molto altro. Ci distinguiamo per l’expertise in hosting di primari CMS Open Source come WordPress, WooCommerce, Drupal, Prestashop, Joomla, OpenCart e Magento, affiancato da un servizio di supporto e consulenza di alto livello adatto per la Pubblica Amministrazione, PMI, ed aziende di qualsiasi dimensione.

Red Hat, Inc. detiene i diritti su Red Hat®, RHEL®, RedHat Linux®, e CentOS®; AlmaLinux™ è un marchio di AlmaLinux OS Foundation; Rocky Linux® è un marchio registrato di Rocky Linux Foundation; SUSE® è un marchio registrato di SUSE LLC; Canonical Ltd. detiene i diritti su Ubuntu®; Software in the Public Interest, Inc. detiene i diritti su Debian®; Linus Torvalds detiene i diritti su Linux®; FreeBSD® è un marchio registrato di The FreeBSD Foundation; NetBSD® è un marchio registrato di The NetBSD Foundation; OpenBSD® è un marchio registrato di Theo de Raadt. Oracle Corporation detiene i diritti su Oracle®, MySQL®, e MyRocks®; Percona® è un marchio registrato di Percona LLC; MariaDB® è un marchio registrato di MariaDB Corporation Ab; REDIS® è un marchio registrato di Redis Labs Ltd. F5 Networks, Inc. detiene i diritti su NGINX® e NGINX Plus®; Varnish® è un marchio registrato di Varnish Software AB. Adobe Inc. detiene i diritti su Magento®; PrestaShop® è un marchio registrato di PrestaShop SA; OpenCart® è un marchio registrato di OpenCart Limited. Automattic Inc. detiene i diritti su WordPress®, WooCommerce®, e JetPack®; Open Source Matters, Inc. detiene i diritti su Joomla®; Dries Buytaert detiene i diritti su Drupal®. Amazon Web Services, Inc. detiene i diritti su AWS®; Google LLC detiene i diritti su Google Cloud™ e Chrome™; Facebook, Inc. detiene i diritti su Facebook®; Microsoft Corporation detiene i diritti su Microsoft®, Azure®, e Internet Explorer®; Mozilla Foundation detiene i diritti su Firefox®. Apache® è un marchio registrato di The Apache Software Foundation; PHP® è un marchio registrato del PHP Group. CloudFlare® è un marchio registrato di Cloudflare, Inc.; NETSCOUT® è un marchio registrato di NETSCOUT Systems Inc.; ElasticSearch®, LogStash®, e Kibana® sono marchi registrati di Elastic N.V. Questo sito non è affiliato, sponsorizzato, o altrimenti associato a nessuna delle entità sopra menzionate e non rappresenta nessuna di queste entità in alcun modo. Tutti i diritti sui marchi e sui nomi di prodotto menzionati sono di proprietà dei rispettivi detentori di copyright. Ogni altro marchio citato appartiene ai propri registranti. MANAGED SERVER® è un marchio registrato a livello Europeo da MANAGED SERVER SRL Via Enzo Ferrari, 9 62012 Civitanova Marche (MC) Italia.

SOLO UN ATTIMO !

Vorresti vedere come gira il tuo WooCommerce sui nostri sistemi senza dover migrare nulla ? 

Inserisci l'indirizzo del tuo sito WooCommerce e otterrai una dimostrazione navigabile, senza dover fare assolutamente nulla e completamente gratis.

No grazie, i miei clienti preferiscono il sito lento.
Torna in alto