9 Marzo 2025

Risolvere problemi di indicizzazione e ottimizzazione del Crawling Budget per PrestaShop

Ottimizza l’indicizzazione di PrestaShop gestendo al meglio la navigazione faceted e i moduli di filtri, evitando sprechi di Crawl Budget e migliorando SEO, prestazioni e visibilità.

Prestashop-Pagine-non-indicizzate---Sito-lento

L’indicizzazione di un e-commerce basato su PrestaShop può essere un processo complesso, specialmente quando si utilizzano moduli di ricerca avanzata come “ps_facetedsearch” o soluzioni di terze parti come Amazzing Filter o AS4/5. Uno dei problemi più comuni che emergono in questi contesti è legato alla scansione eccessiva di URL generati dinamicamente dai filtri di navigazione, che possono portare a un consumo inefficiente del Crawl Budget. Questo, a sua volta, può influenzare la rapidità con cui Google indicizza le pagine realmente rilevanti.

In questo articolo analizzeremo nel dettaglio le cause di questi problemi e forniremo una guida completa su come ottimizzare il processo di indicizzazione, migliorando al contempo la gestione del Crawl Budget per un sito basato su PrestaShop con NGINX come web server.

1. Comprendere il problema dell’indicizzazione inefficace

Pagine scansionate ma non indicizzate

Un problema molto frequente che gli amministratori di siti PrestaShop riscontrano è quello relativo alle pagine che vengono scansionate da Googlebot, ma che poi non vengono indicizzate. In Google Search Console, questo fenomeno viene segnalato con il messaggio “Pagina scansionata, ma attualmente non indicizzata”.

Pagina Scansionata ma attualmente non indicizzata

Questa situazione non è necessariamente negativa: Google può ritenere che alcune pagine non siano sufficientemente rilevanti da essere indicizzate nel proprio indice di ricerca. Tuttavia, quando il numero di pagine scansionate inutilmente è molto elevato, si verifica un consumo eccessivo del Crawl Budget, ovvero il quantitativo di risorse che Google destina alla scansione di un sito. Se troppe risorse vengono impiegate per la scansione di pagine di scarsa importanza, ciò può ritardare l’indicizzazione delle pagine fondamentali, come schede prodotto e categorie principali.

Inoltre, una scansione eccessiva può generare un sovraccarico sulle risorse del server, causando rallentamenti e potenziali problemi di performance e di fatto un vero e proprio DoS Denial of Service, ovvero la negazione del servizio. In un contesto e-commerce, dove la velocità di caricamento delle pagine è un fattore critico sia per l’utente che per il posizionamento sui motori di ricerca, questo può avere un impatto negativo sulle vendite e sull’esperienza utente.

Filtri di navigazione e URL dinamici

Un e-commerce strutturato genera un elevato numero di URL grazie ai filtri di navigazione, un sistema noto come faceted search o navigazione faccettata. Questo meccanismo permette agli utenti di affinare la ricerca all’interno di un catalogo utilizzando parametri specifici, come prezzo, marca, colore, disponibilità, taglia, materiale e molte altre caratteristiche. Grazie a questa funzionalità, gli utenti possono trovare rapidamente i prodotti che corrispondono alle loro esigenze, migliorando significativamente l’esperienza di acquisto.

La navigazione faccettata è particolarmente utile per gli e-commerce che offrono un vasto assortimento di prodotti, come negozi di abbigliamento, elettronica o articoli per la casa. In assenza di questa tecnologia, i visitatori dovrebbero sfogliare intere categorie per trovare ciò che cercano, con un conseguente aumento della frustrazione e una riduzione del tasso di conversione.

Moduli come “ps_facetedsearch” su PrestaShop implementano questa tecnologia in modo dinamico, generando automaticamente combinazioni di filtri e aggiornando l’URL per riflettere le selezioni dell’utente. Tuttavia, se questa funzionalità non viene gestita correttamente, può creare problemi di indicizzazione per i motori di ricerca. Ogni volta che un utente applica un filtro, il sistema genera un URL unico che riflette i parametri selezionati.

Per esempio, un utente che sta cercando scarpe rosse della marca Nike, con un prezzo compreso tra 50 e 100 euro, potrebbe ottenere un URL come:

https://www.tuosito.com/categoria/?q=rosso&price=50-100&brand=nike

Sebbene questo approccio sia ottimo per migliorare la navigazione dell’utente, può diventare problematico dal punto di vista SEO. Ogni combinazione di filtri può generare centinaia o migliaia di varianti di URL, creando una proliferazione di pagine che, dal punto di vista di Google, risultano spesso ridondanti o non abbastanza rilevanti per essere indicizzate. Il problema principale è che Googlebot potrebbe dedicare una parte significativa del suo Crawl Budget alla scansione di queste pagine filtrate, senza poi indicizzarle.

Se il sito ha un ampio assortimento di prodotti e molti filtri disponibili, il numero di URL generati può aumentare in modo esponenziale. Questo può portare a una dispersione delle risorse di scansione, impedendo a Google di concentrarsi sulle pagine realmente importanti, come le schede prodotto principali e le categorie essenziali.

Un altro rischio legato alla navigazione faccettata è la duplicazione dei contenuti. Poiché molte delle pagine generate mostrano set di prodotti molto simili tra loro, Google potrebbe considerarle duplicati e assegnare loro una priorità molto bassa, rendendo ancora più difficile la loro indicizzazione.

Per evitare questi problemi, è fondamentale implementare strategie di gestione intelligente delle URL faccettate, attraverso strumenti come robots.txt, meta tag noindex, canonical URL e regole lato server (NGINX o Apache). Solo così si può bilanciare l’esigenza di un’esperienza utente ottimale con una strategia SEO efficace, evitando di sprecare il potenziale di posizionamento del sito.

.

2. Strategie di ottimizzazione dell’indicizzazione

2.1 Aggiornare il modulo di ricerca per aspetti

Se stai utilizzando il modulo “ps_facetedsearch” o un’altra estensione di ricerca avanzata, la prima azione da intraprendere è verificare che il modulo sia aggiornato all’ultima versione disponibile. Gli sviluppatori di PrestaShop e dei moduli di terze parti rilasciano periodicamente aggiornamenti che possono contenere fix per la gestione delle URL dinamiche e miglioramenti relativi all’indicizzazione.

Oltre all’aggiornamento, è utile verificare le impostazioni del modulo per ottimizzare la generazione degli URL e, se possibile, evitare che crei URL inutili o duplicati. Alcuni moduli permettono di personalizzare il comportamento della generazione degli URL, evitando di creare combinazioni ridondanti.

2.2 Rigenerare il file robots.txt

Uno degli strumenti più efficaci per limitare la scansione di pagine inutili è il file robots.txt. Questo file fornisce indicazioni ai crawler dei motori di ricerca su quali pagine devono o non devono essere scansionate.

In PrestaShop, il file robots.txt può essere rigenerato dal pannello di amministrazione: Parametri Avanzati -> Traffico & SEO -> SEO & URLs -> Genera il file robots.txt

PrestaShop Pulizia Cache dei Blocchi

Dopo averlo rigenerato, potrebbe essere necessario aggiungere manualmente alcune direttive per bloccare gli URL con parametri dinamici, come i filtri di ricerca. Un esempio di configurazione utile è il seguente:

User-agent: *
Disallow: /*?q=
Disallow: /*?price=
Disallow: /*?brand=

Queste direttive impediscono ai crawler di Google di scansionare URL con parametri di filtro, riducendo il numero di pagine scansionate inutilmente. Tuttavia, va tenuto presente che Google a volte ignora le regole di robots.txt e continua a scansionare le pagine.

2.3 Ottimizzazione lato server con NGINX

Se il tuo e-commerce utilizza NGINX come web server, puoi intervenire per gestire meglio la scansione e ridurre la pressione sui server. Piuttosto che bloccare completamente l’accesso con un codice di errore, una soluzione più efficace potrebbe essere implementare una regola di riscrittura che reindirizzi gli URL non desiderati verso una versione canonica della pagina.

Esempio:

location ~* \?(q|price|brand)= {
    rewrite ^(.*)$ /$1? permanent;
}

Questa configurazione non blocca gli utenti, ma li indirizza alla versione principale della pagina, riducendo la proliferazione di URL non utili.

3. Analisi del Crawl Budget e monitoraggio

Dopo aver implementato le ottimizzazioni, è importante monitorare l’efficacia degli interventi. Alcuni strumenti utili per questa analisi sono:

  • Google Search Console: nella sezione “Impostazioni > Statistiche di scansione”, è possibile verificare se il numero di URL scansionati si è ridotto.
  • Log di NGINX: analizzando le richieste nei log del server, è possibile individuare quali URL vengono scansionati più spesso da Googlebot.
  • Google Analytics: attraverso i report del traffico bot, è possibile verificare se il comportamento di Googlebot è cambiato dopo l’implementazione delle ottimizzazioni.

4. Conclusioni

Gestire in modo efficace l’indicizzazione di un sito PrestaShop è un aspetto cruciale per massimizzare le performance SEO e migliorare la visibilità sui motori di ricerca. Un’errata configurazione può portare a una dispersione del Crawl Budget, causando una scansione inefficiente da parte di Google e un mancato focus sulle pagine realmente importanti come schede prodotto e categorie principali. L’adozione di strategie mirate, come l’ottimizzazione del file robots.txt, la gestione intelligente degli URL faccettati, l’uso di meta tag noindex quando necessario e la corretta implementazione delle regole di riscrittura su NGINX, permette di controllare la proliferazione degli URL inutili e garantire una scansione più efficace.

Inoltre, la gestione della cache e l’ottimizzazione delle risorse di sistema sono fondamentali per mantenere elevate le prestazioni del sito, evitando rallentamenti dovuti a un database sovraccarico o a richieste superflue al server. Il monitoraggio costante tramite strumenti come Google Search Console, Google Analytics e l’analisi dei log del server consente di identificare eventuali criticità e affinare ulteriormente la strategia di indicizzazione.

Nei nostri servizi di hosting ottimizzati per PrestaShop, teniamo conto di tutte queste peculiarità, fornendo soluzioni avanzate per garantire le migliori performance e un’infrastruttura SEO-friendly. I nostri server sono configurati per gestire in modo efficiente l’indicizzazione, ottimizzare la cache e ridurre il carico di lavoro derivante dalla scansione automatica dei motori di ricerca. Inoltre, offriamo supporto specializzato per aiutarti a implementare le migliori pratiche di configurazione e mantenere il tuo e-commerce sempre performante e competitivo nei risultati di ricerca.

Ottimizzare l’indicizzazione di un e-commerce non è solo una questione di SEO, ma anche di efficienza operativa e user experience. Affidarsi a un hosting progettato per le esigenze specifiche di PrestaShop significa poter contare su un’infrastruttura solida, sicura e capace di adattarsi alle evoluzioni del mercato digitale.

Hai dei dubbi? Non sai da dove iniziare? Contattaci !

Abbiamo tutte le risposte alle tue domande per aiutarti nella giusta scelta.

Chatta con noi

Chatta direttamente con il nostro supporto prevendita.

0256569681

Contattaci telefonicamente negli orari d’ufficio 9:30 – 19:30

Contattaci online

Apri una richiesta direttamente nell’area dei contatti.

INFORMAZIONI

Managed Server S.r.l. è un player italiano di riferimento nel fornire soluzioni avanzate di sistemistica GNU/Linux orientate all’alta performance. Con un modello di sottoscrizione dai costi contenuti e prevedibili, ci assicuriamo che i nostri clienti abbiano accesso a tecnologie avanzate nel campo dell’hosting, server dedicati e servizi cloud. Oltre a questo, offriamo consulenza sistemistica su sistemi Linux e manutenzione specializzata in DBMS, IT Security, Cloud e molto altro. Ci distinguiamo per l’expertise in hosting di primari CMS Open Source come WordPress, WooCommerce, Drupal, Prestashop, Joomla, OpenCart e Magento, affiancato da un servizio di supporto e consulenza di alto livello adatto per la Pubblica Amministrazione, PMI, ed aziende di qualsiasi dimensione.

Red Hat, Inc. detiene i diritti su Red Hat®, RHEL®, RedHat Linux®, e CentOS®; AlmaLinux™ è un marchio di AlmaLinux OS Foundation; Rocky Linux® è un marchio registrato di Rocky Linux Foundation; SUSE® è un marchio registrato di SUSE LLC; Canonical Ltd. detiene i diritti su Ubuntu®; Software in the Public Interest, Inc. detiene i diritti su Debian®; Linus Torvalds detiene i diritti su Linux®; FreeBSD® è un marchio registrato di The FreeBSD Foundation; NetBSD® è un marchio registrato di The NetBSD Foundation; OpenBSD® è un marchio registrato di Theo de Raadt. Oracle Corporation detiene i diritti su Oracle®, MySQL®, e MyRocks®; Percona® è un marchio registrato di Percona LLC; MariaDB® è un marchio registrato di MariaDB Corporation Ab; REDIS® è un marchio registrato di Redis Labs Ltd. F5 Networks, Inc. detiene i diritti su NGINX® e NGINX Plus®; Varnish® è un marchio registrato di Varnish Software AB. Adobe Inc. detiene i diritti su Magento®; PrestaShop® è un marchio registrato di PrestaShop SA; OpenCart® è un marchio registrato di OpenCart Limited. Automattic Inc. detiene i diritti su WordPress®, WooCommerce®, e JetPack®; Open Source Matters, Inc. detiene i diritti su Joomla®; Dries Buytaert detiene i diritti su Drupal®. Amazon Web Services, Inc. detiene i diritti su AWS®; Google LLC detiene i diritti su Google Cloud™ e Chrome™; Microsoft Corporation detiene i diritti su Microsoft®, Azure®, e Internet Explorer®; Mozilla Foundation detiene i diritti su Firefox®. Apache® è un marchio registrato di The Apache Software Foundation; PHP® è un marchio registrato del PHP Group. CloudFlare® è un marchio registrato di Cloudflare, Inc.; NETSCOUT® è un marchio registrato di NETSCOUT Systems Inc.; ElasticSearch®, LogStash®, e Kibana® sono marchi registrati di Elastic N.V. Hetzner Online GmbH detiene i diritti su Hetzner®; OVHcloud è un marchio registrato di OVH Groupe SAS; cPanel®, L.L.C. detiene i diritti su cPanel®; Plesk® è un marchio registrato di Plesk International GmbH; Facebook, Inc. detiene i diritti su Facebook®. Questo sito non è affiliato, sponsorizzato o altrimenti associato a nessuna delle entità sopra menzionate e non rappresenta nessuna di queste entità in alcun modo. Tutti i diritti sui marchi e sui nomi di prodotto menzionati sono di proprietà dei rispettivi detentori di copyright. Ogni altro marchio citato appartiene ai propri registranti. MANAGED SERVER® è un marchio registrato a livello europeo da MANAGED SERVER SRL, Via Enzo Ferrari, 9, 62012 Civitanova Marche (MC), Italia.

Torna in alto