Crawling budget ed ottimizzazione del Crawling Budget

Indice dei contenuti dell'articolo:

Il Crawl Budget o Crawling Budget è un termine spesso frainteso in SEO e marketing digitale. Ciò deriva in gran parte dalla mancanza di comprensione di come funzionano i motori di ricerca.

Attualmente ci sono circa un trilione di pagine sul World Wide Web. Organizzare quelle pagine e valutarne il valore relativo è uno dei compiti più impegnativi che i motori di ricerca devono affrontare.

È un problema per i proprietari di siti Web quando Googlebot non esegue la scansione di tutte le pagine del loro sito Web. Quando ciò accade, di solito è a causa di uno dei due motivi:

Google ha risorse limitate e quindi ha sviluppato meccanismi per filtrare le pagine di bassa qualità e lo spam.
Google spesso limita il numero di pagine di cui eseguirà la scansione in modo che il tuo server non si arresti in modo anomalo.

Quindi, se Google spende le sue risorse cercando di eseguire la scansione di ogni pagina del tuo sito Web, comprese quelle di bassa qualità, le tue pagine più preziose potrebbero non essere scansionate. Ecco perché è necessario ottimizzare il tuo crawl budget .

In questo articolo, tratteremo i fondamenti dell’ottimizzazione del crawl budget e affronteremo i problemi comuni che i proprietari di siti Web riscontrano quando rendono le loro pagine più scansionabili.

Che cos’è il crawl budget o budget di scansione?

Un crawl budget è il numero predeterminato di richieste che un crawler eseguirà su un sito Web entro un determinato periodo.

Questo numero indica quante e quali pagine Googlebot eseguirà la scansione del tuo sito web.

Il crawl budget è determinato interamente dal motore di ricerca. Una volta esaurito il budget, il web crawler interrompe automaticamente l’accesso ai contenuti del tuo sito e passa al sito Web successivo.

Il motivo per l’assegnazione dei budget di scansione ai siti Web è che i motori di ricerca come Google possono eseguire la scansione di un numero limitato di pagine Web. Per occuparsi accuratamente dei milioni di siti Web su Internet, Google divide le sue risorse tra di loro nel modo più equo possibile. Il budget di scansione di ogni sito Web è diverso e dipende da diversi fattori:

Dimensioni del sito Web: i siti Web più grandi vengono generalmente assegnati con budget di scansione maggiori.
Configurazione del server e prestazioni del sito: durante l’allocazione del budget di ricerca per indicizzazione vengono presi in considerazione anche i tempi di caricamento del server e le prestazioni del sito.
Collegamenti sul tuo sito: le strutture di collegamento interne svolgono un ruolo fondamentale e i collegamenti morti o le catene di reindirizzamento possono esaurire il budget di scansione.
Frequenza degli aggiornamenti dei contenuti sul tuo sito: Google dedica più tempo alla scansione dei siti con aggiornamenti regolari dei contenuti.

L’importanza del Crawl Budget per la SEO

La gestione del budget di scansione non è così cruciale per i siti Web relativamente piccoli con poche pagine, ma diventa un problema per quelli di dimensioni moderate o più grandi.

La SEO implica apportare molte piccole modifiche ma collettivamente significative che influiscono sulla crescita del tuo sito web nel tempo, piuttosto che apportare grandi modifiche per ottenere risultati rapidi. Il tuo lavoro come professionista SEO o amministratore web è ottimizzare migliaia di piccole cose il più possibile.

I motori di ricerca hanno risorse limitate e non possono eseguire la scansione e indicizzare ogni pagina Web che trovano su un Internet enorme e in continua evoluzione. Questo è il motivo per cui il crawl budget diventa così importante, soprattutto per i siti Web più grandi con molte pagine.

Sebbene la scansione sia meno importante per i webmaster con siti più piccoli, anche un sito web che a prima vista sembra piccolo può contenere migliaia di URL. La navigazione sfaccettata o faceted o tendenzialmente per attributi e tassonomie, comune in molti negozi online e siti Web di e-commerce, può convertire facilmente 100 pagine in 10.000 URL univoci, il che può diventare un problema durante la scansione e l’indicizzazione. Inoltre, la presenza di bug nel CMS può produrre risultati indesiderati.

Per le migliori pratiche SEO è generalmente consigliato che tutti i webmaster valutino il crawl budget del proprio sito Web, indipendentemente dalle sue dimensioni o struttura.

Comprendere il processo di scansione

Capire cos’è un crawl budget e perché è importante è una cosa, ma i proprietari di siti web e i team SEO devono anche capire come Google esegue la scansione dei siti web .

Come funzionano i motori di ricerca

I motori di ricerca come Google utilizzano tre processi di base per catalogare le pagine Web: scansione, indicizzazione e posizionamento.

Scansione: ricerca di informazioni

I crawler dei motori di ricerca iniziano visitando i siti Web dal loro elenco di indirizzi Web ottenuto da scansioni precedenti e mappe dei siti, fornito da vari webmaster tramite strumenti come Google Search Console. I crawler utilizzano quindi i collegamenti sui siti per scoprire altre pagine.

Indicizzazione: organizzazione delle informazioni

Successivamente, i crawler organizzano le pagine visitate indicizzandole . Il web è essenzialmente una gigantesca libreria che cresce ogni minuto senza alcun sistema di archiviazione centrale. I motori di ricerca visualizzano il contenuto della pagina e cercano segnali chiave che indichino di cosa tratta la pagina web (ad es. parole chiave). Usano queste informazioni per indicizzare la pagina.

Classifica: Informazioni sul servizio

Una volta che una pagina Web è stata scansionata e indicizzata, i motori di ricerca forniscono i risultati delle query degli utenti in base all’algoritmo di classificazione con le pagine indicizzate.

I dettagli della scansione

Gary Illyes, Webmaster Trends Analyst di Google, ci ha fornito un quadro più chiaro del processo di scansione di Googlebot in un post del blog del 2017 . Secondo lui, il crawl budget si basa principalmente su due componenti: il limite della velocità di scansione e la domanda di scansione

Limite di velocità di scansione

Un limite di velocità di scansione si riferisce alla frequenza con cui viene eseguita la scansione del tuo sito web.

La scansione consuma le risorse del server e i limiti di larghezza di banda assegnati al sito dal suo host. Questo è il motivo per cui i motori di ricerca come Google dispongono di sistemi per determinare la frequenza con cui visita i siti Web, in modo che il sito possa essere scansionato in modo sostenibile.

Ciò significa che esiste un limite al numero di volte in cui verrà eseguita la scansione di un determinato sito Web. Il limite della velocità di scansione impedisce ai crawler di interrompere le prestazioni del tuo sito Web sovraccaricandolo di richieste HTTP. Ciò consente ai motori di ricerca di determinare la frequenza con cui possono visitare il tuo sito Web senza causare problemi di prestazioni.

Questo processo ha anche degli svantaggi. L’impostazione manuale del limite della velocità di scansione può causare problemi come:

Bassa frequenza di scansione : quando i nuovi contenuti sul tuo sito Web rimangono non indicizzati per lunghi periodi
Frequenza di scansione elevata : quando il budget di scansione mensile viene esaurito inutilmente a causa della scansione ripetuta di contenuti che non devono essere sottoposti a scansione.

Questo è il motivo per cui è generalmente consigliato agli amministratori web di lasciare l’ottimizzazione della velocità di scansione ai motori di ricerca.

Domanda di scansione

La richiesta di scansione determina il numero di pagine di un sito Web che un crawler visiterà durante una singola scansione. È principalmente influenzato dai seguenti fattori:

Popolarità URL : più traffico riceve una pagina, più è probabile che venga indicizzata.
Datazione : le pagine con aggiornamenti di contenuto regolari sono considerate nuovi URL e hanno maggiori probabilità di essere indicizzate rispetto a quelle con contenuti aggiornati di rado o “URL obsoleti”.

Fattori che influiscono sul budget di scansione

Molti fattori determinano il budget di scansione e molti di essi causano problemi ricorrenti ai proprietari di siti web. Comprendere quali essi siano, ci permetterà di avere una sorta di lista da poter valutare ed esaminare qualora il nostro sito inizi a subire cali di indicizzazione e posizionamento che possono essere sintomatici di errori più o meno gravi quasi sempre risolvibili.

Navigazione faceted o per attributi e tassonomie

I siti Web di e-commerce hanno spesso dozzine di varianti dello stesso prodotto e devono fornire un modo per filtrarli e ordinarli per gli utenti. Lo fanno attraverso una navigazione a faccette, creando URL univoci e sistemati per ogni tipo di prodotto.

Sebbene la navigazione a faccette sia molto utile per gli utenti, può creare una serie di problemi per i motori di ricerca. I filtri applicati spesso creano URL dinamici, che appaiono ai crawler web come singoli URL di cui è necessario eseguire la scansione e l’indicizzazione. Ciò può esaurire inutilmente il budget di scansione e creare contenuti duplicati sul tuo sito web.

Identificatori di sessione e contenuto duplicato

I parametri URL come gli ID di sessione o gli ID di monitoraggio finiscono per creare diverse istanze univoche dello stesso URL. Ciò può anche creare problemi di contenuto duplicati che danneggiano le classifiche del tuo sito Web e esauriscono il budget di chiamata.

Pagine Soft 404

Un soft 404 si verifica quando una pagina Web danneggiata risponde con un codice di stato HTTP 200 OK anziché un codice di risposta 404 Non trovato. Ciò fa sì che il crawler tenti una scansione su quella pagina interrotta e consumi il tuo budget di scansione. Questo è un errore piuttosto grossolano ma altrettanto popolare.

Configurazione del server e dell’hosting scadente

Risultati di configurazione di server e hosting scadenti possono causare frequenti arresti anomali del tuo sito web. Il limite della velocità di scansione impedisce ai crawler di accedere a siti Web soggetti a arresti anomali. Pertanto, eviteranno spesso i siti Web ospitati su configurazioni di server scadenti.

In veste di Hosting di Server Dedicati e Hosting WordPress ed Hosting WooCommerce con siti con milioni di pagine, possiamo affermare che molto spesso lo stack software lato server non è adeguato per restituire i contenuti in modo rapido e veloce e con un Time To First byte troppo elevato.

E’ grazie ad un approccio applicativo con uno sviluppo snello e performante, affiancato a sistemi di Caching di fascia Enterprise come Varnish Cache, che si possono superare questi limiti e criticità.

CSS e JavaScript che bloccano il rendering

Ogni risorsa che un web crawler recupera durante il rendering della tua pagina web è contabilizzata nel tuo budget di scansione, inclusi non solo il contenuto HTML ma anche i file CSS e JS.

I webmaster devono assicurarsi che tutte queste risorse vengano memorizzate nella cache dal motore di ricerca e riducano al minimo i problemi di prestazioni e che i fogli di stile esterni non causino problemi come la divisione del codice.

Collegamenti interrotti e reindirizzamenti

Un collegamento interrotto è un collegamento ipertestuale Ahref che reindirizza l’utente o il bot a una pagina che non esiste. I collegamenti interrotti possono essere causati da un URL errato nel collegamento o da una pagina che è stata rimossa. Quando 301 reindirizza l’un l’altro in una sequenza, può frustrare gli utenti umani e confondere i robot dei motori di ricerca.

Ogni volta che un bot incontra un URL reindirizzato, deve inviare una richiesta aggiuntiva per raggiungere l’URL di destinazione finale. Questo problema diventa tanto più grave quanto più grande è un sito web. Un sito Web con almeno 500 reindirizzamenti fornisce a un crawler un minimo di 1.000 pagine da scansionare. Un link reindirizzato può inviare un crawler attraverso la chain reindirizzata, esaurendo il budget di scansione su inutili salti di reindirizzamento.

Velocità del sito e tag Hreflang

Il tuo sito web deve caricarsi abbastanza velocemente perché il web crawler possa accedere alle tue pagine in modo efficiente. Questi crawler spesso passano a un sito Web completamente diverso quando incontrano una pagina che si carica troppo lentamente; ad esempio, se ha un tempo di risposta del server superiore a due secondi.

In merito alla velocità di un sito Web, molto è stato detto in svariati post del nostro blog essendo di fatto “Performance Managed Hosting” che è il claim che ci contraddistingue. Tuttavia sebbene ci siano molti approcci e possibilità per poter velocizzare un sito, molto dipende dal CMS utilizzato per implementare quelle che sono le classiche tecniche di ottimizzazione sia lato hardware che lato server che sopratutto applicative.

Anche gli URL alternativi definiti con il tag hreflang possono esaurire il budget di scansione.

Mappa del sito XML, ovvero la Sitemap

I motori di ricerca come Google danno sempre la priorità alla pianificazione della scansione per gli URL inclusi nella tua sitemap rispetto a quelli che Googlebot scopre durante la scansione del sito. Ciò significa che la creazione e l’invio della mappa del sito XML del tuo sito Web a Google Webmasters è vitale per la sua salute SEO. Tuttavia, anche l’aggiunta di ogni pagina alla mappa del sito può essere dannosa, poiché il crawler che deve dare la priorità a tutti i tuoi contenuti consuma il budget di scansione.

Come calcolare il Crawl budger ?

Il monitoraggio e il calcolo del budget di scansione è complicato, ma può darti alcune informazioni molto preziose sul tuo sito web.

Innanzitutto, devi sapere quante pagine hai. Puoi ottenere quel numero dalla tua mappa del sito XML, eseguendo una query sul sito con Google utilizzando site:tuodominio.com o eseguendo la scansione del tuo sito Web con uno strumento come Screaming Frog . Una volta che sai quante pagine web hai, apri Google Search Console per il tuo sito web e trova il rapporto Statistiche di scansione nella sezione Strumenti e rapporti precedenti.

Questo mostra l’attività di Googlebot sul tuo sito negli ultimi 90 giorni. Qui puoi trovare il numero medio di pagine scansionate al giorno. Supponendo che il numero rimanga coerente, puoi calcolare il budget di scansione con la seguente formula:

pagine medie scansionate al giorno × 30 giorni=budget di scansione

Queste informazioni sono molto utili quando è necessario ottimizzare il budget di scansione. Dividi il numero di pagine del tuo sito web per il numero medio di pagine scansionate al giorno.

Se il risultato è un numero maggiore di 10, significa che hai 10 volte più pagine sul tuo sito rispetto a quelle che Google scansiona al giorno, il che significa che devi ottimizzare il tuo budget di scansione. Se il numero è inferiore a 3, il budget di scansione è già ottimale.

Ottimizzazione del crawl budget

Ottimizzare il crawl budget per il tuo sito web significa semplicemente adottare le misure adeguate per aumentarlo. Migliorando alcuni fattori chiave che lo influenzano, come la navigazione a faccette, i contenuti obsoleti, gli errori 404 e le catene di reindirizzamento 301, puoi essere sulla buona strada per aumentare il budget di scansione del tuo sito web. Ecco come:

Ottimizza la navigazione faced

La navigazione sfaccettata può consumare il tuo budget di scansione se non implementata correttamente, ma ciò non dovrebbe impedirti di utilizzarla. Hai solo bisogno di fare qualche ritocco per ottimizzarlo.

Puoi aggiungere un tag ‘noindex’ che informa i bot sulle pagine non indicizzate. Ciò rimuoverà le pagine dall’indice ma continuerà a sprecare il tuo budget di scansione su di esse.
L’aggiunta di un tag “nofollow” a qualsiasi link di navigazione con facet impedirà al crawler di indicizzarlo, liberando il budget di scansione rimuovendo immediatamente tali URL.

Rimuovi contenuto obsoleto

La rimozione di contenuti obsoleti libererà molto del tuo budget di scansione. Non è necessario eliminare fisicamente le pagine che contengono quel contenuto, devi solo impedire ai crawler di accedervi come hai fatto con i collegamenti di navigazione a faccette.

Ciò ridurrebbe il numero di URL scansionabili nel tuo indice e aumenterebbe il budget di scansione.

Riduci i codici di errore 404

Per ridurre il numero di codici di errore 404 sul tuo sito web, devi ripulire i tuoi link interrotti e inviare un codice di risposta 404 non trovato al web crawler. Questo aiuta i crawler a evitare di accedere a quei link e, ancora una volta, ad aumentare il budget di scansione riducendo il numero di URL scansionabili per il tuo sito.

Risolvi le catene di reindirizzamento 301

Anche i collegamenti interrotti e le catene di reindirizzamento 301 possono esaurire inutilmente il budget di scansione e la loro pulizia dovrebbe far parte della normale manutenzione del sito Web. Per evitare questo problema e aumentare il budget di scansione, è necessario migliorare i collegamenti interni e risolvere eventuali catene di reindirizzamento in sospeso:

Esegui una scansione completa del tuo sito web utilizzando uno strumento come Screaming Frog .

Al termine della scansione, identifica gli URL reindirizzati e la pagina di origine in cui è posizionato il collegamento specifico.

Infine, aggiorna questi collegamenti in modo che tutti i collegamenti puntino direttamente agli URL di destinazione.

Dovresti anche evitare le pagine orfane , che sono presenti nella mappa del sito ma non sono collegate internamente, bloccandole di fatto all’interno dell’architettura del tuo sito web.

Pulisci e aggiorna la tua sitemap

Controlla la tua mappa del sito a intervalli regolari per gli URL non indicizzabili inclusi e per gli URL indicizzabili che sono stati erroneamente esclusi da essa.

Migliora la velocità del sito e il tag Hreflang

Migliorare la velocità del tuo sito web non solo fornisce una migliore esperienza utente, ma ne aumenta anche la velocità di scansione. I siti con una velocità di caricamento lenta vengono spesso evitati del tutto da Googlebot. L’ottimizzazione della velocità della pagina coinvolge molti fattori SEO tecnici , ma la loro esecuzione aiuta il tuo budget di scansione.

Puoi vedere ad esempio come sia possibile aumentare la velocità di Hosting utilizzando il nostro servizio di Ottimizzazione Core Web Vitals.

L’utilizzo di <link rel=”alternate” hreflang=”lang_code” href=”url_of_page” /> nell’intestazione della pagina consente di evidenziare le versioni localizzate delle pagine al crawler ed evita di esaurire il budget di scansione.

Usa HTML dove possibile

Anche se Googlebot è diventato più efficiente nella scansione di file JavaScript insieme all’indicizzazione di Flash e XML, questo non è il caso di altri motori di ricerca popolari come Bing o DuckDuckGo. Questo è il motivo per cui è sempre consigliabile utilizzare HTML ovunque possibile, poiché tutti i bot dei motori di ricerca possono eseguire facilmente la scansione dei file HTML.

Usa Robots.txt per eseguire la scansione delle pagine importanti

L’utilizzo del file robots.txt del tuo sito web è un modo molto efficiente per ottimizzare il tuo budget di scansione. Puoi gestire il tuo robots.txt per consentire o bloccare qualsiasi pagina del tuo dominio. Questa operazione con uno strumento di controllo del sito Web è consigliata per i siti Web più grandi in cui sono richieste calibrazioni frequenti.

Utilizza servizi di indicizzazione immediata come Index Now

IndexNow è un modo semplice per i proprietari di siti Web di informare istantaneamente i motori di ricerca sulle ultime modifiche ai contenuti sul loro sito Web. Nella sua forma più semplice, IndexNow è un semplice ping in modo che i motori di ricerca sappiano che un URL e il suo contenuto sono stati aggiunti, aggiornati o eliminati, consentendo ai motori di ricerca di riflettere rapidamente questo cambiamento nei loro risultati di ricerca.

Senza IndexNow, potrebbero volerci giorni o settimane prima che i motori di ricerca scoprano che il contenuto è cambiato, poiché i motori di ricerca non eseguono spesso la scansione di tutti gli URL. Con IndexNow, i motori di ricerca conoscono immediatamente gli “URL che sono cambiati, aiutandoli a dare priorità alla scansione di questi URL e limitando così la scansione organica per scoprire nuovi contenuti”.

IndexNow è particolarmente utile qualora il tuo sito abbia bisogno di rankare molto velocemente, ed in particolar modo se il tuo sito è un blog o un giornale online o una testata editoriale.

Usa i nostri servizi di Hosting per ottimizzare il crawl budget.

L’ottimizzazione del budget di scansione è una scienza inesatta che coinvolge molte parti mobili e attività di manutenzione del sito Web in corso che possono essere molto macchinose.

L’utilizzo di Hosting ottimizzati Managed Server consentono a Google di eseguire facilmente la scansione e l’indicizzazione del tuo sito Web , indipendentemente dal fatto che sia realizzato utilizzando HTML o JavaScript e indipendentemente dal numero di pagine Web che ha. Quando automatizzi il processo di ottimizzazione del crawl budget del tuo sito web , liberi la larghezza di banda mentale per attività più importanti che si concentrano su una strategia SEO di livello superiore.

BLOG