Indice dei contenuti dell'articolo:
Vedendo che molti dei nostri clienti hanno difficoltà a eseguire correttamente la scansione e l’indicizzazione dei loro siti Web, abbiamo esaminato un po’ di documentazione di Google su scansione, rendering e indicizzazione per comprendere meglio l’intero processo.
Alcuni dei nostri risultati sono stati estremamente sorprendenti, mentre altri hanno confermato le nostre precedenti teorie.
Ecco 5 cose che ho imparato che potresti non sapere su come funziona Googlebot.
1. Googlebot salta alcuni URL
Googlebot non visiterà tutti gli URL che trova sul Web. Più un sito web è grande, più è a rischio che alcuni dei suoi URL non vengano scansionati e indicizzati.
Perché Googlebot non visita semplicemente tutti gli URL che riesce a trovare sul Web? Ci sono due ragioni per questo:
- Google ha risorse limitate. C’è molto spam sul Web, quindi Google deve sviluppare meccanismi per evitare di visitare pagine di bassa qualità. Google dà la priorità alla scansione delle pagine più importanti.
- Googlebot è progettato per essere un buon cittadino del web. Limita la scansione per evitare il crash del server.
Il meccanismo per scegliere quali URL visitare è descritto nel brevetto di Google “Method and apparatus for managing a backlog of pending URL crawls“:
“La scansione dell’URL in sospeso viene rifiutata dal backlog se la priorità della scansione dell’URL in sospeso non supera la soglia di priorità”
“Vari criteri vengono applicati alle scansioni degli URL richieste, in modo che le scansioni degli URL meno importanti vengano rifiutate in anticipo dalla struttura dei dati del backlog. ”
Queste citazioni suggeriscono che Google sta assegnando una priorità di scansione a ogni URL e potrebbe rifiutare la scansione di alcuni URL che non soddisfano i criteri di priorità.
La priorità assegnata agli URL è determinata da due fattori:
- La popolarità di un URL,
- Importanza della scansione di un determinato URL per mantenere la freschezza dell’indice di Google.
“La priorità può essere maggiore in base alla popolarità del contenuto o all’indirizzo IP/nome di dominio e all’importanza di mantenere la freschezza del contenuto in rapida evoluzione come le ultime notizie. Poiché la capacità di scansione è una risorsa scarsa, la capacità di scansione viene conservata con i punteggi di priorità“.
Cosa rende esattamente popolare un URL? Il brevetto di Google ” Ridurre al minimo la visibilità dei contenuti obsoleti nella ricerca sul Web, inclusa la revisione degli intervalli di scansione del Web dei documenti ” definisce la popolarità dell’URL come una combinazione di due fattori: tasso di visualizzazione e PageRank.
PageRank è menzionato in questo contesto anche in altri brevetti, come Scheduler for search engine crawler .
Ma c’è un’altra cosa che dovresti sapere. Quando il tuo server risponde lentamente, la soglia di priorità che i tuoi URL devono soddisfare aumenta.
“La soglia di priorità viene regolata, in base a una stima della probabilità aggiornata di soddisfare le scansioni degli URL richieste. Questa stima della probabilità si basa sulla frazione stimata delle scansioni degli URL richieste che possono essere soddisfatte. La frazione delle scansioni degli URL richieste che può essere soddisfatta ha come numeratore l’intervallo medio delle richieste o la differenza nel tempo di arrivo tra le richieste di scansione degli URL.”
Per riassumere, Googlebot potrebbe saltare la scansione di alcuni dei tuoi URL se non soddisfano una soglia di priorità basata sul PageRank dell’URL e sul numero di visualizzazioni che ottiene.
Questo ha forti implicazioni per ogni grande sito web.
Se una pagina non viene sottoposta a scansione, non verrà indicizzata e non verrà visualizzata nei risultati di ricerca.
Da fare:
- Assicurati che il tuo server e il tuo sito web siano veloci.
- Controlla i log del tuo server. Ti forniscono informazioni preziose su quali pagine del tuo sito Web vengono scansionate da Google.
2. Google suddivide le pagine in livelli per la ripetizione della scansione
Google vuole che i risultati di ricerca siano il più freschi e aggiornati possibile. Questo è possibile solo quando è in atto un meccanismo per ripetere la scansione del contenuto già indicizzato.
Nel brevetto ” Minimizzare la visibilità dei contenuti obsoleti nella ricerca sul web ” ho trovato informazioni su come è strutturato questo meccanismo.
Google sta dividendo le pagine in livelli in base alla frequenza con cui l’algoritmo decide che devono essere ripetute.
“In una forma di realizzazione, i documenti sono partizionati in più livelli, ogni livello includendo una pluralità di documenti che condividono intervalli di scansione web simili.”
Pertanto, se le tue pagine non vengono scansionate tutte le volte che desideri, molto probabilmente si trovano in un livello di documenti con un intervallo di scansione più lungo.
Tuttavia, non disperare! Non è necessario che le tue pagine rimangano in quel livello per sempre: possono essere spostate.
Ogni volta che viene eseguita la scansione di una pagina è un’opportunità per te di dimostrare che vale la pena ripetere la scansione più frequentemente in futuro.
“Dopo ogni scansione, il motore di ricerca rivaluta l’intervallo di scansione web di un documento e determina se il documento deve essere spostato dal livello corrente a un altro livello“.
È chiaro che se Google vede che una pagina cambia frequentemente, potrebbe essere spostata in un livello diverso. Ma non è sufficiente modificare alcuni elementi estetici minori: Google sta analizzando sia la qualità che la quantità delle modifiche apportate alle tue pagine.
Da fare:
- Usa i log del tuo server e Google Search Console per sapere se le tue pagine vengono scansionate abbastanza spesso.
- Se desideri ridurre l’intervallo di scansione delle tue pagine, migliora regolarmente la qualità dei tuoi contenuti.
3. Google non reindicizza una pagina a ogni scansione
Secondo il brevetto Ridurre al minimo la visibilità dei contenuti obsoleti nella ricerca sul Web, inclusa la revisione degli intervalli di scansione web dei documenti , Google non reindicizza una pagina dopo ogni scansione.
“Se il documento è stato modificato in modo sostanziale dall’ultima scansione, lo scheduler invia un avviso a un indicizzatore di contenuto (non mostrato), che sostituisce le voci di indice per la versione precedente del documento con voci di indice per la versione corrente del documento. Successivamente, lo scheduler calcola un nuovo intervallo di scansione web per il documento in base al suo vecchio intervallo e informazioni aggiuntive, ad esempio l’importanza del documento (misurata da un punteggio, come PageRank), la frequenza di aggiornamento e/o la percentuale di clic. Se il contenuto del documento ha non è stato modificato o se le modifiche al contenuto non sono critiche, non è necessario reindicizzare il documento.”
L’ho visto in natura più volte.
Inoltre, ho fatto alcuni esperimenti su pagine esistenti su Onely.com. Ho notato che se stavo cambiando solo una parte intelligente del contenuto, Google non lo stava reindicizzando.
Da fare:
Se hai un sito web di notizie e aggiorni frequentemente i tuoi post, controlla se Google lo reindicizza abbastanza rapidamente. In caso contrario, puoi essere certo che in Google News c’è del potenziale inutilizzato per te.
4. Percentuale di clic e collegamento interno
Nella citazione precedente, hai notato come è stata menzionata la percentuale di clic?
“Successivamente, lo scheduler calcola un nuovo intervallo di scansione web per il documento in base al suo vecchio intervallo e informazioni aggiuntive, ad esempio l’importanza del documento (misurata da un punteggio, come PageRank), frequenza di aggiornamento e/o percentuale di clic”
Questa citazione suggerisce che la percentuale di clic influenza la frequenza di scansione di un URL.
Immaginiamo di avere due URL. Uno viene visitato dagli utenti di Google 100 volte al mese, un altro viene visitato 10000 volte al mese. A parità di altre condizioni, Google dovrebbe rivisitare quello con 10000 visite al mese più frequentemente.
Secondo il brevetto, anche il PageRank è una parte importante di questo. Questo è un motivo in più per assicurarti di utilizzare correttamente i collegamenti interni per connettere varie parti del tuo dominio.
Da fare:
- Google e gli utenti possono accedere facilmente alle sezioni più importanti del tuo sito web?
- È possibile raggiungere tutti gli URL importanti? Avere tutti i tuoi URL disponibili nella mappa del sito potrebbe non essere sufficiente.
5. Non tutti i collegamenti sono uguali
Abbiamo appena spiegato come, secondo i brevetti di Google, il PageRank influisca pesantemente sulla scansione.
La prima implementazione dell’algoritmo PageRank non era sofisticata, almeno a giudicare dagli standard attuali. È stato relativamente semplice: se ricevevi un link da una pagina *importante*, ti classificheresti più in alto rispetto ad altre pagine.
Tuttavia, la prima implementazione di PageRank è stata rilasciata più di 20 anni fa. Google è cambiato molto da allora.
Ho trovato brevetti interessanti, come i documenti di Ranking basati sul comportamento degli utenti e/o sui dati delle funzionalità , che dimostrano che Google è ben consapevole del fatto che alcuni collegamenti in una determinata pagina sono più importanti di altri. E poi, Google potrebbe trattare questi collegamenti in modo diverso.
“Questo ragionevole modello di navigazione riflette il fatto che non tutti i collegamenti associati a un documento hanno la stessa probabilità di essere seguiti. Esempi di collegamenti improbabili possono includere collegamenti a “Termini di servizio”, banner pubblicitari e collegamenti non correlati al documento”.
Quindi Google sta analizzando i collegamenti in base alle loro varie caratteristiche. Ad esempio, possono esaminare la dimensione del carattere e la posizione del collegamento.
” Ad esempio, l’unità di generazione del modello può generare una regola che indica che i collegamenti con anchor text maggiore di una determinata dimensione del carattere hanno una probabilità maggiore di essere selezionati rispetto ai collegamenti con anchor text inferiore alla particolare dimensione del carattere. Inoltre, o in alternativa, la generazione del modello unit può generare una regola che indica che i collegamenti posizionati più vicino alla parte superiore di un documento hanno una probabilità maggiore di essere selezionati rispetto ai collegamenti posizionati verso la parte inferiore del documento.”
Sembra addirittura che Google possa creare regole per valutare i link a livello di sito web. Ad esempio, Google può vedere che i collegamenti in “Altre notizie principali” vengono cliccati più frequentemente in modo da poterli dare più peso.
“(…) l’unità di generazione del modello può generare una regola che indica che un collegamento posizionato sotto l’intestazione “Altre storie principali” sul sito Web cnn.com ha un’alta probabilità di essere selezionato. Inoltre, o in alternativa, l’unità di generazione del modello può generare una regola che indica che un collegamento associato a un URL di destinazione che contiene la parola “domainpark” ha una bassa probabilità di essere selezionato. Inoltre, o in alternativa, l’unità di generazione del modello può generare una regola che indica che un collegamento associato a una fonte il documento che contiene un popup ha una bassa probabilità di essere selezionato.”
Come nota a margine, in una conversazione con Barry Schwartz e Danny Sullivan nel 2016 , Gary IIIyes ha confermato che Google etichetta i collegamenti, come il footer o penguin.
“Fondamentalmente, abbiamo tonnellate di etichette di collegamento; ad esempio, è un collegamento a piè di pagina, in pratica, che ha un valore molto inferiore rispetto a un collegamento nel contenuto. Quindi un’altra etichetta sarebbe un’etichetta Penguin in tempo reale“.
Riassumendo i punti chiave:
- Google sta assegnando priorità a ogni pagina sottoposta a scansione
- Più veloce è il sito web, più veloce sarà la scansione di Google.
- Google non eseguirà la scansione e l’indicizzazione di tutti gli URL. Verrà eseguita la scansione solo degli URL con priorità assegnata al di sopra della soglia.
- I collegamenti vengono trattati in modo diverso a seconda delle loro caratteristiche e del posizionamento
- Google non reindicizza una pagina dopo ogni scansione. Dipende dalla gravità delle modifiche apportate.
In Conclusione
Come puoi vedere, la scansione è tutt’altro che un semplice processo per seguire tutti i link che Googlebot può trovare. È davvero complicato e ha un impatto diretto sulla visibilità di ricerca di ogni sito web. Spero che questo articolo ti abbia aiutato a capire un po’ meglio la scansione e che sarai in grado di utilizzare queste conoscenze per migliorare il modo in cui Googlebot esegue la scansione del tuo sito Web e di conseguenza si classifica meglio e di come sia importante oltre che avere un sito con una corretta alberazione e struttura ed un buon processo di link building interna ed esterna, sia indispensabile più che mai avere hosting e server veloci e performanti in modo di poter gestire nel migliore dei modi possibili il processo del crawling dei Bot Google e dunque massimizzare la proficuità del crawling budget.