Cosa vuol dire indicizzare un sito

Aggiunta URL Google

Indicizzare un sito vuol dire inserire il sito in un motore di ricerca. Un motore di ricerca è a sua volta un sito che permette di cercare altri siti partendo da domande o parole chiave.

I motori di ricerca hanno una loro base dati che aggiornano di continuo, e aggiornandola creano appunto un indice dei siti che visitano, indice che poi è possibile consultare mediante le interfacce offerte.

I vari motori di ricerca, Google, Yahoo, Bing, Baidu, hanno comportamenti leggermente diversi tra essi, ma in generale per indicizzare un sito si procede allo stesso modo. E allo stesso modo procedono i motori di ricerca nel processo di indicizzazione.

L’indicizzazione comprende tre  fasi:

  1. la richiesta di indicizzazioe
  2. la lettura delle pagine da parte del motore di ricerca
  3. l’indicizzazione vera e propria

Iniziamo da come si richiede l’indicizzazione

Come fare per indicizzare un sito

Se hai un sito e vuoi indicizzarlo devo richiedere ai vari motori di ricerca di aggiungere il tuo sito al suo indice. È facile chiedere l’indicizzazione di un sito, più che altro si può perdere un po’ di tempo visitando le pagine dei vari motori di ricerca. Perché, chiaramente,ogni sito ha la sua pagina di richiesta di indicizzazione.

Ho scritto come indicizzare un sito su  Come indicizzare un sito.

In breve, vai sulla pagina di aggiunta/rimozione URL di Google e inserisci il tuo sito nel modulo che viene mostrato, poi premi Aggiungi URL.

Aggiunta URL Google

Per quanto riguarda Bing, invece, cerca “Bing submit” e nella pagina che ti viene data nel risultato immetti i tuoi dati come spiegato nella pagina che  dicevo prima.

Bing, indicizzazione siti

La lettura delle pagine (il crawling)

Una volta richiesta l’indicizzazione, il sito viene messo in una lista di attesa, la lista dei siti da visitare. I siti vengono poi letti da questa lista e parte uno “spider”, una specie di robot software, insomma un programma, che va a visitare i siti.

Viene letta dapprima la pagina segnalata nella richiesta di indicizzazione, e vengono accodate altre pagine ad essa collegate mediante i link, i collegamenti che si possono inserire nell’HTML, il linguaggio con cui sono scritte le pagine. Queste pagine verranno poi a loro volta lette, salvate, e registrate nell’indice del motore di ricerca.

Il processo di crawling usa delle risorse del sito, e se venissero lette troppe pagine insieme il sito potrebbe addirittura bloccarsi. Per questo i motori di ricerca leggono le pagine senza esagerare nella velocità di lettura. E non solo, si adeguano, se cioè trovano un sito che risponde lentamente rallenteranno l’indicizzazione per non appesantire troppo il sito.

I tempi

Per questi motivi il processo di lettura e salvataggio delle pagine, il crawling, può protrarsi per molto tempo, specie se le pagine sono parecchie. È quindi importante avere un sito veloce, ma in ogni caso bisogna avere pazienza.

A volte i motori di ricerca sono un po’ pigri e leggono le pagine successive a quella inviata in tempi non rapidissimi, se si crede è possibile quindi inviare direttamente altre segnalazioni per le altre pagine.

L’indicizzazione vera e propria

Una volta che gli spider, i robot inviati dal motore di ricerca (tra cui il Googlebot), hanno registrato le pagine, viene creato un indice, che viene usato quando gli utenti fanno le loro interrogazioni.

Non sarebbe infatti possibile rispondere velocemente alle query, le domande, degli utenti senza qualche “trucco”.

Un metodo utilizzato è ad esempio creare una lista di parole, dove ogni parola ha associati i documenti dove essa compare. Questo è l’inverted index, un indice che consente di rispondere velocemente alle query. Disponendo di un indice di questo tipo i motori di ricerca possono rispondere rapidamente a interrogazioni basate su parole chiave, keyword. Semplicemente, viene consultata la lista cercando le parole, e si crea un insieme di documenti che corrispondono alla ricerca fatta. Questo insieme è quello che viene poi mostrato nelle SERP, le Search Engine Results Pages, le pagine risultato dei motori di ricerca.