25
mar
Google e gli strumenti per webmaster per una indicizzazione ottimale
Recentemente mi sono trovato ad implementare il sito per un albergo. Come immaginerete questa è una attività commerciale che vive dei contatti provenienti dal web, sia che provengano da portali dedicati al turismo sia che giungano direttamente dal proprio sito.
Risulta quindi determinante più che mai il lavoro di indicizzazione sui motori di ricerca. In questo “Mamma Google” c‘é venuta incontro sviluppando una applicazione che si chiama Strumenti per i webmaster. Loggandosi con il proprio account Gmail è possibile registrare il nome del dominio da voler indicizzare e sfruttare le potenzialità di questo sistema quale il monitoraggio e la diagnostica del codice, le statistiche di scansione dei Goooglebot, l’analisi del proprio file robots.txt e l’inserimento di una sitemap in vari formati (XML, TXT e volendo anche RSS).
Ma cosa è un file robots e cosa è una sitemap?
I file txt robots si basano sul Robots Exclusion Standard (standard per l’esclusione dei robot), ovvero un sistema che permette ai webmaster e agli amministratori di sistema di avere un controllo maggiore su quante e quali pagine HTML far prelevare da quali spider per l’indicizzazione sui motori di ricerca.
Ecco alcuni suggerimenti per la creazione di un buon file robots.txt:
USER AGENT
Uno user-agent è un robot di un motore di ricerca. Si può impostare un’istruzione in modo che venga applicata a uno specifico bot (indicando il nome) oppure a tutti i bot (indicando un asterisco).
User-Agent: *
oppure
User-agent: Googlebot
DISALLOW
Disallow seguito dalla barra / è il comando necessario per indicare le pagine o le cartelle che desideri bloccare.
Disallow:
permette a tutti i robot un accesso completo
Disallow: /
impedisce la scansione dell’intero sito a tutti i robot
Disallow: /directory_privata/
per bloccare una cartella
Disallow: /file_privato.htm
per bloccare una Url
sitemap: http://www.brainessence.it/sitemap.xml
Le sitemap invece sono dei file formati da elenchi di Url che costituiscono la struttura della propria pagina web e attraverso i quali i robot di analizzano ed indicizzano il nostro sito.

Per quanto riguarda la creazione di un buon file sitemap.xml ecco un esempio di struttura:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
<url>
<loc>http://www.brainessence.it/index.php</loc>
<lastmod>1970-01-01</lastmod>
<changefreq>daily</changefreq>
<priority>0.5</priority>
</url>
<url>
<loc>http://www.brainessence.it/archivio</loc>
<lastmod>1970-01-01</lastmod>
<changefreq>daily</changefreq>
<priority>0.5</priority>
</url>
</urlset>
Oltre alla ceazione manuale, Google suggerisce l’utilizzo di Sitemap Generator o di uno strumento di generazione di terzi. Google consiglia di utilizzare questo protocollo poiché è scalabile e consente di inviare a Google informazioni specifiche su tutti gli URL (ad esempio, la data dell’ultima modifica di ogni pagina e le pagine con alta priorità ).
Google accetta anche sitemaps create come semplice elenco di link inseriti all’interno di un file di testo (txt). E’ sufficiente che al temine di ogni link si vada a capo e non si lascino spazi o righe vuote.














