|
Approfondimenti seo e posizionamento nei motori di ricerca
|
Il file robots.txt è un semplice file in formato testo che grazie al suo nome, ha uno specifico significato per la maggioranza dei motori di ricerca. Definendo alcune regole in questo file di testo, puoi istruire gli spider a non scansionare ed indicizzare certi files, cartelle interne al tuo sito o tutto: per esempio se non vuoi che Google indicizzi la cartella /prova in quanto poco significativa per te e materiale di scarto per il tuo sito. "robots.txt" ti permette di dire a Google proprio questo. Quindi andiamo a fare il nostro robots.txt. Creiamo un normale file di testo e lo nominiamo esattamente "robots.txt", e ci assicuriamo di averlo chiamato proprio così. Questo file deve essere caricato nella root principale del sito, e non in sottocartelle (es. www.miosito.it e non www.miosito.it/topolino/). E' solo seguendo queste due operazioni che lo spider del motore di ricerca interpreterà le istruzioni contenute nel file. Se si sbaglia, il robots.txt diventa niente di più di un banalissimo file di testo, come cenerentola dopo la mezzanotte. Adesso che sappiamo come nominare il file e dove caricarlo, dobbiamo sapere cosa metterci dentro per dare il comando ai motori di ricerca di seguire questo protocollo (formalmente il "Robots Exclusion Protocol"). Il formato è semplice per tutti gli intenti e scopi: una linea USERAGENT: per identificare il crawler in questione, seguito da una o più linee DISALLOW: per disabilitarlo all'indicizzazione di certe parti del tuo sito. User-agent: *Così tutti i robots (indicati con "*") sono comandati a non indicizzare nessuna pagina del sito (indicato con "/"). Molto probabilmente non è quello che si vuole, ma è per dare l'idea. User-agent: *In questo modo tutti i motori di ricerca sono liberi di visitare ed indicizzare le pagine del sito (lasciando lo spazio vuoto dopo i : del Disallow. User-agent: Googlebot-Image User-agent: * L'ultimo comando impedisce l'indicizzazione di tutte le pagine dinamiche, che contengono il carattere ? nelle url. User-agent: *Questo è interessante, facciamo in modo che gli spider in generale non devono scansionare nessuna parte del nostro sito, ECCETTO Google, al quale è permesso indicizzare l'intero sito eccetto le cartelle /cgi-bin/ e /topolino/. User-agent: *Qui stiamo dicendo a tutti i crawlers che gli è proibito scansionare il sito, eccetto Yahoo! (slurp) al quale è permesso vedere tutto. User-agent: *
Buon lavoro, spero di essere stato abbastanza chiaro. Sai già come funziona il meta tag robots? e come funzionano i meta tag title e description?
Condividi articolo
invia
Hits: 1653 Commenti
(0)
|
© Copyright Nicola Antonelli 2008 - Vietata la riproduzione anche parziale
joomla made