Notizie seo Notizie google in italiano

     
Approfondimenti seo e posizionamento nei motori di ricerca
robots.txt
Approfondimenti seo e posizionamento
Scritto da Nicola Antonelli   
Martedì 07 Aprile 2009 00:00

Il file robots.txt è un semplice file in formato testo che grazie al suo nome, ha uno specifico significato per la maggioranza dei motori di ricerca. Definendo alcune regole in questo file di testo, puoi istruire gli spider a non scansionare ed indicizzare certi files, cartelle interne al tuo sito o tutto: per esempio se non vuoi che Google indicizzi la cartella /prova in quanto poco significativa per te e materiale di scarto per il tuo sito. "robots.txt" ti permette di dire a Google proprio questo.

Quindi andiamo a fare il nostro robots.txt. Creiamo un normale file di testo e lo nominiamo esattamente "robots.txt", e ci assicuriamo di averlo chiamato proprio così. Questo file deve essere caricato nella root principale del sito, e non in sottocartelle (es. www.miosito.it e non www.miosito.it/topolino/). E' solo seguendo queste due operazioni che lo spider del motore di ricerca interpreterà le istruzioni contenute nel file. Se si sbaglia, il robots.txt diventa niente di più di un banalissimo file di testo, come cenerentola dopo la mezzanotte.

Adesso che sappiamo come nominare il file e dove caricarlo, dobbiamo sapere cosa metterci dentro per dare il comando ai motori di ricerca di seguire questo protocollo (formalmente il "Robots Exclusion Protocol"). Il formato è semplice per tutti gli intenti e scopi: una linea USERAGENT: per identificare il crawler in questione, seguito da una o più linee DISALLOW: per disabilitarlo all'indicizzazione di certe parti del tuo sito.

  • Ecco un robots.txt che blocca tutto:
    User-agent: *
    Disallow: /
    Così tutti i robots (indicati con "*") sono comandati a non indicizzare nessuna pagina del sito (indicato con "/"). Molto probabilmente non è quello che si vuole, ma è per dare l'idea.
  • Questo invece è il più libertino ed il più usato:
    User-agent: *
    Disallow:
    In questo modo tutti i motori di ricerca sono liberi di visitare ed indicizzare le pagine del sito (lasciando lo spazio vuoto dopo i : del Disallow.
  • Adesso passiamo all'essere più discriminatori. Mentre ogni webmaster ama google, potresti non volere che l'imagebot di google indicizzi le immagini del tuo sito e che le renda ricercabili online, anche se solo per salvare larghezza di banda. Il comando seguente farà questo stratagemma:
    User-agent: Googlebot-Image
    Disallow: /
  • Per disabilitare tutti i motori di ricerca e robots dall'indicizzare specifiche cartelle e pagine:
  • User-agent: *
    Disallow: /cgi-bin/
    Disallow: /topolino/
    Disallow: /paperino/blank.htm
    Disallow: /*?

    L'ultimo comando impedisce l'indicizzazione di tutte le pagine dinamiche, che contengono il carattere ? nelle url. 

  • Possiamo condizionare diversi spider nel robots.txt. Dai uno sguardo qui sotto:
  • User-agent: *
    Disallow: /
    User-agent: Googlebot
    Disallow: /cgi-bin/
    Disallow: /topolino/
    Questo è interessante, facciamo in modo che gli spider in generale non devono scansionare nessuna parte del nostro sito, ECCETTO Google, al quale è permesso indicizzare l'intero sito eccetto le cartelle /cgi-bin/ e /topolino/.

  • Il seguente è un modo per usare il Disallow: trasformandolo essenzialmente in "Permetti tutto" lasciando vuoto il campo dopo il puntoevirgola:
    User-agent: *
    Disallow: /
    User-agent: slurp
    Disallow:
    Qui stiamo dicendo a tutti i crawlers che gli è proibito scansionare il sito, eccetto Yahoo! (slurp) al quale è permesso vedere tutto.
  • Infine, su Extended Standard for Robot Exclusion sono stati proposti due nuovi parametri: REQUEST-RATE (per indicare allo spider di visitare al massimo n pagine ogni tot secondi)e VISIT-TIME: (per indicare l'unico lasso di tempo in cui lo spider può accedere)
    User-agent: *
    Disallow: /topolino/
    Request-rate: 1/5
    Visit-time: 0800-1145
  •  

    Buon lavoro, spero di essere stato abbastanza chiaro.  

    Sai già come funziona il meta tag robots?

    come funzionano i meta tag title e description?

     

     

    Commenti (0)add
    ....

    busy
     

    © Copyright Nicola Antonelli 2008 - Vietata la riproduzione anche parziale
    joomla made