File robots.txt

File robots.txt

Utilizzare il file robots.txt

Quando il motore di ricerca (lo "spider") inizia a scansionare il nostro sito, tramite il file "robots.txt" possiamo dirgli a quali file può accedere (potremmo anche non volere indicizzare tutto il sito...), al quali cartelle, praticamente come deve comportarsi nell'eseguire la scansione. 

Argomenti in questa pagina:

  1. Il file robots.txt
  2. Consigli

Per esempio, potremmo voler mantenere sul nostro spazio la versione "vecchia" del sito senza che la stessa sia navigabile dagli utenti (per evitare confusione) oppure avere delle sezioni del sito in preparazione che è consigliabile non indicizzare ancora: per questi ed altri motivi dobbiamo realizzare un file, chiamato "robots.txt", e collocarlo nella nella directory principale del sito. Come al solito, Google ha, tra i suoi strumenti per webmaster, un generatore robots.txt che ci può aiutare a creare questo file. Nota che, se il tuo sito utilizza i sottodomini e desideri evitare che determinate pagine siano sottoposte a scansione su un particolare sottodominio, devi creare un file robots.txt separato per tale sottodominio. Nel centro di assistenza per webmaster di Google si trovano anche molte altre informazioni utili, es. aggiungere"NOINDEX" nel file robots.txt per evitare l'indicizzazione totale, cifrare il contenuto o la password di protezione di file e cartelle con. Htaccess ecc...

Consigli

Da fare

  • Escludere dall'indicizzazione tutte quelle pagine che non sono veramente utili per gli utenti;
  • Escludere dall'indicizzazione le immagini non relative ai contenuti e non utili all'utente (es. la cartella immagini contenente solo il layout del sito);
  • Utilizzare metodi più sicuri, del file robots.txt, per i contenuti sensibili.

Da evitare

  • Lasciare che Google indicizzi pagine (o contenuti) inutili per gli utenti o molto simili tra loro;
  • lasciare che Google (o altri spider) indicizzino dati sensibili, proteggendoli opportunamente.

Torna all'inizio