La creazione del file robots.txt è uno dei primi passi che si dovrebbe compiere per garantire una corretta indicizzazione delle pagine da parte dei motori di ricerca.

In questo articolo, esamineremo cos’è il file robots.txt, come funziona e come utilizzarlo correttamente per ottimizzare la SEO del tuo sito web.

  1. Cos’è il file robots.txt: definizione
  2. A cosa serve il file robots.txt?
  3. La sintassi del file robots.txt
  4. Dove si trova il file robots.txt
  5. Esempi di file robots.txt: casi reali
  6. Tester robots.txt

Cos’è il file robots.txt: definizione.

Si tratta di un file di testo che viene collocato nella directory principale del sito web e che contiene una lista di istruzioni che i robot dei motori di ricerca seguono per navigare nel sito web.

Ogni volta che un motore di ricerca naviga nel sito web, prima di esplorarlo, controlla il file robots.txt per capire quali sono le pagine e le sezioni del sito web che devono essere ignorate o escluse dall’indicizzazione.

Uncommon file robots.txt

A cosa serve il file robots.txt?

Vediamo i casi più comuni per i quali si utilizza il file robots.txt:

1. Ottimizzazione del Budget Crawl

Una funzione cruciale del robots.txt è la gestione del budget crawl, soprattutto per i siti con un grande numero di pagine. Indirizzando i crawler verso le pagine più rilevanti e limitando l’accesso a quelle meno importanti, si ottimizza l’efficienza del processo di indicizzazione.

Il budget crawl è un parametro (valore) che Google assegna al nostro sito e successivamente spende per scansionarlo. Esso dipende dalle dimensioni, della struttura e della reputazione del sito web e può variare nel tempo. Gestire il budget crawl diventa quindi importante per assicurarsi che il motore di ricerca scansioni le pagine più importanti e rilevanti del sito web, in modo che queste vengano indicizzate e compaiano nei risultati di ricerca.

2. Prevenire l’indicizzazione di pagine private

Il file robots.txt è spesso impiegato per impedire ai crawler dei motori di ricerca di accedere a pagine sensibili o private, come quelle di amministrazione o aree riservate agli utenti registrati. Questo aiuta a mantenere private informazioni riservate e a evitare l’esposizione di contenuti non destinati al pubblico.

3. Evitare la duplicazione dei contenuti

In alcuni casi, particolari configurazioni del sito possono portare alla creazione di contenuti duplicati. Utilizzando il file robots.txt, è possibile indicare ai motori di ricerca quali versioni delle pagine devono essere prese in considerazione, riducendo così i problemi di contenuto duplicato che potrebbero influire negativamente sul ranking SEO.

4. Nascondere risorse

Ci sono alcune circostanze in cui è opportuno evitare che i motori di ricerca indicizzino risorse specifiche come ad esempio PDF, video e immagini presenti all’interno del sito web. Questo potrebbe essere necessario per motivi di privacy, oppure per garantire che i motori di ricerca si concentrino sui contenuti più importanti e rilevanti del sito web.

La sintassi del file robots.txt.

La sintassi del file robots è relativamente semplice.

Il file consiste in una serie di istruzioni chiamate “direttive”, che specificano quali parti del tuo sito web devono essere escluse dai web crawler. Le direttive sono formattate in una particolare struttura, composta da:

User-agent

L’User-agent specifica il web crawler a cui la direttiva si riferisce. Ad esempio, se si desidera creare una direttiva per Googlebot, il principale crawler di Google, è possibile utilizzare il seguente comando:

User-agent: Googlebot

Se si desidera creare una direttiva per tutti i web crawler, è possibile utilizzare l’asterisco (*), come segue:

User-agent: *

Disallow

La direttiva Disallow, specifica quali pagine devono essere escluse dal web crawler.

Ad esempio, se si desidera escludere l’accesso a tutte le pagine che si trovano nella cartella “private”, è possibile utilizzare il seguente comando:

Disallow: /private/

Allow

La direttiva Allow specifica quali pagine devono essere scansionate dal web crawler. Di default, non inserendo questa direttiva, il crawler scansionerà tutte le pagine del sito eccetto quelle indicate con il comando Disallow.

Il comando Allow risulta utile se per esempio vogliamo impedire ai crawler di accedere alle pagine di una certa categoria eccetto per un articolo:

Disallow: /nome-cartella
Allow: /nome-cartella/nome-pagina

Sitemap

La direttiva “Sitemap” indica ai motori di ricerca dove trovare la tua sitemap XML. Solitamente questa direttiva va posizionata in fondo al documento, come ultimo elemento.

Ti invitiamo a leggere questo articolo se sei interessato a capire cos’è una sitemap.

User-agent: *
Disallow: /nome-cartella
Allow: /nome-cartella/nome-pagina
Sitemap: https://nomesito.it/sitemap_index.xml

Dove si trova il file robots.txt.

Se sei interessato a trovare il file robots.txt di un sito web, ci sono diversi modi per farlo. I due metodi più comuni sono:

  • Digitare l’URL /robots.txt
    La prima e più semplice opzione è quella di digitare l’URL del sito web seguito da “/robots.txt” nella barra degli indirizzi del browser.Ad esempio, se vuoi trovare il file robots.txt di Uncommon, dovresti digitare https://weareuncommon.it/robots.txt.

    Uncommon file robots.txt
    Uncommon file robots.txt
  • Utilizzare gli strumenti per webmaster dei motori di ricerca
    Alcuni motori di ricerca offrono strumenti per webmaster che consentono di accedere alle informazioni del sito web, inclusi i file robots.txt.Ad esempio, Google Search Console fornisce un’opzione “robots.txt Tester” che ti consente di verificare il file robots.txt di un sito web e di identificare eventuali problemi.

Esempi di file robots.txt: casi reali.

Ecco dieci esempi pratici di come puoi utilizzare questo file per gestire l’accesso dei bot:

1. Blocco totale: impedire a tutti i bot di accedere a tutto il tuo sito. Questa configurazione può tornare utile nel momento in cui devi costruire il tuo sito web online ma non vuoi che sia visibile nei risultati di ricerca fino al momento del lancio.

User-agent: *
Disallow: /

2. Accesso completo: Per permettere a tutti i bot di accedere a tutto il sito. Questa è la classica configurazione base che dovrebbe avere ogni sito web che vuole essere indicizzato.

User-agent: *
Disallow:

3. Blocco di una specifica directory: Per impedire ai bot di accedere a una specifica directory (ad esempio, /admin/):

User-agent: *
Disallow: /admin/

4. Blocco di un file specifico: Se vuoi impedire ai bot di accedere a un file specifico.

User-agent: *
Disallow: /nome-file.html

5. Blocco di un certo tipo di file: Se vuoi che i bot non indicizzino le tue immagini:
makefile

User-agent: *
Disallow: /*.jpg$

6. Accesso selettivo: Se vuoi bloccare solo un particolare bot (ad esempio, Googlebot) da una sezione:

User-agent: Googlebot
Disallow: /private-section/

7. Consentire un’eccezione: Puoi anche disallow una directory ma consentire l’accesso a un file specifico all’interno:

User-agent: *
Disallow: /private/
Allow: /private/nome-file.html

8. Ritardo nella scansione: Se vuoi ridurre il carico sul server limitando la frequenza di scansione di un bot (ad esempio, 10 secondi tra le richieste):

User-agent: *
Crawl-delay: 10

9. Indicazione della sitemap: Puoi dire ai bot dove trovare il file sitemap del tuo sito:

Sitemap: https://www.nomesito.com/sitemap.xml

10. Blocco di risorse esterne: Se hai contenuti ospitati su CDN o domini esterni e desideri bloccare i bot da lì, puoi specificare il percorso completo:

User-agent: *
Disallow: https://cdn.nomesito.com/private/

Tester robots.txt.

Esistono diversi strumenti dedicati per testare se è il file robots è impostato correttamente.

Google Search Console offre un “Tester robots.txt” che non solo verifica la validità del tuo file, ma mostra anche come Googlebot leggerebbe e interpreterebbe ciascuna direttiva.

Similmente, Bing Webmaster Tools fornisce uno strumento analogo per gli utenti che desiderano ottimizzare per Bing.

Oltre a questi, ci sono diversi software e applicazioni online, come Robots.txt Checker e Screaming Frog, che offrono analisi dettagliate e identificano potenziali problemi nel file.