La creazione del file robots.txt è uno dei primi passi che si dovrebbe compiere per garantire una corretta indicizzazione delle pagine da parte dei motori di ricerca.

In questo articolo, esamineremo cos’è il file robots.txt, come funziona e come utilizzarlo correttamente per ottimizzare la SEO del tuo sito web.

Cos’è il file robots.txt?

Si tratta di un file di testo che viene collocato nella directory principale del sito web e che contiene una lista di istruzioni che i robot dei motori di ricerca seguono per navigare nel sito web.

Ogni volta che un motore di ricerca naviga nel sito web, prima di esplorarlo, controlla il file robots.txt per capire quali sono le pagine e le sezioni del sito web che devono essere ignorate o escluse dall’indicizzazione.

Uncommon file robots.txt

A cosa serve il file robots.txt?

Vediamo i casi più comuni per i quali si utilizza il file robots.txt:

1. Ottimizzare il crawl budget

Il budget crawl è un parametro (valore) che Google assegna al nostro sito e successivamente spende per scansionarlo. Esso dipende dalle dimensioni, della struttura e della reputazione del sito web e può variare nel tempo. Gestire il budget crawl diventa quindi importante per assicurarsi che il motore di ricerca scansioni le pagine più importanti e rilevanti del sito web, in modo che queste vengano indicizzate e compaiano nei risultati di ricerca.

Bloccando le pagine non necessarie con il robots.txt, Googlebot può destinare una parte maggiore del budget di scansione alle pagine importanti del tuo sito. Ciò significa che le pagine importanti del tuo sito vengono indicizzate più rapidamente e aumenta la probabilità che si classifichino.

2. Bloccare le pagine duplicate e quelle non pubbliche

Alcune pagine non necessitano di essere scansionate dai motori di ricerca, ad esempio le pagine dell’area riservata o le pagine di staging. Queste pagine non sono destinate alla visualizzazione pubblica e non hanno la necessità di essere indicizzate. Inoltre, le pagine duplicate possono avere un impatto negativo sulla classifica del sito web, dal momento che i motori di ricerca tendono a preferire il contenuto unico e originale.

In queste situazioni, l’utilizzo del file robots.txt può essere di grande aiuto, in quanto consente di bloccare l’accesso ai motori di ricerca a queste pagine e impedire che siano indicizzate. In questo modo, gli amministratori del sito web possono garantire che solo il contenuto più importante e rilevante sia indicizzato dai motori di ricerca, migliorando la visibilità e la classifica del sito web.

3. Nascondere risorse

Ci sono alcune circostanze in cui è opportuno evitare che i motori di ricerca indicizzino risorse specifiche come ad esempio PDF, video e immagini presenti all’interno del sito web. Questo potrebbe essere necessario per motivi di privacy, oppure per garantire che i motori di ricerca si concentrino sui contenuti più importanti e rilevanti del sito web. In questi casi, l’utilizzo del file robots.txt può essere un’ottima soluzione per impedire che queste risorse vengano indicizzate.

La sintassi del file robots.txt.

Il file robots.txt può essere creato con un semplice editor di testo, come Notepad o TextEdit. Il contenuto del file deve essere scritto in un preciso formato e salvato nella root principale del tuo sito web.

La sua sintassi è relativamente semplice. Il file consiste in una serie di istruzioni chiamate “direttive”, che specificano quali parti del tuo sito web devono essere escluse dai web crawler. Le direttive sono formattate in una particolare struttura, composta da: “User-agent”, “Disallow”, “Allow” e “Sitemap”.

User-agent

L’User-agent specifica il web crawler a cui la direttiva si riferisce. Questo può essere specificato in diverse maniere. Ad esempio, se si desidera creare una direttiva per Googlebot, il principale crawler di Google, è possibile utilizzare il seguente comando:

User-agent: Googlebot

Se si desidera creare una direttiva per tutti i web crawler, è possibile utilizzare l’asterisco (*), come segue:

User-agent: *

Disallow

La direttiva Disallow, specifica quali pagine devono essere escluse dal web crawler. Ad esempio, se si desidera escludere l’accesso a tutte le pagine che si trovano nella cartella “private”, è possibile utilizzare il seguente comando:

Disallow: /private/

Allow

La direttiva Allow specifica quali pagine devono essere scansionate dal web crawler. Di default, non inserendo questa direttiva, il crawler scansionerà tutte le pagine del sito eccetto quelle indicate con il comando Disallow.

Il comando Allow risulta utile se per esempio vogliamo impedire ai crawler di accedere al blog eccetto per un articolo:

Disallow: /blog
Allow: /blog/nome-post

Sitemap

La direttiva “Sitemap” indica ai motori di ricerca dove trovare la tua sitemap XML. Solitamente questa direttiva va posizionata in fondo al documento, come ultimo elemento.

Ti invitiamo a leggere questo articolo se sei interessato a capire cos’è una sitemap.

User-agent: *
Disallow: /blog
Allow: /blog/nome-post
Sitemap: https://nomesito.it/sitemap_index.xml

Come vedere il file robots.txt.

Se sei interessato a trovare il file robots.txt di un sito web, ci sono diversi modi per farlo. I due metodi più comuni sono:

  • Digitare l’URL /robots.txt
    La prima e più semplice opzione è quella di digitare l’URL del sito web seguito da “/robots.txt” nella barra degli indirizzi del browser. Ad esempio, se vuoi trovare il file robots.txt di Uncommon, dovresti digitare https://weareuncommon.it/robots.txt.

    Uncommon file robots.txt
    Uncommon file robots.txt
  • Utilizzare gli strumenti per webmaster dei motori di ricerca
    Alcuni motori di ricerca offrono strumenti per webmaster che consentono di accedere alle informazioni del sito web, inclusi i file robots.txt. Ad esempio, Google Search Console fornisce un’opzione “robots.txt Tester” che ti consente di verificare il file robots.txt di un sito web e di identificare eventuali problemi.

Esempi di file robots.txt.

Ecco dieci esempi pratici di come puoi utilizzare questo file per gestire l’accesso dei bot:

1. Blocco totale: impedire a tutti i bot di accedere a tutto il tuo sito. Questa configurazione può tornare utile nel momento in cui devi costruire il tuo sito web online ma non vuoi che sia visibile nei risultati di ricerca fino al momento del lancio.

User-agent: *
Disallow: /

2. Accesso completo: Per permettere a tutti i bot di accedere a tutto il sito. Questa è la classica configurazione base che dovrebbe avere ogni sito web che vuole essere indicizzato.

User-agent: *
Disallow:

3. Blocco di una specifica directory: Per impedire ai bot di accedere a una specifica directory (ad esempio, /admin/):

User-agent: *
Disallow: /admin/

4. Blocco di un file specifico: Se vuoi impedire ai bot di accedere a un file specifico.

User-agent: *
Disallow: /nome-file.html

5. Blocco di un certo tipo di file: Se vuoi che i bot non indicizzino le tue immagini:
makefile

User-agent: *
Disallow: /*.jpg$

6. Accesso selettivo: Se vuoi bloccare solo un particolare bot (ad esempio, Googlebot) da una sezione:

User-agent: Googlebot
Disallow: /private-section/

7. Consentire un’eccezione: Puoi anche disallow una directory ma consentire l’accesso a un file specifico all’interno:

User-agent: *
Disallow: /private/
Allow: /private/nome-file.html

8. Ritardo nella scansione: Se vuoi ridurre il carico sul server limitando la frequenza di scansione di un bot (ad esempio, 10 secondi tra le richieste):

User-agent: *
Crawl-delay: 10

9. Indicazione della sitemap: Puoi dire ai bot dove trovare il file sitemap del tuo sito:

Sitemap: https://www.nomesito.com/sitemap.xml

10. Blocco di risorse esterne: Se hai contenuti ospitati su CDN o domini esterni e desideri bloccare i bot da lì, puoi specificare il percorso completo:

User-agent: *
Disallow: https://cdn.nomesito.com/private/

Tester robots.txt.

Esistono diversi strumenti dedicati per testare se è il file robots è impostato correttamente.

Google Search Console offre un “Tester robots.txt” che non solo verifica la validità del tuo file, ma mostra anche come Googlebot leggerebbe e interpreterebbe ciascuna direttiva.

Similmente, Bing Webmaster Tools fornisce uno strumento analogo per gli utenti che desiderano ottimizzare per Bing.

Oltre a questi, ci sono diversi software e applicazioni online, come Robots.txt Checker e Screaming Frog, che offrono analisi dettagliate e identificano potenziali problemi nel file.

Robots.txt vs Meta tag “robots”.

Mentre entrambi, il file robots.txt e il meta tag “robots”, svolgono ruoli cruciali nella gestione di come i motori di ricerca interagiscono con il contenuto del sito web, le loro funzioni e implementazioni sono distintamente diverse.

Il robots.txt, come abbiamo visto nei paragrafi precedenti, è un file collocato nella directory principale di un sito e fornisce istruzioni ai bot dei motori di ricerca su quali parti del sito dovrebbero o non dovrebbero accedere e scansionare. Ad esempio, può bloccare l’accesso a intere directory o tipi di file specifici.

D’altra parte, il meta tag “robots” è un tag inserito nell’intestazione HTML di una singola pagina web e può controllare come i motori di ricerca dovrebbero trattare quella specifica pagina in termini di indicizzazione e collegamento.
Esso può fornire direttive come “noindex” (per dire ai motori di ricerca di non indicizzare quella pagina) o “nofollow” (per dire ai motori di ricerca di non seguire i link su quella pagina).

<head>
<meta name="robots" content="index, nofollow" />
</head>

Mentre il robots.txt funziona come una barriera all’ingresso, il meta tag “robots” fornisce istruzioni specifiche una volta che il bot ha già accesso alla pagina.

Entrambi sono strumenti potenti e complementari che, quando utilizzati correttamente, permettono ai proprietari dei siti web di avere un controllo granulare sulla loro presenza nei motori di ricerca.