La creazione del file robots.txt è uno dei primi passi che si dovrebbe compiere per garantire una corretta indicizzazione delle pagine da parte dei motori di ricerca. In questo articolo, esamineremo cos’è il file robots.txt, come funziona e come utilizzarlo correttamente per ottimizzare la SEO del tuo sito web.

Cos’è il file robots.txt?

Si tratta di un file di testo che viene collocato nella directory principale del sito web e che contiene una lista di istruzioni che i robot dei motori di ricerca seguono per navigare nel sito web. Ogni volta che un motore di ricerca naviga nel sito web, prima di esplorarlo, controlla il file robots.txt per capire quali sono le pagine e le sezioni del sito web che devono essere ignorate o escluse dall’indicizzazione.

Uncommon file robots.txt

A cosa serve il file robots.txt?

Vediamo i casi più comuni per i quali si utilizza il file robots.txt:

1. Ottimizzare il crawl budget

Il budget crawl è un parametro (valore) che Google assegna al nostro sito e successivamente spende per scansionarlo. Esso dipende dalle dimensioni, della struttura e della reputazione del sito web e può variare nel tempo. Gestire il budget crawl diventa quindi importante per assicurarsi che il motore di ricerca scansioni le pagine più importanti e rilevanti del sito web, in modo che queste vengano indicizzate e compaiano nei risultati di ricerca.

Bloccando le pagine non necessarie con il robots.txt, Googlebot può destinare una parte maggiore del budget di scansione alle pagine importanti del tuo sito. Ciò significa che le pagine importanti del tuo sito vengono indicizzate più rapidamente e aumenta la probabilità che si classifichino.

2. Bloccare le pagine duplicate e quelle non pubbliche

Alcune pagine non necessitano di essere scansionate dai motori di ricerca, ad esempio le pagine dell’area riservata o le pagine di staging. Queste pagine non sono destinate alla visualizzazione pubblica e non hanno la necessità di essere indicizzate. Inoltre, le pagine duplicate possono avere un impatto negativo sulla classifica del sito web, dal momento che i motori di ricerca tendono a preferire il contenuto unico e originale.

In queste situazioni, l’utilizzo del file robots.txt può essere di grande aiuto, in quanto consente di bloccare l’accesso ai motori di ricerca a queste pagine e impedire che siano indicizzate. In questo modo, gli amministratori del sito web possono garantire che solo il contenuto più importante e rilevante sia indicizzato dai motori di ricerca, migliorando la visibilità e la classifica del sito web.

3. Nascondere risorse

Ci sono alcune circostanze in cui è opportuno evitare che i motori di ricerca indicizzino risorse specifiche come ad esempio PDF, video e immagini presenti all’interno del sito web. Questo potrebbe essere necessario per motivi di privacy, oppure per garantire che i motori di ricerca si concentrino sui contenuti più importanti e rilevanti del sito web. In questi casi, l’utilizzo del file robots.txt può essere un’ottima soluzione per impedire che queste risorse vengano indicizzate.

La sintassi del file robots.txt.

Il file robots.txt può essere creato con un semplice editor di testo, come Notepad o TextEdit. Il contenuto del file deve essere scritto in un preciso formato e salvato nella root principale del tuo sito web.

La sua sintassi è relativamente semplice. Il file consiste in una serie di istruzioni chiamate “direttive”, che specificano quali parti del tuo sito web devono essere escluse dai web crawler. Le direttive sono formattate in una particolare struttura, composta da: “User-agent”, “Disallow”, “Allow” e “Sitemap”.

User-agent

L’User-agent specifica il web crawler a cui la direttiva si riferisce. Questo può essere specificato in diverse maniere. Ad esempio, se si desidera creare una direttiva per Googlebot, il principale crawler di Google, è possibile utilizzare il seguente comando:

User-agent: Googlebot

Se si desidera creare una direttiva per tutti i web crawler, è possibile utilizzare l’asterisco (*), come segue:

User-agent: *

Disallow

La direttiva Disallow, specifica quali pagine devono essere escluse dal web crawler. Ad esempio, se si desidera escludere l’accesso a tutte le pagine che si trovano nella cartella “private”, è possibile utilizzare il seguente comando:

Disallow: /private/

Allow

La direttiva Allow specifica quali pagine devono essere scansionate dal web crawler. Di default, non inserendo questa direttiva, il crawler scansionerà tutte le pagine del sito eccetto quelle indicate con il comando Disallow.

Il comando Allow risulta utile se per esempio vogliamo impedire ai crawler di accedere al blog eccetto per un articolo:

Disallow: /blog
Allow: /blog/nome-post

Sitemap

La direttiva “Sitemap” indica ai motori di ricerca dove trovare la tua sitemap XML. Solitamente questa direttiva va posizionata in fondo al documento, come ultimo elemento.

Ti invitiamo a leggere questo articolo se sei interessato a capire cos’è una sitemap.

User-agent: *
Disallow: /blog
Allow: /blog/nome-post
Sitemap: https://nomesito.it/sitemap_index.xml

Come vedere il file robots.txt.

Se sei interessato a trovare il file robots.txt di un sito web, ci sono diversi modi per farlo. I due metodi più comuni sono:

  • Digitare l’URL /robots.txt
    La prima e più semplice opzione è quella di digitare l’URL del sito web seguito da “/robots.txt” nella barra degli indirizzi del browser. Ad esempio, se vuoi trovare il file robots.txt di Uncommon, dovresti digitare https://weareuncommon.it/robots.txt.

    Uncommon file robots.txt
    Uncommon file robots.txt
  • Utilizzare gli strumenti per webmaster dei motori di ricerca
    Alcuni motori di ricerca offrono strumenti per webmaster che consentono di accedere alle informazioni del sito web, inclusi i file robots.txt. Ad esempio, Google Search Console fornisce un’opzione “robots.txt Tester” che ti consente di verificare il file robots.txt di un sito web e di identificare eventuali problemi.