Robots.txt ¿Necesario en 2024?

El archivo robots.txt es un archivo de texto que se coloca en el directorio raíz de un sitio web para indicar a los robots de los motores de búsqueda

Publicado:

April 27, 2024

5 min

Editorial Instantes MKT

Work Team

El archivo robots.txt es una herramienta fundamental en el mundo del SEO, destinada a comunicar a los motores de búsqueda cómo deben interactuar con las páginas de un sitio web. Aunque su concepto es simple, su impacto en la visibilidad y indexación de un sitio puede ser significativo. Veamos de qué se trata y cómo funciona exactamente.

¿Qué es el archivo robots.txt?

El archivo robots.txt es un archivo de texto que se coloca en el directorio raíz de un sitio web para indicar a los robots de los motores de búsqueda (como Googlebot o Bing) qué partes del sitio no deben ser procesadas o indexadas.

Por lo general, se ubica en la carpeta raíz que aloja la pagina y son normalmente fáciles de consultar por cualquier usuario, solo debe escribir /robots.txt al final del dominio. Cabe destacar que este archivo no requiere de programas especiales, solo debes hacer uso de un bock de notas y anotar los comandos que necesitas.

¿Cómo funciona el archivo robots.txt?

Los buscadores clasifican y ordenan todas las páginas web de acuerdo con el contenido de cada una, esto es lo que conocemos como indexación. En este contexto, es necesario que las páginas estén indexadas, y de esta forma el buscador pueda mostrar las páginas en las SERP a los usuarios.

Cada cierto tiempo, los robots también conocidos como “arañas” dan un recorrido a las páginas, con el objetivo de mantener los índices actualizados, revisando nuevo contenido y añadiéndolo. Por lo que se encargan de:

  1. Rastrear la web para descubrir nuevos contenidos.
  2. Indexar estos contenidos para facilitar su aparición en las búsquedas.

 

A pesar de la necesidad de tener páginas indexadas, ciertos elementos de un sitio web, como formularios, páginas de políticas e imágenes, pueden no ser relevantes para aparecer en los resultados de búsqueda. Por tanto, no siempre es deseable que estos contenidos sean accesibles mediante búsquedas.

Para gestionar qué contenido debe ser rastreado o ignorado, las arañas consultan el archivo robots.txt del sitio web, que especifica las URL que deben o no ser exploradas.   

¿Cómo encontrar un archivo robots.txt?

Como te comentábamos anteriormente, el archivo robots.txt, se encuentra alojado en el servidor. Y este archivo puedes verlo escribiendo en la URL completa de cualquier web y agregándole al final /robots.txt.

Cabe destacar que un archivo robots.txt debe estar siempre en la raíz de tu dominio. Por ejemplo, www.ejemplo.com, el archivo txt se encuentra en www.ejemplo.com/robots.txt. Si lo ubicas en otro lugar, los rastreadores asumirán que no tienes dicho archivo.

Sintaxis del archivo Robots.txt

En el uso de archivos robots.txt se recurre a una lista de órdenes, las cuales se ejecutan de forma jerárquica. A continuación, te mencionamos los comandos más usados.

Este comando indica a qué robot van dirigidas las instrucciones, ya que se pueden crear comandos para ser seguidos por diferentes rastreadores como Google o Bing en el mismo archivo. Igualmente hay una lista detallada para que verifiques los diferentes agentes de usuarios.

Este comando especifica a qué partes de tu web no puede acceder el rastreador. Por lo tanto, una línea “disallow” vacía indica que no estás deshabilitando nada, por lo que el rastreador puede podrá acceder a todas las secciones de tu web.

Allow es el comando que permite a los motores de búsqueda rastrear un subdirectorio o una página. Incluso en un directorio que esté prohibido. 

Rastreadores como Googlebot y Bing admiten este tipo de comando. 

Con este comando se indica a los motores de búsqueda (Google, Bing, Yandex), donde encontrar tu sitemap XML. Esta directiva se encuentra en la parte superior o inferior de un archivo robots.txt, por lo general los sitemaps incluyen las páginas que quieres que los motores de búsqueda indexen.  

Es importante aclarar que debes enviar tu ditemap XML a cada motor de búsqueda, haciendo uso de herramientas para webmasters. 

Aunque un archivo robots.txt indica a un bot si puede o no puede rastrear una página, no puede decirle a un motor de búsqueda qué URL no debe indexar y mostrar en los resultados de búsqueda. Por lo que, la página seguirá apareciendo en los resultados, sin embargo, el bot no sabrá lo que contiene.  

Cabe destacar que, Google nunca apoyó este comando. Aun así, para los profesionales del SEO seguía las instrucciones. En 2019 Google indicó que este comando no es compatible.  

Por lo tanto, para excluir de forma confiable una página, no hagas uso de este comando. Y en su lugar, utiliza una etiqueta noindex.  

Guía de buenas prácticas

Límites de los robots.txt

Cabe destacar que el archivo robots.txt es solo una herramienta más para evitar la indexación de contenido, o para la solicitud de revisión por parte de los buscadores para la actualización de la web. Y es que, estos robots se encargan de evitar que los rastreadores indexen contenido al recorrer la web, aun así, las arañas no están obligadas a obedecer el archivo. Es decir, funciona como una referencia que se deja al algoritmo, y que en su mayoría cumplen. 

Además, debes tener en cuenta que una vez que el contenido ha sido indexado en un buscado, hacer uso del comando disallow no hará que el contenido deje de estar indexado. 

Otro de los puntos a considerar es que, si otro sitio web coloca una URL que lleve hacia tu página, la cual ha sido bloqueada con este archivo, este igual puede indexarse. Por ello, es fundamental saber cómo funciona el algoritmo de rastreo y de esta forma evitarse mayores complicaciones. Para ello, debes tener en cuenta las novedades indicadas por Google.  

Preguntas frecuentes (FAQ)

Sí, indirectamente, al permitir que los motores de búsqueda se enfoquen en las páginas más relevantes y al proteger el contenido que no se desea indexar. 

Es importante revisar y modificar el archivo robots.txt para asegurarse de que permite el acceso a las páginas clave para el SEO.

Utiliza las herramientas de Google Search Console para verificar cómo los robots de Google ven y rastrean tu sitio según tu archivo robots.txt. 

Sí, cada subdominio se trata como un sitio separado y debe tener su propio archivo robots.txt para gestionar el acceso de los robots de forma efectiva. 

Uno de los errores más comunes es el bloqueo accidental de recursos importantes que afecta la capacidad de los motores de búsqueda para indexar el sitio correctamente. 

Compartir:

Mejores resultados, mejores videos y mejor desempeño
te esperan del otro lado de la puerta

Mejores resultados, mejores videos y mejor desempeño
te esperan del otro lado de la puerta

También podría interesarte

En el saturado mundo del internet, donde cada sitio web compite por captar ...

June 21, 2024

6 min

Emmaly Valdiviezo

Redactora SEO

En un movimiento sorprendente, LinkedIn se ha reinventado al introducir vid...

June 14, 2024

5 min

Said Ramos

Chief Marketing Officer

Aprende las estrategias clave, desde la investigación de palabras clave has...

May 24, 2024

13 mi...

Emmaly Valdiviezo

Redactora SEO

Esta semana, OpenAI nos sorprendió con el lanzamiento de la nueva versión d...

May 17, 2024

5 min

Emmaly Valdiviezo

Redactora SEO

Instantes Geeks

¡Gracias por suscribirte!