Cómo bloquear o eliminar páginas con un archivo robots.txt

Cómo bloquear o eliminar páginas con un archivo robots

En alguna ocasión, puede que nos veamos en la necesidad de bloquear o eliminar páginas con un archivo robots.txt para que los buscadores no las indexen.

Cómo bloquear o eliminar páginas con un archivo robots.txt

El archivo robots.txt se encarga de registrir el acceso de los robots a un determinado sitio. Los robots, que son automatizados, siempre verifican la existencia de este archivo antes de pasarse por una web para indexarla luego.

Usar un archivo robots.txt es realmente necesario solamente en caso de que sitio tenga contenido que no quieres que sea indexado por los buscadores. Si quieres que todo tu sitio por completo sea indexado, el archivo robots.txt no es necesario.

Si bien Google no indexará el contenido, sí podría indexar la URL y arrojarla luego en un resultado de búsqueda.

Robots.txt usa solamente dos reglas sencillas:

-User-Agent: el robot al que se aplica la siguiente regla
-Disallow: la URL que quieres bloquear

Dos ejemplos serían:

User-Agent: Googlebot
Disallow: /carpeta/
 
User-Agent: *
Disallow: /carpeta/

En el primer caso, solamente los bots de Google no pueden indexar el contenido de “carpeta”, mientras que en el segundo ningún bot puede hacerlo.

Bloquear user-agents es algo paercido. Los ‘user-agents’ son los distintos robots, los cuales podemos ver aquí. Es otra forma de bloqueo para impedir que se indexen los resultados. Por ejemplo:

User-agent: User-agent: Googlebot-Image
Disallow: /imagenes/gatos.jpg

Aquí estaríamos impidiendo que el bot de imágenes de Google indexe la imagen “gatos.jpg”. También podemos bloquear un tipo de archivo:

User-agent: User-agent: Googlebot-Image
Disallow: /imagenes/*.jpg$

El archivo robots.txt es muy bueno para evitar que se indexen páginas, te recomendamos que lo estudies en profundidad para aprender a manejarlo correctamente y también de igual manera, evitar errores que pueden costar muy caro a tu posicionamiento.

2 Comentarios

  1. Está perfectamente explicado, me guardo el listado de robots, aunque normalmente cuando uno no quiere indexar una página es para todos los robots, aunque se puede dar el caso en concreto de que no quieras indexar solo para google.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *