🤖 ¿Qué es robots.txt?
El archivo robots.txt es un archivo de texto ubicado en el directorio raíz de un sitio web que instruye a los rastreadores web (bots de motores de búsqueda) qué partes del sitio pueden y no pueden acceder. Es parte del Protocolo de Exclusión de Robots (REP), un estándar utilizado por los sitios web para comunicarse con rastreadores web automatizados. Aunque no es una medida de seguridad (los rastreadores determinados pueden ignorarlo), es una herramienta esencial para SEO y gestión de recursos del servidor. La herramienta Generador de robots.txt de arriba te ayuda a crear un archivo robots.txt correctamente formateado para tu sitio web.
Generador de robots.txt (arriba) crea un archivo robots.txt profesional con user-agents personalizables, rutas disallow, sitemaps y directivas avanzadas. Elige entre plantillas o configura manualmente, luego descarga o copia el resultado.
📜 La Historia de robots.txt
El Protocolo de Exclusión de Robots fue creado en 1994 por Martijn Koster y otros webmasters preocupados por que el tráfico de rastreadores sobrecargara sus servidores. La primera especificación se desarrolló en la lista de correo www-talk. Desde entonces, se ha convertido en un estándar utilizado por todos los principales motores de búsqueda, incluyendo Google, Bing, Yahoo, Yandex y Baidu. El protocolo no es un estándar oficial pero es ampliamente adoptado y respetado.
1994
Año de Creación de robots.txt
RFC 9309
Especificación Oficial (2022)
50+
Rastreadores Soportados
📋 Directivas Esenciales de robots.txt
| Directiva |
Descripción |
Ejemplo |
User-agent |
Especifica a qué robot se aplican las siguientes reglas |
User-agent: * (todos los bots) |
Disallow |
Rutas que NO deben ser rastreadas |
Disallow: /admin/ |
Allow |
Rutas que SÍ pueden ser rastreadas (sobrescribe Disallow) |
Allow: /public/ |
Sitemap |
Ubicación del/los sitemap(s) XML |
Sitemap: https://site.com/sitemap.xml |
Crawl-delay |
Retraso entre solicitudes (segundos) |
Crawl-delay: 5 |
Host |
Dominio preferido (no oficial, usado por Yandex) |
Host: www.example.com |
Consejo Profesional: Usa User-agent: * para reglas que se aplican a todos los rastreadores. Para bots específicos como Googlebot, usa User-agent: Googlebot. Las reglas de user-agent más específicas anulan las generales.
🔧 Configuraciones Comunes de robots.txt
Permitir Todo (Predeterminado)
User-agent: *
Allow: /
Permite que todos los rastreadores accedan a todo el contenido. Este es el comportamiento predeterminado incluso sin un archivo robots.txt.
Bloquear Todo
User-agent: *
Disallow: /
Bloquea que todos los rastreadores accedan a cualquier parte del sitio. Usa con precaución: esto evitará que los motores de búsqueda indexen tu sitio por completo.
Bloquear Directorios Específicos
User-agent: *
Disallow: /admin/
Disallow: /privado/
Disallow: /tmp/
Bloquear Rastreadores Específicos
User-agent: BadBot
Disallow: /
User-agent: *
Allow: /
Bloquea un bot específico mientras permite a los demás.
"Un archivo robots.txt correctamente configurado le dice a los motores de búsqueda exactamente qué quieres que vean y qué ignorar. No se trata de ocultar contenido, sino de guiar a los rastreadores hacia lo que más importa."
— Mejores prácticas de SEO
🎯 Por Qué robots.txt es Importante para SEO
Un archivo robots.txt bien configurado proporciona varios beneficios de SEO:
- Optimización del Presupuesto de Rastreo: Evita que los motores de búsqueda pierdan tiempo en páginas de bajo valor (áreas de administración, resultados de búsqueda, contenido duplicado).
- Control de Indexación: Dirige a los rastreadores lejos de páginas que no quieres en los resultados de búsqueda.
- Descubrimiento de Sitemap: Ayuda a los motores de búsqueda a encontrar tu sitemap XML, que contiene todas las páginas importantes.
- Gestión de Recursos: Reduce la carga del servidor evitando rastreos innecesarios.
Características del Generador de robots.txt:
- Plantillas preconstruidas para blogs, e-commerce, sitios corporativos y configuraciones restrictivas
- Selección de user-agent personalizado para los principales motores de búsqueda (Google, Bing, Yahoo, Yandex, Baidu, DuckDuckGo)
- Añade rutas disallow y sitemaps ilimitados
- Opciones avanzadas: directivas crawl-delay y host
- Vista previa en tiempo real con resaltado de sintaxis
- Descarga como archivo .txt o copia al portapapeles
⚠️ Errores Comunes de robots.txt a Evitar
- Bloquear CSS y JavaScript: Los motores de búsqueda modernos necesitan estos para renderizar páginas correctamente. Nunca bloquees CSS, JS o archivos de imagen a menos que sea absolutamente necesario.
- Usar robots.txt para Seguridad: robots.txt es público. Cualquiera puede ver qué directorios estás tratando de ocultar. Usa autenticación adecuada para contenido sensible.
- Falta de Directiva Sitemap: Siempre incluye la URL de tu sitemap para ayudar a los motores de búsqueda a descubrir tu contenido.
- Sintaxis Incorrecta: Faltan dos puntos, rutas incorrectas o caracteres inválidos pueden hacer que las directivas sean ignoradas.
- Bloquear Todo el Sitio Accidentalmente: Verifica que
Disallow: / solo se use cuando realmente quieras bloquear la indexación.
🕷️ User-Agents de los Principales Motores de Búsqueda
- Googlebot: Rastreador principal de Google
- Bingbot: Rastreador de Microsoft Bing
- Slurp: Rastreador de Yahoo
- DuckDuckBot: Rastreador de DuckDuckGo
- Baiduspider: Rastreador de Baidu (China)
- Yandex: Rastreador de Yandex (Rusia)
Usa user-agents específicos para aplicar reglas a motores de búsqueda individuales mientras permites a otros.
Prueba Tu Archivo
Usa el probador de robots.txt de Google Search Console para verificar tu configuración antes de la implementación.
Incluye Tu Sitemap
Siempre añade la directiva Sitemap para ayudar a los rastreadores a encontrar tu contenido eficientemente.
Usa Crawl-delay con Moderación
Crawl-delay puede limitar demasiado el rastreo. Úsalo solo si tu servidor tiene dificultades con el tráfico.
Valida la Sintaxis
Asegúrate de que cada directiva esté en su propia línea, sin espacios antes de los dos puntos.
📁 Dónde Colocar robots.txt
El archivo robots.txt debe colocarse en el directorio raíz de tu sitio web. Por ejemplo:
https://ejemplo.com/robots.txt
https://www.ejemplo.com/robots.txt
El archivo debe ser accesible vía HTTP y debe ser un archivo de texto plano. Es sensible a mayúsculas y minúsculas: usa minúsculas para los nombres de archivo.
🔍 Probando Tu Archivo robots.txt
Después de crear tu archivo robots.txt, pruébalo usando:
- Google Search Console: La herramienta probadora de robots.txt muestra exactamente cómo Googlebot ve tu archivo.
- Bing Webmaster Tools: Funcionalidad de prueba similar para Bingbot.
- curl o wget: Obtén el archivo directamente para verificar que sea accesible.
❓ Preguntas Frecuentes Sobre robots.txt
¿robots.txt evita la indexación?
No. robots.txt evita el rastreo, no la indexación. Si otras páginas enlazan a una página no permitida, aún puede ser indexada. Usa la metaetiqueta noindex o la cabecera X-Robots-Tag para evitar la indexación.
¿Puedo bloquear imágenes o PDFs?
Sí. Puedes especificar rutas a directorios de imágenes o tipos de archivo específicos para evitar que aparezcan en los resultados de búsqueda de imágenes.
¿Cuál es la diferencia entre Disallow y noindex?
Disallow detiene a los rastreadores de acceder a una página. noindex permite el rastreo pero indica a los motores de búsqueda que no incluyan la página en los resultados de búsqueda. Usa noindex para páginas que quieres que sean rastreadas pero no indexadas.
¿Cuánto tiempo tardan en surtir efecto los cambios en robots.txt?
Los motores de búsqueda suelen volver a buscar robots.txt cada pocos días. Puedes acelerar el proceso usando la función "Solicitar indexación" de Google Search Console.
¿Debo tener un archivo robots.txt si no tengo nada que bloquear?
No es necesario, pero incluir una directiva sitemap puede ayudar a los motores de búsqueda a descubrir tu contenido. Un archivo vacío está bien, pero no tener ninguno también es aceptable.
Un archivo robots.txt bien configurado es una parte esencial de cualquier estrategia de SEO. Ayuda a los motores de búsqueda a rastrear tu sitio eficientemente, evita el desperdicio del presupuesto de rastreo y asegura que tu contenido más importante sea descubierto. Usa el Generador de robots.txt para crear tu archivo, pruébalo con las herramientas de consola de búsqueda y monitorea el rendimiento de rastreo de tu sitio con el tiempo.