Question 1

¿Qué es un archivo robots.txt y por qué es importante para el SEO?

Accepted Answer

Un archivo robots.txt es un archivo de texto sin formato en la raíz de tu dominio (p. ej. example.com/robots.txt) que indica a los rastreadores web a qué páginas o secciones pueden o no pueden acceder. Forma parte del Protocolo de Exclusión de Robots. Para el SEO, robots.txt controla qué páginas rastrea Googlebot, ayuda a gestionar el presupuesto de rastreo en sitios grandes y evita que las páginas duplicadas o de bajo valor consuman recursos de rastreo. Un robots.txt mal configurado puede bloquear accidentalmente secciones enteras de tu sitio de la indexación.

Question 2

¿Cuál es la diferencia entre Disallow y noindex?

Accepted Answer

Disallow en robots.txt evita que los rastreadores accedan a una URL, pero la URL aún puede aparecer en los resultados de búsqueda si otras páginas enlazan a ella (Google puede indexar la URL sin rastrear el contenido). La meta etiqueta noindex o el encabezado HTTP le dice a los rastreadores que pueden rastrear la página pero no deben incluirla en los resultados de búsqueda. Para evitar la indexación, usa noindex. Para ahorrar presupuesto de rastreo en páginas que definitivamente no quieres rastrear (como áreas de administración), usa Disallow. Nunca uses tanto Disallow como noindex en la misma página — si Disallow está configurado, Google no puede leer la directiva noindex.

Question 3

¿Cómo bloqueo bots de IA como GPTBot y ClaudeBot?

Accepted Answer

Para bloquear bots de entrenamiento de IA, añade reglas User-agent específicas a tu robots.txt. Por ejemplo: User-agent: GPTBot seguido de Disallow: / bloqueará todo el acceso de OpenAI GPTBot. Para ClaudeBot (Anthropic), añade User-agent: ClaudeBot con Disallow: /. También puedes usar User-agent: * con Disallow: / para bloquear todos los bots y luego permitir selectivamente Googlebot. Ten en cuenta que bloquear los bots de IA no afecta tu posicionamiento en los motores de búsqueda a menos que bloquees accidentalmente Googlebot u otros rastreadores importantes.

Question 4

¿Afecta robots.txt a las Core Web Vitals o a la velocidad de la página?

Accepted Answer

El archivo robots.txt en sí no afecta las Core Web Vitals. Sin embargo, bloquear a Googlebot el acceso a archivos CSS y JavaScript puede impedirle renderizar tus páginas correctamente, lo que puede hacer que Google malinterprete tu contenido y potencialmente afecte los rankings. Permite siempre a Googlebot acceder a todos los recursos necesarios para renderizar tus páginas, incluyendo los archivos JS y CSS. Usa la herramienta de Inspección de URL en Google Search Console para ver cómo Google renderiza tus páginas.

Analizador de robots.txt

Cómo usar el analizador de robots.txt

Errores comunes en robots.txt que dañan el SEO

Preguntas frecuentes

¿Qué es un archivo robots.txt y por qué es importante para el SEO?

¿Cuál es la diferencia entre Disallow y noindex?

¿Cómo bloqueo bots de IA como GPTBot y ClaudeBot?

¿Afecta robots.txt a las Core Web Vitals o a la velocidad de la página?

Herramientas relacionadas

¿Necesitas una auditoría SEO técnica completa?