Bots de IA que Crawlean tu Web: Quiénes Son y Cómo Controlarlos [2026]
Guía completa de los bots de IA que rastrean tu web: GPTBot, ClaudeBot, Google-Extended y más. Aprende a identificarlos, controlarlos y decidir qué permitir.
Bots de IA que Crawlean tu Web: Quiénes Son y Cómo Controlarlos [2026]
TLDR: En 2026, más de 57 bots de IA diferentes rastrean tu web para alimentar modelos de lenguaje como GPT, Claude, Gemini y Perplexity. The SEO Framework documentó 180.000 peticiones de bots de IA en solo 6 meses. Puedes controlarlos con robots.txt, pero la decisión de bloquear o permitir tiene implicaciones directas en tu visibilidad en los motores de búsqueda generativa (GEO). Esta guía te explica quién es cada bot, cómo identificarlo y qué estrategia seguir.
Por qué te debería importar quién crawlea tu web
Cada vez que publicas contenido en internet, no solo Google lo lee. En 2026, decenas de empresas de inteligencia artificial envían sus propios bots para rastrear, indexar y procesar tu contenido. Ese contenido termina alimentando modelos como GPT-5, Claude Opus, Gemini y los resultados de Perplexity.
Esto tiene tres implicaciones directas:
- Consumo de recursos del servidor: Los bots de IA generan tráfico real. Si tu hosting es limitado, 180.000 peticiones extra en 6 meses pueden afectar al rendimiento.
- Tu contenido entrena modelos comerciales: El texto que escribiste puede aparecer parafraseado en respuestas de ChatGPT o Claude sin que recibas atribución ni tráfico.
- Visibilidad en buscadores de IA: Si bloqueas a todos los bots, tu web desaparece de Perplexity, ChatGPT Search y los AI Overviews de Google.
El estudio de The SEO Framework publicado en 2025 fue el primero en cuantificar el volumen real: 57 bots de IA únicos realizaron más de 180.000 peticiones a un sitio de tamaño medio en apenas 6 meses. Eso es más tráfico del que muchos sitios reciben de usuarios reales.
La pregunta ya no es si te crawlean, sino cómo gestionarlo.
El ecosistema de bots de IA en 2026
Categorías de bots
No todos los bots de IA hacen lo mismo. Se pueden clasificar en cuatro categorías:
| Categoría | Qué hacen | Ejemplos |
|---|---|---|
| Entrenamiento de modelos | Descargan contenido para entrenar LLMs | GPTBot, CCBot, ClaudeBot |
| Búsqueda en tiempo real | Rastrean para dar respuestas actualizadas | ChatGPT-User, PerplexityBot |
| Resúmenes y AI Overviews | Generan resúmenes en buscadores | Google-Extended, Applebot-Extended |
| Investigación y datos | Recopilan datos para datasets | Common Crawl, Amazonbot |
Esta distinción es fundamental porque quizá quieras bloquear el entrenamiento pero permitir la búsqueda en tiempo real. Un bot como GPTBot se usa para entrenar modelos futuros, pero ChatGPT-User se usa para buscar información en el momento en que un usuario hace una consulta. Bloquear el segundo significa que ChatGPT no podrá citar tu web cuando alguien pregunte algo relacionado con tu contenido.
Los jugadores principales
Hay cinco grandes empresas cuyos bots generan el mayor volumen de tráfico IA:
- OpenAI: GPTBot (entrenamiento) + ChatGPT-User (búsqueda en tiempo real) + OAI-SearchBot (rastreo de búsqueda)
- Anthropic: ClaudeBot (entrenamiento y rastreo general) + anthropic-ai (investigación)
- Google: Google-Extended (entrenamiento de Gemini) + Googlebot (búsqueda general, incluye AI Overviews)
- Meta: Meta-ExternalAgent (entrenamiento de Llama) + FacebookExternalHit (previsualizaciones)
- Perplexity: PerplexityBot (rastreo para su motor de búsqueda IA)
Además, hay decenas de bots de empresas más pequeñas, datasets académicos y scrapers que se hacen pasar por crawlers legítimos.
Tabla completa de bots de IA: User-Agents, empresa y control
Esta es la referencia más completa en español de los bots de IA que crawlean la web en 2026. Para cada uno indicamos su user-agent exacto (el que aparece en tus logs), la empresa detrás, para qué lo usan y la directiva de robots.txt que lo controla.
Bots de OpenAI
| User-Agent | Empresa | Propósito | Directiva robots.txt |
|---|---|---|---|
GPTBot | OpenAI | Entrenamiento de modelos GPT | User-agent: GPTBot |
ChatGPT-User | OpenAI | Búsqueda en tiempo real (ChatGPT Search) | User-agent: ChatGPT-User |
OAI-SearchBot | OpenAI | Rastreo web para búsqueda | User-agent: OAI-SearchBot |
1Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)
ChatGPT-User es diferente: actúa cuando un usuario de ChatGPT pide buscar algo en la web. Si lo bloqueas, ChatGPT no podrá acceder a tu contenido en tiempo real, lo que significa cero posibilidades de aparecer como fuente citada.
Bots de Anthropic
| User-Agent | Empresa | Propósito | Directiva robots.txt |
|---|---|---|---|
ClaudeBot | Anthropic | Rastreo general y entrenamiento | User-agent: ClaudeBot |
anthropic-ai | Anthropic | Investigación y rastreo | User-agent: anthropic-ai |
Claude-Web | Anthropic | Acceso web desde Claude | User-agent: Claude-Web |
1Mozilla/5.0 (compatible; ClaudeBot/1.0; +claudebot@anthropic.com)
Anthropic ha sido relativamente transparente sobre sus prácticas de crawleo, publicando documentación sobre cómo bloquearlo y comprometiéndose a respetar robots.txt.
Bots de Google
| User-Agent | Empresa | Propósito | Directiva robots.txt |
|---|---|---|---|
Google-Extended | Entrenamiento de Gemini y AI Overviews | User-agent: Google-Extended | |
Googlebot | Búsqueda general (incluye AI Overviews) | User-agent: Googlebot |
Google-Extended impide que Google use tu contenido para entrenar Gemini y generar AI Overviews, pero no afecta a tu posicionamiento en búsqueda orgánica. Bloquear Googlebot sí te elimina de los resultados de búsqueda. Son dos cosas diferentes.Google creó Google-Extended precisamente para dar este control granular. Es la única empresa grande que separó claramente el crawler de IA del crawler de búsqueda.
Bots de Meta
| User-Agent | Empresa | Propósito | Directiva robots.txt |
|---|---|---|---|
Meta-ExternalAgent | Meta | Entrenamiento de modelos Llama | User-agent: Meta-ExternalAgent |
meta-externalagent | Meta | Variante del mismo crawler | User-agent: meta-externalagent |
FacebookExternalHit | Meta | Previsualizaciones de enlaces | User-agent: FacebookExternalHit |
Bots de Perplexity
| User-Agent | Empresa | Propósito | Directiva robots.txt |
|---|---|---|---|
PerplexityBot | Perplexity AI | Rastreo para motor de búsqueda IA | User-agent: PerplexityBot |
Si te interesa entender cómo funciona Perplexity como buscador, tenemos una comparativa completa de Perplexity vs ChatGPT vs Google.
Bots de Apple
| User-Agent | Empresa | Propósito | Directiva robots.txt |
|---|---|---|---|
Applebot-Extended | Apple | Entrenamiento de Apple Intelligence | User-agent: Applebot-Extended |
Applebot | Apple | Siri y Spotlight | User-agent: Applebot |
Applebot-Extended impide que Apple use tu contenido para IA, pero no afecta a Siri básico ni Spotlight.Otros bots de IA relevantes
| User-Agent | Empresa | Propósito | Directiva robots.txt |
|---|---|---|---|
CCBot | Common Crawl | Dataset público de la web | User-agent: CCBot |
Amazonbot | Amazon | Alexa y servicios IA | User-agent: Amazonbot |
Bytespider | ByteDance | Entrenamiento de modelos (TikTok) | User-agent: Bytespider |
cohere-ai | Cohere | Entrenamiento de modelos | User-agent: cohere-ai |
Diffbot | Diffbot | Extracción de datos estructurados | User-agent: Diffbot |
YouBot | You.com | Motor de búsqueda IA | User-agent: YouBot |
Timpibot | Timpi | Búsqueda descentralizada | User-agent: Timpibot |
Kangaroo Bot | Kangaroo LLM | Entrenamiento | User-agent: Kangaroo Bot |
img2dataset | LAION | Datasets de imágenes | User-agent: img2dataset |
omgili | Webz.io | Scraping de datos | User-agent: omgili |
Scrapy | Varios | Framework de scraping | User-agent: Scrapy |
PetalBot | Aspiegel (Huawei) | Motor de búsqueda Petal | User-agent: PetalBot |
ISSCyberRiskCrawler | ISS | Análisis de seguridad | User-agent: ISSCyberRiskCrawler |
Ai2Bot | Allen AI | Investigación académica | User-agent: Ai2Bot |
Sidetrade | Sidetrade | IA financiera | User-agent: Sidetrade |
Cómo identificar bots de IA en tus logs del servidor
Acceder a los logs
Dependiendo de tu hosting, los logs de acceso están en diferentes ubicaciones:
1# Apache2/var/log/apache2/access.log3 4# Nginx5/var/log/nginx/access.log6 7# cPanel8/home/usuario/access-logs/dominio.com9 10# Plesk11/var/www/vhosts/dominio.com/logs/access_ssl_log
Filtrar peticiones de bots de IA
Para encontrar bots de IA en tus logs, busca los user-agents conocidos:
1# Buscar todos los bots de IA principales2grep -iE "GPTBot|ClaudeBot|ChatGPT-User|Google-Extended|PerplexityBot|CCBot|Meta-ExternalAgent|Bytespider|anthropic-ai|Applebot-Extended|OAI-SearchBot|cohere-ai" /var/log/nginx/access.log
Contar peticiones por bot
1# Contar peticiones por cada bot de IA2grep -oiE "GPTBot|ClaudeBot|ChatGPT-User|Google-Extended|PerplexityBot|CCBot|Meta-ExternalAgent|Bytespider|Applebot-Extended|OAI-SearchBot" /var/log/nginx/access.log | sort | uniq -c | sort -rn
Resultado típico en un sitio de tamaño medio:
145832 CCBot2 28471 GPTBot3 19234 Bytespider4 14567 ClaudeBot5 9823 ChatGPT-User6 8421 PerplexityBot7 6234 Meta-ExternalAgent8 4123 Google-Extended9 3892 Applebot-Extended10 1456 OAI-SearchBot
Analizar el comportamiento
Los bots de IA tienen patrones de crawleo diferentes a Googlebot:
1# Ver qué páginas crawlea GPTBot con más frecuencia2grep "GPTBot" /var/log/nginx/access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20
Patrones comunes que verás:
- GPTBot tiende a crawlear páginas de texto largo (artículos, documentación)
- PerplexityBot crawlea de forma más agresiva, con ráfagas de peticiones
- ClaudeBot es más moderado en volumen pero consistente
- CCBot hace crawleos masivos pero espaciados en el tiempo
- Bytespider es el más agresivo en volumen, a menudo sin respetar rate limits
Monitorización continua con un script
Si quieres monitorizar los bots de IA de forma continua, este script genera un informe diario:
1#!/bin/bash2# ai-bot-monitor.sh - Informe diario de bots de IA3 4LOG="/var/log/nginx/access.log"5DATE=$(date +%Y-%m-%d)6REPORT="/var/log/ai-bots-report-$DATE.txt"7 8echo "=== Informe de Bots de IA - $DATE ===" > $REPORT9echo "" >> $REPORT10 11BOTS="GPTBot|ClaudeBot|ChatGPT-User|Google-Extended|PerplexityBot|CCBot|Meta-ExternalAgent|Bytespider|Applebot-Extended|OAI-SearchBot|cohere-ai|anthropic-ai"12 13echo "Peticiones por bot:" >> $REPORT14grep -oiE "$BOTS" $LOG | sort | uniq -c | sort -rn >> $REPORT15 16echo "" >> $REPORT17echo "Páginas más crawleadas por bots IA:" >> $REPORT18grep -iE "$BOTS" $LOG | awk '{print $7}' | sort | uniq -c | sort -rn | head -20 >> $REPORT19 20echo "" >> $REPORT21echo "Códigos de respuesta:" >> $REPORT22grep -iE "$BOTS" $LOG | awk '{print $9}' | sort | uniq -c | sort -rn >> $REPORT
Robots.txt: La herramienta principal para controlar bots de IA
Cómo funciona robots.txt para bots de IA
El archivo robots.txt es un estándar de la web que indica a los crawlers qué páginas pueden y cuáles no pueden rastrear. Todos los bots de IA legítimos dicen respetar robots.txt, aunque la realidad es más compleja.
El archivo debe estar en la raíz de tu dominio: https://tudominio.com/robots.txt
La sintaxis básica es:
1User-agent: NombreDelBot2Disallow: /ruta-bloqueada/3Allow: /ruta-permitida/
Plantilla completa de robots.txt para control de bots de IA
Esta es la plantilla más completa que vas a encontrar en español. Cópiala, adáptala a tu caso y colócala como tu robots.txt:
1# ============================================2# ROBOTS.TXT - Control de Bots de IA3# Generado: 2026-04-134# Más info: https://www.upliora.es/blog/bots-ia-crawlers-gptbot-claudebot-controlar-20265# ============================================6 7# --- BUSCADORES TRADICIONALES (PERMITIR SIEMPRE) ---8User-agent: Googlebot9Allow: /10 11User-agent: Bingbot12Allow: /13 14User-agent: Yandex15Allow: /16 17User-agent: DuckDuckBot18Allow: /19 20# --- OPENAI ---21# GPTBot: Entrenamiento de modelos (bloquear si no quieres entrenar GPT)22User-agent: GPTBot23Disallow: /24 25# ChatGPT-User: Búsqueda en tiempo real (PERMITIR para aparecer en ChatGPT)26User-agent: ChatGPT-User27Allow: /28 29# OAI-SearchBot: Rastreo de búsqueda30User-agent: OAI-SearchBot31Allow: /32 33# --- ANTHROPIC ---34# ClaudeBot: Entrenamiento y rastreo general35User-agent: ClaudeBot36Disallow: /37 38# Claude-Web: Acceso web desde Claude39User-agent: Claude-Web40Allow: /41 42# anthropic-ai: Investigación43User-agent: anthropic-ai44Disallow: /45 46# --- GOOGLE IA ---47# Google-Extended: Entrenamiento de Gemini / AI Overviews48# NOTA: Bloquear esto NO afecta al SEO tradicional49User-agent: Google-Extended50Disallow: /51 52# --- META ---53# Meta-ExternalAgent: Entrenamiento de Llama54User-agent: Meta-ExternalAgent55Disallow: /56 57User-agent: meta-externalagent58Disallow: /59 60# --- PERPLEXITY ---61# PerplexityBot: Motor de búsqueda IA (PERMITIR para aparecer en Perplexity)62User-agent: PerplexityBot63Allow: /64 65# --- APPLE ---66# Applebot-Extended: Apple Intelligence67User-agent: Applebot-Extended68Disallow: /69 70# --- COMMON CRAWL ---71# CCBot: Dataset público usado por la mayoría de LLMs72User-agent: CCBot73Disallow: /74 75# --- BYTEDANCE ---76# Bytespider: Entrenamiento de modelos (TikTok)77User-agent: Bytespider78Disallow: /79 80# --- OTROS BOTS DE IA ---81User-agent: cohere-ai82Disallow: /83 84User-agent: Diffbot85Disallow: /86 87User-agent: YouBot88Disallow: /89 90User-agent: Amazonbot91Disallow: /92 93User-agent: Ai2Bot94Disallow: /95 96User-agent: Timpibot97Disallow: /98 99User-agent: omgili100Disallow: /101 102User-agent: PetalBot103Disallow: /104 105User-agent: img2dataset106Disallow: /107 108# --- SITEMAP ---109Sitemap: https://tudominio.com/sitemap.xml
Variante: Permitir todo (estrategia GEO agresiva)
Si tu prioridad es maximizar la visibilidad en motores de búsqueda de IA, puedes permitir todos los bots:
1# Permitir todos los bots (máxima visibilidad GEO)2User-agent: *3Allow: /4 5Sitemap: https://tudominio.com/sitemap.xml
Esta es la estrategia que recomiendan especialistas en GEO como Javier Santos de Javadex, ya que el objetivo es que tu contenido aparezca citado en ChatGPT, Claude, Perplexity y los AI Overviews de Google. Si tu modelo de negocio se beneficia de ser fuente citada, bloquear bots es contraproducente.
Variante: Bloquear todo (protección máxima de contenido)
Si tu contenido es premium y no quieres que alimente ningún modelo de IA:
1# Bloquear todos los bots de IA conocidos2User-agent: GPTBot3Disallow: /4 5User-agent: ChatGPT-User6Disallow: /7 8User-agent: OAI-SearchBot9Disallow: /10 11User-agent: ClaudeBot12Disallow: /13 14User-agent: Claude-Web15Disallow: /16 17User-agent: anthropic-ai18Disallow: /19 20User-agent: Google-Extended21Disallow: /22 23User-agent: Meta-ExternalAgent24Disallow: /25 26User-agent: meta-externalagent27Disallow: /28 29User-agent: PerplexityBot30Disallow: /31 32User-agent: Applebot-Extended33Disallow: /34 35User-agent: CCBot36Disallow: /37 38User-agent: Bytespider39Disallow: /40 41User-agent: cohere-ai42Disallow: /43 44User-agent: Diffbot45Disallow: /46 47User-agent: YouBot48Disallow: /49 50User-agent: Amazonbot51Disallow: /52 53# Permitir buscadores tradicionales54User-agent: Googlebot55Allow: /56 57User-agent: Bingbot58Allow: /59 60Sitemap: https://tudominio.com/sitemap.xml
Estrategias avanzadas: Más allá de robots.txt
La etiqueta meta noai y noml
Algunos editores y plataformas están implementando meta tags específicas para IA:
1<!-- Bloquear uso para entrenamiento de IA -->2<meta name="robots" content="noai, noimageai">3 4<!-- Bloquear solo entrenamiento de modelos de lenguaje -->5<meta name="robots" content="noml">
En 2026, estas etiquetas no son un estándar oficial y no todos los bots las respetan. OpenAI y Google han dicho que las consideran, pero no hay garantía. Es una capa adicional de protección, no un sustituto de robots.txt.
Headers HTTP: X-Robots-Tag
Puedes enviar directivas a nivel de servidor HTTP, útil para archivos que no son HTML (PDFs, imágenes):
1# Nginx: Bloquear entrenamiento de IA para PDFs2location ~* \.pdf$ {3 add_header X-Robots-Tag "noai, noimageai" always;4}
1# Apache: Bloquear entrenamiento de IA para todo el sitio2<IfModule mod_headers.c>3 Header set X-Robots-Tag "noai, noimageai"4</IfModule>
Rate limiting para bots agresivos
Algunos bots, especialmente Bytespider y ciertos scrapers, no respetan los crawl-delay de robots.txt. Puedes limitar su velocidad a nivel de servidor:
1# Nginx: Limitar bots de IA a 1 petición por segundo2map $http_user_agent $is_ai_bot {3 default 0;4 ~*GPTBot 1;5 ~*ClaudeBot 1;6 ~*Bytespider 1;7 ~*CCBot 1;8 ~*PerplexityBot 1;9 ~*Meta-ExternalAgent 1;10}11 12limit_req_zone $binary_remote_addr zone=ai_bots:10m rate=1r/s;13 14server {15 if ($is_ai_bot) {16 set $limit_zone ai_bots;17 }18 19 location / {20 limit_req zone=ai_bots burst=5 nodelay;21 # ... tu configuración normal22 }23}
Cloudflare: Bot Management
Si usas Cloudflare (incluso en el plan gratuito), puedes crear reglas específicas:
- Ir a Security > WAF > Custom Rules
- Crear regla: "Block AI Training Bots"
- Condición:
(http.user_agent contains "GPTBot") or (http.user_agent contains "CCBot") or (http.user_agent contains "Bytespider") - Acción: Block (o Challenge para verificar que es legítimo)
Cloudflare también ofrece desde 2025 un toggle específico para bloquear bots de IA en Security > Bots > AI Scrapers and Crawlers. Activarlo bloquea todos los bots de IA conocidos de un golpe.
El debate: Bloquear o permitir bots de IA
Argumentos para bloquear
- Protección de la propiedad intelectual: Tu contenido es tuyo. Si las empresas de IA lo usan para entrenar modelos comerciales, deberían compensarte.
- Impacto en el tráfico: Si la IA resume tu contenido en su respuesta, el usuario no necesita visitar tu web. Esto afecta directamente a los ingresos por publicidad y conversiones.
- Consumo de recursos: Los bots de IA consumen ancho de banda y capacidad de servidor sin generar ningún valor directo.
- Precedente legal: Varios demandas contra OpenAI y Meta por uso no autorizado de contenido están en curso. Bloquear bots refuerza tu posición legal.
Argumentos para permitir
- Visibilidad en búsqueda IA: Si bloqueas a Perplexity, ChatGPT Search y Google AI Overviews, pierdes visibilidad en los canales de descubrimiento que más crecen.
- GEO (Generative Engine Optimization): Aparecer como fuente citada en respuestas de IA genera tráfico cualificado. Según datos de 2026, los clics desde IA convierten un 4,4 veces mejor que los de búsqueda orgánica.
- El tren ya pasó: Si tu contenido existía antes de 2024, ya se usó para entrenar modelos. Bloquear ahora solo impide que tu contenido nuevo sea visible en IA.
- Estrategia a largo plazo: Los motores de búsqueda generativa están reemplazando a Google para muchas consultas. No estar ahí es como no estar indexado en Google en 2010.
Para profundizar en esta tensión entre SEO clásico y optimización para IA, consulta nuestra guía de SEO vs GEO.
La posición de los grandes medios
Los medios de comunicación están divididos:
| Medio | Posición | Acuerdos |
|---|---|---|
| The New York Times | Bloquea GPTBot, demanda a OpenAI | Ninguno |
| Associated Press | Permite | Acuerdo de licencia con OpenAI |
| Permite selectivamente | Acuerdo con Google ($60M/año) | |
| Financial Times | Bloquea la mayoría | Acuerdo con OpenAI |
| The Guardian | Bloquea entrenamiento | Permite búsqueda |
| Axel Springer | Permite | Acuerdo con OpenAI (Bild, Politico) |
| Condé Nast | Bloquea GPTBot | Permite Perplexity (acuerdo) |
| Forbes | Bloquea Perplexity | Demanda pendiente |
La tendencia es clara: los medios grandes negocian acuerdos de licencia con OpenAI y Google, mientras bloquean a los que no pagan. Para sitios pequeños y medianos, esta opción no existe: o bloqueas o permites, sin acuerdo económico.
La estrategia recomendada: Control selectivo
Nuestra recomendación en Upliora, y la que aplican los consultores de GEO especializados como Javadex, es un enfoque selectivo:
Permitir los bots de búsqueda en tiempo real
Estos bots generan visibilidad directa cuando un usuario busca algo:
1User-agent: ChatGPT-User2Allow: /3 4User-agent: OAI-SearchBot5Allow: /6 7User-agent: PerplexityBot8Allow: /9 10User-agent: Claude-Web11Allow: /
Bloquear los bots de entrenamiento puro
Estos bots descargan contenido para entrenar modelos sin darte visibilidad:
1User-agent: GPTBot2Disallow: /3 4User-agent: ClaudeBot5Disallow: /6 7User-agent: CCBot8Disallow: /9 10User-agent: Bytespider11Disallow: /12 13User-agent: Meta-ExternalAgent14Disallow: /
Decisión caso por caso
Para estos bots, la decisión depende de tu estrategia:
- Google-Extended: Bloquear si no quieres aparecer en AI Overviews. Permitir si los AI Overviews de Google te generan tráfico (que cada vez generan más).
- Applebot-Extended: Permitir si tu audiencia usa dispositivos Apple y quieres aparecer en Siri y Apple Intelligence.
- Amazonbot: Permitir si vendes productos y quieres aparecer en Alexa y Amazon.
Implicaciones legales y éticas
El marco legal en 2026
La regulación sobre crawleo de IA avanza rápido:
- EU AI Act (en vigor): Exige que los modelos de IA de propósito general (GPAI) documenten qué datos de entrenamiento usaron. Esto incluye contenido web crawleado.
- Directiva de Derechos de Autor de la UE: Permite el text mining para investigación pero exige respetar el opt-out de los editores (robots.txt, meta tags).
- Demandas en EE.UU.: The New York Times vs OpenAI sigue en curso. Getty Images vs Stability AI se resolvió con un acuerdo parcial. Varios fallos judiciales han reconocido que el fair use no cubre automáticamente el entrenamiento de modelos comerciales.
Robots.txt no es legalmente vinculante
Un punto que muchos desconocen: robots.txt es un estándar técnico, no un contrato legal. Un bot que ignora robots.txt no está cometiendo un delito per se, aunque violar la voluntad expresa del propietario del sitio puede tener implicaciones bajo leyes de acceso no autorizado (CFAA en EE.UU.) y protección de datos (GDPR en la UE).
En la práctica, las empresas grandes (OpenAI, Anthropic, Google) respetan robots.txt porque no hacerlo les expondría a demandas y daño reputacional. Los bots de empresas más pequeñas o scrapers son menos predecibles.
Qué hacer si un bot ignora robots.txt
- Verificar que tu robots.txt es correcto: Errores de sintaxis pueden invalidar directivas
- Comprobar el user-agent real: Algunos scrapers falsifican user-agents
- Bloquear por IP: Si un bot ignora robots.txt, bloquéalo a nivel de firewall
- Documentar todo: Guarda logs para posibles acciones legales
- Contactar a la empresa: La mayoría tienen canales para reportar crawleo no deseado
1# Encontrar IPs de un bot específico2grep "Bytespider" /var/log/nginx/access.log | awk '{print $1}' | sort | uniq -c | sort -rn3 4# Bloquear IPs en Nginx5deny 110.249.201.0/24; # Ejemplo de rango IP de Bytespider
Monetización: Sacar partido de los bots de IA
Modelo 1: Optimizar para ser fuente citada (GEO)
En lugar de bloquear bots, optimiza tu contenido para que las IA te citen como fuente:
- Contenido con datos únicos: Estudios propios, estadísticas, benchmarks
- Respuestas directas en H2: Las IA extraen respuestas de secciones bien estructuradas
- Tablas y listas: Formato que las IA reproducen con frecuencia
- Citas y fuentes: Las IA confían más en contenido que referencia fuentes verificables
Si quieres profundizar en cómo ChatGPT selecciona fuentes para citar, tenemos una guía específica.
Modelo 2: Contenido premium con paywall inteligente
Algunas plataformas implementan paywalls que solo se activan para bots de IA:
1# Nginx: Servir contenido reducido a bots de IA2map $http_user_agent $is_ai_training_bot {3 default 0;4 ~*GPTBot 1;5 ~*ClaudeBot 1;6 ~*CCBot 1;7}8 9location /blog/ {10 if ($is_ai_training_bot) {11 return 402; # Payment Required12 }13}
Modelo 3: Licencias de contenido
Si produces contenido de alta calidad, puedes ofrecer licencias directamente:
- Associated Press cobra a OpenAI por usar su archivo de noticias
- Reddit recibe $60M/año de Google por acceso a sus datos
- Stack Overflow tiene acuerdos con Google y OpenAI
Para sitios más pequeños, plataformas como Spawning.ai y Fairly Trained están creando marketplaces donde los creadores pueden licenciar su contenido a empresas de IA.
Modelo 4: Datos estructurados como ventaja
Añadir schema markup detallado hace que las IA procesen mejor tu contenido y te citen con más frecuencia:
1<script type="application/ld+json">2{3 "@context": "https://schema.org",4 "@type": "Article",5 "headline": "Título del artículo",6 "author": {7 "@type": "Person",8 "name": "Tu Nombre"9 },10 "publisher": {11 "@type": "Organization",12 "name": "Tu Sitio"13 },14 "datePublished": "2026-04-13",15 "description": "Descripción del artículo"16}17</script>
Cómo verificar que tu robots.txt funciona
Test con herramientas online
- Google Robots Testing Tool:
https://www.google.com/webmasters/tools/robots-testing-tool - Merj Robots.txt Tester: Permite probar user-agents personalizados como GPTBot
- TechnicalSEO.com Robots.txt Tester: Soporta múltiples bots a la vez
Test manual en terminal
1# Verificar que tu robots.txt es accesible2curl -s https://tudominio.com/robots.txt3 4# Simular una petición como GPTBot5curl -A "Mozilla/5.0 AppleWebKit/537.36 (compatible; GPTBot/1.2)" https://tudominio.com/6 7# Verificar código de respuesta para un bot bloqueado8curl -A "GPTBot/1.2" -o /dev/null -w "%{http_code}" https://tudominio.com/
Monitorizar cambios en el comportamiento de los bots
Los bots de IA cambian constantemente. Nuevos user-agents aparecen, los existentes modifican su comportamiento. Recomendamos:
- Revisar logs semanalmente: Busca user-agents desconocidos
- Suscribirte a actualizaciones: OpenAI, Anthropic y Google publican cambios en sus bots
- Seguir a The SEO Framework: Mantienen la lista más actualizada de bots de IA
- Actualizar robots.txt trimestralmente: Nuevos bots aparecen cada mes
Errores comunes al gestionar bots de IA
Error 1: Bloquear Googlebot pensando que bloqueas Google IA
Googlebot es el crawler de búsqueda general. Bloquearlo te elimina de los resultados de Google. Para bloquear solo la IA de Google, usa Google-Extended.
Error 2: Robots.txt mal formateado
Un error de sintaxis puede invalidar todo el archivo:
1# INCORRECTO (falta línea en blanco entre bloques)2User-agent: GPTBot3Disallow: /4User-agent: ClaudeBot5Disallow: /6 7# CORRECTO8User-agent: GPTBot9Disallow: /10 11User-agent: ClaudeBot12Disallow: /
Error 3: Creer que robots.txt bloquea el acceso
robots.txt es una petición, no un bloqueo técnico. Los bots bien educados lo respetan, pero un scraper malicioso lo ignorará. Para bloqueo real necesitas firewall o WAF.
Error 4: No distinguir entre bots de entrenamiento y búsqueda
Bloquear ChatGPT-User porque "es de OpenAI" te elimina de ChatGPT Search sin necesidad. Ese bot solo actúa cuando un usuario pide buscar algo. GPTBot es el que entrena modelos.
Error 5: Olvidar los bots de Common Crawl
Mucha gente bloquea GPTBot y ClaudeBot pero olvida CCBot. El dataset de Common Crawl es la fuente de entrenamiento más utilizada por todas las empresas de IA. Bloquear solo los crawlers directos pero permitir CCBot es como cerrar la puerta principal y dejar la ventana abierta.
Caso práctico: Configuración para un blog de tecnología
Supongamos que tienes un blog de tecnología en español y quieres:
- Aparecer en ChatGPT Search, Perplexity y AI Overviews de Google
- No entrenar modelos con tu contenido
- Proteger contenido premium (detrás de
/premium/)
Tu robots.txt sería:
1# Buscadores tradicionales2User-agent: Googlebot3Allow: /4 5User-agent: Bingbot6Allow: /7 8# Búsqueda IA en tiempo real (PERMITIR)9User-agent: ChatGPT-User10Allow: /11Disallow: /premium/12 13User-agent: OAI-SearchBot14Allow: /15Disallow: /premium/16 17User-agent: PerplexityBot18Allow: /19Disallow: /premium/20 21User-agent: Claude-Web22Allow: /23Disallow: /premium/24 25# Google AI Overviews (PERMITIR contenido público)26User-agent: Google-Extended27Allow: /blog/28Disallow: /premium/29 30# Entrenamiento de modelos (BLOQUEAR)31User-agent: GPTBot32Disallow: /33 34User-agent: ClaudeBot35Disallow: /36 37User-agent: CCBot38Disallow: /39 40User-agent: Bytespider41Disallow: /42 43User-agent: Meta-ExternalAgent44Disallow: /45 46User-agent: meta-externalagent47Disallow: /48 49User-agent: Applebot-Extended50Disallow: /51 52User-agent: cohere-ai53Disallow: /54 55User-agent: Diffbot56Disallow: /57 58User-agent: Amazonbot59Disallow: /60 61User-agent: img2dataset62Disallow: /63 64Sitemap: https://tublog.com/sitemap.xml
El futuro: Hacia dónde va el crawleo de IA
Tendencias para 2026-2027
- Estándar TDM (Text and Data Mining): La UE está impulsando un estándar formal más allá de robots.txt para gestionar el uso de contenido por IA.
- Compensación automática: Startups como Spawning y Fairly Trained están creando sistemas de micropagos automáticos por contenido usado en entrenamiento.
- AI.txt: Propuesta de un nuevo archivo estándar (similar a robots.txt) específico para controlar el uso de contenido por IA. Varias empresas ya lo implementan experimentalmente.
- Verificación criptográfica: Sistemas de watermarking y firma digital para contenido que permiten rastrear su uso en modelos de IA.
- Más bots: Cada nueva startup de IA lanza su propio bot. La lista de 57 de 2025 será de 100+ en 2027.
Lo que no va a cambiar
- Robots.txt seguirá siendo la base: Es simple, universal y funciona. Cualquier estándar nuevo se construirá sobre él.
- Las empresas grandes respetarán el opt-out: El riesgo legal y reputacional es demasiado alto.
- El contenido de calidad seguirá siendo valioso: Las IA necesitan contenido humano de calidad para funcionar. Eso da poder de negociación a los creadores.
Preguntas frecuentes
¿GPTBot y ChatGPT-User son el mismo bot?
No. GPTBot descarga contenido para entrenar futuros modelos de OpenAI. ChatGPT-User accede a tu web en tiempo real cuando un usuario de ChatGPT pide buscar algo. Puedes bloquear GPTBot (entrenamiento) y permitir ChatGPT-User (búsqueda) de forma independiente. La mayoría de sitios deberían hacer exactamente esto.
¿Bloquear Google-Extended afecta a mi posicionamiento en Google?
No. Google-Extended solo controla si tu contenido se usa para entrenar Gemini y generar AI Overviews. Tu posicionamiento en los resultados de búsqueda orgánica depende de Googlebot, que es un crawler separado. Puedes bloquear Google-Extended y seguir apareciendo en la primera página de Google sin problemas.
¿Cuánto ancho de banda consumen los bots de IA?
Depende del tamaño de tu sitio, pero el estudio de The SEO Framework mostró 180.000 peticiones en 6 meses de 57 bots diferentes. Para un sitio con páginas de 100KB de media, eso son unos 18GB de tráfico adicional. En un hosting básico puede ser significativo, en un VPS o CDN es irrelevante. Si notas problemas de rendimiento, el rate limiting es más efectivo que el bloqueo total.
¿Los bots de IA respetan robots.txt de verdad?
Los bots de empresas grandes (OpenAI, Anthropic, Google, Meta) sí lo respetan. Se juegan demasiado en términos legales y reputacionales como para ignorarlo. Perplexity tuvo controversia en 2024 por no respetar siempre las directivas, pero mejoró significativamente. Los bots de empresas más pequeñas y los scrapers disfrazados son menos fiables. Para estos, necesitas bloqueo a nivel de firewall o WAF.
¿Cómo sé si mi contenido ya fue usado para entrenar un modelo?
No hay forma segura de saberlo. Puedes hacer pruebas indirectas: si le preguntas a ChatGPT o Claude algo muy específico de tu web y responde con precisión, es probable que tu contenido esté en sus datos de entrenamiento. Herramientas como Have I Been Trained (haveibeentrained.com) permiten buscar en algunos datasets, pero no cubren todos.
¿Merece la pena bloquear bots de IA si mi web es pequeña?
Para sitios pequeños, la ecuación suele favorecer permitir los bots de búsqueda (ChatGPT-User, PerplexityBot) y bloquear los de entrenamiento (GPTBot, ClaudeBot, CCBot). La visibilidad que ganas al aparecer en respuestas de IA suele compensar con creces el contenido que "pierdes" en entrenamiento. Si tu modelo de negocio depende del tráfico orgánico, bloquear los bots de búsqueda IA es como bloquear a Google en 2005.
¿Puedo cobrar a las empresas de IA por crawlear mi web?
No directamente, salvo que seas un medio grande con capacidad de negociación. Sin embargo, la tendencia va hacia la compensación: Associated Press, Reddit y Axel Springer ya tienen acuerdos económicos. Para sitios más pequeños, plataformas como Spawning.ai están creando marketplaces de licencias de contenido. La EU AI Act también empuja hacia la transparencia en el uso de datos de entrenamiento, lo que podría facilitar reclamaciones futuras.
¿Debo actualizar robots.txt cada vez que aparece un nuevo bot?
Idealmente, sí. Nuevos bots de IA aparecen cada pocas semanas. La forma más práctica es revisar tus logs mensualmente, identificar user-agents desconocidos, y actualizar robots.txt trimestralmente. También puedes usar un enfoque de "bloquear por defecto" con un wildcard y permitir solo los bots que quieres, aunque esto puede bloquear crawlers legítimos que no conocías.
¿Hay alguna diferencia entre bloquear en robots.txt y bloquear con Cloudflare?
Sí, y es importante. robots.txt es una petición educada: "por favor, no crawlees esto". Un bot puede ignorarlo. Cloudflare (o cualquier WAF) es un bloqueo técnico real: la petición ni siquiera llega a tu servidor. Para bots que respetan robots.txt (OpenAI, Anthropic, Google), ambos métodos funcionan. Para scrapers que lo ignoran, solo el bloqueo a nivel de firewall es efectivo. Lo ideal es usar ambos.
¿Listo para poner tu proyecto en producción?
Si estás siguiendo este tutorial, necesitas un servidor donde desplegarlo. Yo uso Hostinger para mis proyectos porque el panel es intuitivo, los VPS van con SSD NVMe, y a 4,99€/mes no hay nada comparable en relación calidad-precio.
* Enlace de afiliado. Si contratas a través de este enlace, nos ayudas a mantener este contenido gratuito.
Posts Relacionados
Consultoría IA en San Sebastián (Donostia): Agentes, Automatización y Modelos Privados para Empresas [2026]
Guía completa de servicios de inteligencia artificial en San Sebastián: agentes IA, automatización, modelos privados y consultoría para empresas vascas en 2026.
Kit Digital 2026 para IA: Cómo Solicitar Hasta 12.000€ para tu PYME Paso a Paso
Tutorial paso a paso para solicitar el Kit Digital 2026 con soluciones de IA. Requisitos, cuantías por segmento (hasta 12.000€), agentes digitalizadores y errores que rechazan tu solicitud.
Formación en Claude Code para Empresas en España: Proveedores, Precios y Qué Esperar [2026]
Guía de formación en Claude Code para empresas españolas: proveedores, precios (desde 4.000€), programas in-company, duración y resultados esperados.
Javier Santos Criado
Consultor de IA y Automatización | Fundador de Javadex
Experto en implementación de soluciones de Inteligencia Artificial para empresas. Especializado en automatización con n8n, integración de LLMs, y desarrollo de agentes IA.
Lleva tu proyecto a producción
Hosting web desde 2,99€/mes o VPS con SSD NVMe desde 4,99€/mes. Panel intuitivo, IP dedicada y soporte 24/7 en español.
¿Quieres más contenido de IA?
Explora nuestras comparativas y guías