IndexNow, Sitemaps XML y la Nueva Indexación para Buscadores e IA [2026]

Q: ¿Los agentes de IA usan Sitemaps?

Sí, algunos lo hacen. Y es un detalle que muchos pasan por alto.

Q: ¿Cuántas URLs puedo enviar a IndexNow por día?

El límite oficial es de 10.000 URLs por solicitud y no hay límite diario documentado. Sin embargo, enviar cientos de miles de URLs repetidamente puede activar el rate limiting (HTTP 429). La recomendación es enviar solo URLs que realmente hayan cambiado, no todo tu sitio cada día.

TLDR: Los protocolos de indexación web están evolucionando para servir tanto a buscadores clásicos como a agentes de IA. XML Sitemaps (2005) sigue siendo fundamental. IndexNow (2021) permite notificar cambios en tiempo real a Bing y Yandex (60M+ de sitios lo usan, Google aún no). Los crawlers de IA ya consultan sitemaps para descubrir contenido. Implementar ambos protocolos es barato, rápido y te posiciona para la indexación del futuro. No esperes al consenso: los estándares se prueban construyendo, no esperando.

La historia de la indexación web: de crawlers ciegos a notificaciones instantáneas

Para entender hacia dónde va la indexación, hay que entender de dónde viene.

1994-2004: La era del crawling ciego

En los primeros años de la web, los buscadores descubrían contenido de una sola forma: crawling. Un bot visitaba una página, seguía los enlaces que encontraba, visitaba esas nuevas páginas, y así sucesivamente. Era un proceso lento, ineficiente y costoso.

El único mecanismo de control era robots.txt (propuesto por Martijn Koster en 1994), que permitía decirle a los bots qué no visitar. Pero no había forma de decirles qué sí visitar, ni cuándo había contenido nuevo.

Problemas del crawling puro:

Google podía tardar semanas en descubrir una página nueva
Las páginas profundas (muchos clics desde la home) rara vez se indexaban
Los sitios pequeños con pocos enlaces entrantes eran prácticamente invisibles
Los buscadores gastaban recursos rastreando páginas que no habían cambiado

2005: Google inventa los Sitemaps XML

En junio de 2005, Google lanzó Sitemaps 0.84, un formato XML que permitía a los webmasters listar explícitamente las URLs de su sitio, junto con metadatos como la fecha de última modificación y la frecuencia de cambio.

La reacción de la comunidad fue mixta. Muchos dijeron: "¿Para qué crear un archivo XML solo para Google? Si Yahoo y MSN no lo soportan, no merece la pena."

Pero los constructores lo implementaron igualmente. Y pasó lo inevitable.

2006-2007: Yahoo y Microsoft se unen

Noviembre 2006: Yahoo anuncia soporte para Sitemaps XML
Febrero 2007: Microsoft (Live Search) se une al protocolo
Noviembre 2007: Los tres buscadores crean sitemaps.org, un estándar abierto unificado

En menos de tres años, un protocolo "solo de Google" se convirtió en el estándar universal de descubrimiento web. No porque los buscadores se pusieran de acuerdo primero, sino porque los webmasters lo implementaron y los datos demostraron que funcionaba.

La lección que se repite

Esta historia se ha repetido con cada protocolo de indexación exitoso:

Protocolo	Lanzamiento	Adopción inicial	Adopción masiva
robots.txt	1994	Solo crawlers tempranos	Universal en 1-2 años
Sitemaps XML	2005 (Google solo)	Webmasters early adopters	Estándar abierto en 2007
OpenGraph	2010 (Facebook solo)	Desarrolladores web	Universal en 2-3 años
JSON-LD	2014 (Google lo prioriza)	SEOs avanzados	Mainstream en 2017-2018
IndexNow	2021 (Bing + Yandex)	16M sitios en 2022	60M+ sitios en 2023

El patrón es siempre el mismo: un actor propone, los constructores implementan, y el resto se suma cuando el beneficio es innegable. Los que esperaron "hasta que todos lo soportaran" perdieron años de ventaja.

XML Sitemaps en 2026: vivo, relevante y más importante que nunca

Qué es un Sitemap XML

Un sitemap XML es un archivo (generalmente sitemap.xml) que lista las URLs de tu sitio web, junto con metadatos opcionales:

xml

1<?xml version="1.0" encoding="UTF-8"?>
2<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
3  <url>
4    <loc>https://www.ejemplo.com/</loc>
5    <lastmod>2026-04-13</lastmod>
6    <changefreq>weekly</changefreq>
7    <priority>1.0</priority>
8  </url>
9  <url>
10    <loc>https://www.ejemplo.com/blog/mi-articulo</loc>
11    <lastmod>2026-04-10</lastmod>
12    <changefreq>monthly</changefreq>
13    <priority>0.8</priority>
14  </url>
15</urlset>

¿Los agentes de IA usan Sitemaps?

Sí, algunos lo hacen. Y es un detalle que muchos pasan por alto.

Los crawlers de los principales sistemas de IA han confirmado (directa o indirectamente) que consultan sitemaps XML para descubrir contenido:

Crawler	User-Agent	¿Usa sitemaps?	Notas
GPTBot (OpenAI)	GPTBot/1.0	Sí	Respeta robots.txt y consulta sitemap
ClaudeBot (Anthropic)	ClaudeBot/1.0	Sí	Crawling selectivo basado en sitemap
Google-Extended	Google-Extended	Parcial	Para datos de entrenamiento, no para búsqueda
Bingbot (Copilot)	bingbot/2.0	Sí	Comparte infraestructura con Bing Search
PerplexityBot	PerplexityBot	Sí	Crawlea agresivamente desde sitemaps
Bytespider (TikTok)	Bytespider	Sí	Crawlea a gran escala

Esto significa que tu sitemap XML ya no solo sirve para Google y Bing: es tu tarjeta de presentación para todo el ecosistema de IA.

Mejores prácticas para Sitemaps XML en 2026

Muchos sitios tienen sitemaps XML subóptimos. Estas son las prácticas que recomendamos:

1. Mantén lastmod actualizado y preciso

El error más común es tener lastmod con la misma fecha para todas las URLs, o no actualizarlo cuando el contenido cambia. Los buscadores y crawlers de IA usan lastmod para priorizar qué páginas revisar.

xml

1<!-- MAL: misma fecha para todo -->
2<lastmod>2025-01-01</lastmod>
3 
4<!-- BIEN: fecha real de última modificación -->
5<lastmod>2026-04-13T14:30:00+02:00</lastmod>

2. No incluyas URLs con noindex o redirect

Tu sitemap debe contener solo URLs canónicas, indexables, con código de estado 200. URLs redirigidas (301/302), bloqueadas por robots.txt, o con meta noindex no deben aparecer.

3. Usa sitemap index para sitios grandes

Si tienes más de 50.000 URLs o tu sitemap supera 50 MB, usa un sitemap index:

xml

1<?xml version="1.0" encoding="UTF-8"?>
2<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
3  <sitemap>
4    <loc>https://www.ejemplo.com/sitemap-posts.xml</loc>
5    <lastmod>2026-04-13</lastmod>
6  </sitemap>
7  <sitemap>
8    <loc>https://www.ejemplo.com/sitemap-products.xml</loc>
9    <lastmod>2026-04-12</lastmod>
10  </sitemap>
11</sitemapindex>

4. Incluye solo contenido de valor

No metas todas las URLs de tu sitio. Los crawlers de IA son selectivos: si tu sitemap tiene 50.000 URLs pero solo 500 son contenido real, estás diluyendo la señal. Prioriza:

Artículos y contenido principal
Páginas de producto con descripciones únicas
Landing pages con información relevante
FAQs y documentación

5. Referencia tu sitemap en robots.txt

code

1User-agent: *
2Allow: /
3 
4Sitemap: https://www.ejemplo.com/sitemap.xml

Implementar Sitemap dinámico en Next.js

En Next.js con App Router, puedes generar un sitemap dinámico que siempre esté actualizado:

typescript

1// app/sitemap.ts
2import { MetadataRoute } from 'next'
3import { getBlogPosts, getProjects } from '@/lib/data'
4 
5export default async function sitemap(): Promise<MetadataRoute.Sitemap> {
6  const posts = await getBlogPosts()
7  const projects = await getProjects()
8  
9  const blogUrls = posts.map(post => ({
10    url: `https://www.ejemplo.com/blog/${post.slug}`,
11    lastModified: new Date(post.date),
12    changeFrequency: 'monthly' as const,
13    priority: 0.8,
14  }))
15 
16  const projectUrls = projects.map(project => ({
17    url: `https://www.ejemplo.com/project/${project.slug}`,
18    lastModified: new Date(project.updatedAt || project.createdAt),
19    changeFrequency: 'monthly' as const,
20    priority: 0.7,
21  }))
22 
23  return [
24    {
25      url: 'https://www.ejemplo.com',
26      lastModified: new Date(),
27      changeFrequency: 'weekly',
28      priority: 1.0,
29    },
30    ...blogUrls,
31    ...projectUrls,
32  ]
33}

Next.js genera automáticamente /sitemap.xml a partir de este archivo. No necesitas generación manual ni archivos estáticos.

IndexNow: notificación instantánea de cambios

Qué es IndexNow

IndexNow es un protocolo abierto lanzado en octubre de 2021 por Microsoft (Bing) y Yandex. Su propósito es simple y poderoso: en lugar de esperar a que un buscador crawlee tu sitio y descubra cambios (modelo pull), tú le notificas directamente qué URLs han cambiado (modelo push).

code

1Modelo tradicional (Pull):
2Buscador → Crawlea tu sitio → Descubre cambios → Indexa
3(Puede tardar horas, días o semanas)
4 
5Modelo IndexNow (Push):
6Tu sitio → Notifica al buscador → Buscador procesa → Indexa
7(Minutos u horas)

Adopción y números

La adopción de IndexNow ha sido espectacular:

Fecha	Sitios usando IndexNow	Hito
Octubre 2021	Lanzamiento	Bing + Yandex
Marzo 2022	~16 millones	WordPress plugins nativos
Diciembre 2022	~40 millones	Cloudflare integra en Crawler Hints
Junio 2023	~60 millones	Naver (Corea) adopta el protocolo
2024	~80 millones	Seznam.cz (Chequia) se une
2025-2026	~100+ millones	Yep, Mojeek evalúan adopción

¿Y Google?

La gran pregunta. Google no ha adoptado IndexNow oficialmente. Su posición ha sido ambigua: en 2022 dijeron que estaban "evaluando" el protocolo. En 2023, John Mueller mencionó que tenían "sus propios mecanismos de descubrimiento". En 2024-2025, silencio.

Sin embargo, hay indicios de que Google podría estar escuchando indirectamente. Cloudflare Crawler Hints (que usa IndexNow internamente) también envía señales que Google puede consumir. Y Google Search Console permite enviar URLs individuales para indexación, lo que es funcionalmente similar.

Nuestra recomendación: implementa IndexNow igualmente. Bing es el segundo buscador más grande del mundo, y su infraestructura alimenta a Microsoft Copilot, que cada vez tiene más cuota de mercado. Además, el coste de implementación es prácticamente cero.

Si tu estrategia SEO incluye aprovechar herramientas de IA para optimizar contenido, nuestra guía de ChatGPT para SEO te muestra cómo complementar estos protocolos técnicos con inteligencia artificial aplicada.

Implementar IndexNow: guía paso a paso

Paso 1: Generar tu clave API

IndexNow usa una clave API simple para verificar que las peticiones vienen del propietario del sitio. La clave es un string hexadecimal que actúa como autenticación.

bash

1# Generar una clave aleatoria (32 caracteres hex)
2openssl rand -hex 16
3# Resultado ejemplo: 80e05909e50243f19ba124bcc13805e3

Paso 2: Publicar la clave como archivo de verificación

Crea un archivo en la raíz de tu sitio con el nombre de tu clave:

bash

1# El archivo debe contener la clave como texto plano
2echo "80e05909e50243f19ba124bcc13805e3" > public/80e05909e50243f19ba124bcc13805e3.txt

Verifica que es accesible:

bash

1curl https://www.tu-sitio.com/80e05909e50243f19ba124bcc13805e3.txt
2# Debe devolver: 80e05909e50243f19ba124bcc13805e3

Paso 3: Enviar URLs a IndexNow

Opción A: URL individual (GET)

bash

1curl "https://api.indexnow.org/indexnow?\
2host=www.tu-sitio.com&\
3key=80e05909e50243f19ba124bcc13805e3&\
4url=https://www.tu-sitio.com/blog/mi-nuevo-articulo"

Opción B: Múltiples URLs (POST)

bash

1curl -X POST "https://api.indexnow.org/indexnow" \
2  -H "Content-Type: application/json" \
3  -d '{
4    "host": "www.tu-sitio.com",
5    "key": "80e05909e50243f19ba124bcc13805e3",
6    "keyLocation": "https://www.tu-sitio.com/80e05909e50243f19ba124bcc13805e3.txt",
7    "urlList": [
8      "https://www.tu-sitio.com/blog/articulo-1",
9      "https://www.tu-sitio.com/blog/articulo-2",
10      "https://www.tu-sitio.com/blog/articulo-3"
11    ]
12  }'

Códigos de respuesta:

Código	Significado
200	URL enviada correctamente
202	Aceptada, se procesará más tarde
400	Petición mal formada
403	Clave API inválida
422	URL no válida
429	Demasiadas peticiones (rate limit)

Paso 4: Automatizar el envío

Lo ideal es que IndexNow se dispare automáticamente cada vez que publicas o actualizas contenido. Aquí tienes implementaciones para las plataformas más comunes.

Implementación en WordPress

WordPress es la plataforma donde IndexNow es más fácil de implementar, gracias a plugins nativos.

Opción 1: Plugin oficial de IndexNow (Microsoft)

code

11. Ve a Plugins → Añadir nuevo
22. Busca "IndexNow"
33. Instala "IndexNow" por Microsoft Bing
44. Activa el plugin
55. No requiere configuración adicional

El plugin automáticamente:

Genera una clave API
Crea el archivo de verificación
Envía URLs a IndexNow cada vez que publicas/actualizas contenido
Soporta posts, páginas, y custom post types

Opción 2: Yoast SEO (incluido)

Si ya usas Yoast SEO, IndexNow viene integrado desde la versión 22.x:

code

11. Ve a Yoast SEO → Ajustes → General
22. En la pestaña "Integraciones", busca "IndexNow"
33. Activa la opción
44. Yoast genera y gestiona la clave automáticamente

Opción 3: Rank Math

Rank Math incluye soporte de IndexNow en su versión Pro:

code

11. Ve a Rank Math → Ajustes Generales → Instant Indexing
22. Activa IndexNow
33. Configura qué tipos de contenido se notifican

Implementación en Next.js

Para sitios Next.js, necesitas implementar IndexNow manualmente. Aquí hay dos enfoques.

Enfoque 1: Script de shell (simple)

Crea un script que puedas ejecutar después de cada despliegue:

bash

1#!/bin/bash
2# scripts/indexnow-submit.sh
3 
4SITE_HOST="www.tu-sitio.com"
5API_KEY="80e05909e50243f19ba124bcc13805e3"
6INDEXNOW_URL="https://api.indexnow.org/indexnow"
7 
8# Enviar URLs pasadas como argumentos
9if [ "$1" == "--all" ]; then
10  # Extraer URLs del sitemap
11  URLS=$(curl -s "https://${SITE_HOST}/sitemap.xml" | \
12    grep -oP '(?<=<loc>).*?(?=</loc>)' | head -50)
13else
14  URLS=""
15  for path in "$@"; do
16    URLS="${URLS}\"https://${SITE_HOST}${path}\","
17  done
18  URLS="[${URLS%,}]"
19fi
20 
21# Construir JSON y enviar
22if [ "$1" == "--all" ]; then
23  URL_ARRAY=$(echo "$URLS" | while read url; do echo "\"$url\""; done | paste -sd, -)
24  URL_ARRAY="[${URL_ARRAY}]"
25else
26  URL_ARRAY="$URLS"
27fi
28 
29curl -X POST "$INDEXNOW_URL" \
30  -H "Content-Type: application/json" \
31  -d "{
32    \"host\": \"${SITE_HOST}\",
33    \"key\": \"${API_KEY}\",
34    \"keyLocation\": \"https://${SITE_HOST}/${API_KEY}.txt\",
35    \"urlList\": ${URL_ARRAY}
36  }"
37 
38echo ""
39echo "IndexNow: URLs enviadas correctamente"

Uso:

bash

1# Una URL específica
2./scripts/indexnow-submit.sh /blog/mi-nuevo-articulo
3 
4# Varias URLs
5./scripts/indexnow-submit.sh /blog/post-1 /blog/post-2 /blog/post-3
6 
7# Todas las URLs del sitemap (máximo 50)
8./scripts/indexnow-submit.sh --all

Enfoque 2: API Route en Next.js (programático)

typescript

1// app/api/indexnow/route.ts
2import { NextRequest, NextResponse } from 'next/server'
3 
4const INDEXNOW_KEY = process.env.INDEXNOW_KEY || '80e05909e50243f19ba124bcc13805e3'
5const SITE_HOST = 'www.tu-sitio.com'
6 
7export async function POST(request: NextRequest) {
8  // Proteger con API key interna
9  const authHeader = request.headers.get('authorization')
10  if (authHeader !== `Bearer ${process.env.INTERNAL_API_KEY}`) {
11    return NextResponse.json({ error: 'Unauthorized' }, { status: 401 })
12  }
13 
14  const { urls } = await request.json()
15 
16  if (!urls || !Array.isArray(urls)) {
17    return NextResponse.json({ error: 'urls array required' }, { status: 400 })
18  }
19 
20  const fullUrls = urls.map(url => 
21    url.startsWith('http') ? url : `https://${SITE_HOST}${url}`
22  )
23 
24  const response = await fetch('https://api.indexnow.org/indexnow', {
25    method: 'POST',
26    headers: { 'Content-Type': 'application/json' },
27    body: JSON.stringify({
28      host: SITE_HOST,
29      key: INDEXNOW_KEY,
30      keyLocation: `https://${SITE_HOST}/${INDEXNOW_KEY}.txt`,
31      urlList: fullUrls,
32    }),
33  })
34 
35  return NextResponse.json({
36    status: response.status,
37    message: response.status === 200 ? 'URLs enviadas' : 'Error',
38    urlCount: fullUrls.length,
39  })
40}

Enfoque 3: Webhook post-deploy en Vercel

Si despliegas con Vercel, puedes configurar un webhook que envíe IndexNow automáticamente después de cada deploy:

typescript

1// app/api/webhook/vercel-deploy/route.ts
2import { NextRequest, NextResponse } from 'next/server'
3import { getBlogPosts } from '@/lib/data'
4 
5export async function POST(request: NextRequest) {
6  // Verificar que viene de Vercel
7  const body = await request.json()
8  
9  if (body.type !== 'deployment.succeeded') {
10    return NextResponse.json({ skipped: true })
11  }
12 
13  // Obtener URLs recientes (último post publicado)
14  const posts = await getBlogPosts()
15  const recentPosts = posts
16    .sort((a, b) => new Date(b.date).getTime() - new Date(a.date).getTime())
17    .slice(0, 5)
18 
19  const urls = recentPosts.map(p => `https://www.tu-sitio.com/blog/${p.slug}`)
20 
21  // Enviar a IndexNow
22  await fetch('https://api.indexnow.org/indexnow', {
23    method: 'POST',
24    headers: { 'Content-Type': 'application/json' },
25    body: JSON.stringify({
26      host: 'www.tu-sitio.com',
27      key: process.env.INDEXNOW_KEY,
28      keyLocation: `https://www.tu-sitio.com/${process.env.INDEXNOW_KEY}.txt`,
29      urlList: urls,
30    }),
31  })
32 
33  return NextResponse.json({ sent: urls.length })
34}

Implementación en otras plataformas

Shopify

Shopify no tiene soporte nativo de IndexNow, pero puedes usar apps de terceros:

IndexNow for Shopify (app gratuita): Notifica automáticamente cuando publicas productos o artículos
Manual: Usa la API de Shopify webhooks para disparar peticiones IndexNow desde un servicio externo

Hugo / Jekyll / Astro (generadores estáticos)

Para generadores de sitios estáticos, añade IndexNow como paso en tu pipeline de CI/CD:

yaml

1# .github/workflows/deploy.yml (GitHub Actions)
2name: Deploy and IndexNow
3 
4on:
5  push:
6    branches: [main]
7 
8jobs:
9  deploy:
10    runs-on: ubuntu-latest
11    steps:
12      - uses: actions/checkout@v4
13      
14      - name: Build site
15        run: npm run build
16      
17      - name: Deploy
18        run: # tu comando de deploy
19      
20      - name: Notify IndexNow
21        run: |
22          # Extraer URLs cambiadas
23          CHANGED_FILES=$(git diff --name-only HEAD~1 HEAD -- content/ | head -50)
24          URLS=""
25          for file in $CHANGED_FILES; do
26            slug=$(basename "$file" .md)
27            URLS="$URLS\"https://www.tu-sitio.com/blog/$slug\","
28          done
29          URLS="[${URLS%,}]"
30          
31          curl -X POST "https://api.indexnow.org/indexnow" \
32            -H "Content-Type: application/json" \
33            -d "{
34              \"host\": \"www.tu-sitio.com\",
35              \"key\": \"${{ secrets.INDEXNOW_KEY }}\",
36              \"urlList\": $URLS
37            }"

Python (cualquier framework)

python

1import requests
2import hashlib
3 
4INDEXNOW_KEY = "80e05909e50243f19ba124bcc13805e3"
5SITE_HOST = "www.tu-sitio.com"
6 
7def notify_indexnow(urls: list[str]):
8    """Enviar URLs a IndexNow para indexación rápida."""
9    full_urls = [
10        f"https://{SITE_HOST}{url}" if not url.startswith("http") else url
11        for url in urls
12    ]
13    
14    response = requests.post(
15        "https://api.indexnow.org/indexnow",
16        json={
17            "host": SITE_HOST,
18            "key": INDEXNOW_KEY,
19            "keyLocation": f"https://{SITE_HOST}/{INDEXNOW_KEY}.txt",
20            "urlList": full_urls,
21        }
22    )
23    
24    print(f"IndexNow response: {response.status_code}")
25    return response.status_code
26 
27# Uso
28notify_indexnow(["/blog/nuevo-articulo", "/blog/articulo-actualizado"])

El papel de robots.txt en la era de la IA

robots.txt: de protocolo simple a campo de batalla

robots.txt fue creado en 1994 como una convención de cortesía entre webmasters y crawlers. Nunca fue un estándar formal (hasta que Google lo propuso como RFC 9309 en 2022). Su sintaxis es simple:

code

1User-agent: *
2Disallow: /admin/
3Disallow: /private/
4 
5User-agent: GPTBot
6Disallow: /
7 
8User-agent: ClaudeBot
9Allow: /blog/
10Disallow: /

Los nuevos user-agents de IA

En 2024-2026, docenas de nuevos crawlers de IA aparecieron en la web. Los más relevantes:

User-Agent	Empresa	Propósito
GPTBot	OpenAI	Entrenamiento + ChatGPT browse
OAI-SearchBot	OpenAI	ChatGPT Search (solo búsqueda)
ClaudeBot	Anthropic	Entrenamiento de Claude
Google-Extended	Google	Entrenamiento de Gemini
Bingbot	Microsoft	Búsqueda + Copilot
PerplexityBot	Perplexity	Motor de búsqueda IA
Bytespider	ByteDance	Entrenamiento de IA
Applebot-Extended	Apple	Apple Intelligence
Meta-ExternalAgent	Meta	Entrenamiento de Llama
Amazonbot	Amazon	Alexa / IA Amazon

Estrategias de robots.txt para 2026

Hay tres enfoques comunes:

Estrategia 1: Permitir todo (recomendada para la mayoría)

code

1User-agent: *
2Allow: /
3 
4Sitemap: https://www.tu-sitio.com/sitemap.xml

Si quieres que tu contenido aparezca en respuestas de IA (GEO), necesitas permitir el crawling. Bloquear bots de IA es como bloquear Googlebot en 2005: te haces invisible.

Estrategia 2: Permitir búsqueda, bloquear entrenamiento

code

1User-agent: *
2Allow: /
3 
4# Permitir búsqueda IA
5User-agent: OAI-SearchBot
6Allow: /
7 
8User-agent: PerplexityBot
9Allow: /
10 
11# Bloquear entrenamiento
12User-agent: GPTBot
13Disallow: /
14 
15User-agent: ClaudeBot
16Disallow: /
17 
18User-agent: Google-Extended
19Disallow: /
20 
21Sitemap: https://www.tu-sitio.com/sitemap.xml

Estrategia 3: Control granular

code

1User-agent: GPTBot
2Allow: /blog/
3Allow: /docs/
4Disallow: /
5 
6User-agent: ClaudeBot
7Allow: /blog/
8Disallow: /
9 
10Sitemap: https://www.tu-sitio.com/sitemap.xml

robots.txt y los nuevos estándares web para IA

robots.txt sigue siendo el guardián del acceso. Los nuevos estándares como llms.txt, NLWeb y Schema Maps se ocupan de la experiencia una vez que el acceso está permitido. Son capas complementarias:

code

1robots.txt → ¿PUEDE acceder el bot?    (control de acceso)
2llms.txt   → ¿QUÉ contenido importa?   (descubrimiento)
3sitemap.xml → ¿QUÉ URLs existen?        (inventario)
4IndexNow    → ¿QUÉ ha cambiado?         (notificación)

Push vs Pull: dos modelos de indexación

El modelo Pull (tradicional)

code

1Buscador decide cuándo y qué crawlear
2→ Visita tu sitio periódicamente
3→ Descubre cambios comparando con versión anterior
4→ Indexa los cambios
5 
6Ventajas: No requiere nada del webmaster
7Desventajas: Lento, ineficiente, impredecible

El modelo Push (IndexNow)

code

1Tu sitio notifica cuando hay cambios
2→ Buscador recibe la notificación
3→ Prioriza el crawl de esas URLs
4→ Indexa más rápido
5 
6Ventajas: Rápido, eficiente, predecible
7Desventajas: Requiere implementación activa

El modelo híbrido (lo que realmente funciona)

En la práctica, ningún buscador usa solo push o solo pull. Google usa principalmente pull (Googlebot crawlea) pero también acepta señales push (Search Console URL inspection, API de indexación). Bing usa pull (Bingbot) + push (IndexNow).

La estrategia óptima es cubrir ambos modelos:

Sitemap XML actualizado (pull: los buscadores lo consultan regularmente)
IndexNow activo (push: notificas cambios en tiempo real)
Search Console activo (híbrido: envías sitemap + solicitas indexación)
Estructura de enlaces interna sólida (pull: facilitas el crawling natural)

Si estás construyendo automatizaciones para gestionar este flujo, nuestra comparativa de n8n vs Make vs Zapier te ayudará a elegir la herramienta adecuada para automatizar notificaciones de IndexNow y envío de sitemaps.

Optimizar tu sitemap para crawlers de IA

Los crawlers de IA tienen comportamientos diferentes a los buscadores tradicionales. Aquí van las optimizaciones específicas.

1. Prioriza contenido con alto valor informativo

Los modelos de lenguaje valoran contenido extenso, estructurado y autorizado. Si tienes artículos de 5.000 palabras y páginas de 200 palabras, dale más prioridad a los primeros:

xml

1<url>
2  <loc>https://www.ejemplo.com/blog/guia-completa-ia-empresas</loc>
3  <lastmod>2026-04-13</lastmod>
4  <priority>0.9</priority>
5</url>
6<url>
7  <loc>https://www.ejemplo.com/blog/nota-breve</loc>
8  <lastmod>2026-04-01</lastmod>
9  <priority>0.4</priority>
10</url>

2. Incluye metadatos de tipo de contenido

Aunque no es parte del estándar sitemaps.org, algunos crawlers respetan extensiones:

xml

1<url>
2  <loc>https://www.ejemplo.com/blog/tutorial-indexnow</loc>
3  <lastmod>2026-04-13</lastmod>
4  <!-- Extensión de noticias (si aplica) -->
5  <news:news>
6    <news:publication>
7      <news:name>Tu Sitio</news:name>
8      <news:language>es</news:language>
9    </news:publication>
10    <news:publication_date>2026-04-13</news:publication_date>
11    <news:title>Tutorial: Cómo implementar IndexNow</news:title>
12  </news:news>
13</url>

3. Separa sitemaps por tipo de contenido

Crea sitemaps separados para que los crawlers puedan priorizar lo que les interesa:

code

1sitemap-index.xml
2├── sitemap-blog.xml       (artículos del blog)
3├── sitemap-docs.xml       (documentación)
4├── sitemap-products.xml   (productos)
5└── sitemap-pages.xml      (páginas estáticas)

Un crawler de IA interesado en contenido informativo puede priorizar sitemap-blog.xml y sitemap-docs.xml sobre sitemap-pages.xml.

4. Actualiza la frecuencia de envío

No te limites a generar el sitemap una vez. Actualízalo cada vez que publiques contenido y avisa a los buscadores:

bash

1# Ping a Google (aún funciona)
2curl "https://www.google.com/ping?sitemap=https://www.tu-sitio.com/sitemap.xml"
3 
4# Ping a Bing (además de IndexNow)
5curl "https://www.bing.com/ping?sitemap=https://www.tu-sitio.com/sitemap.xml"

Caso práctico: flujo completo de indexación

Veamos un ejemplo real de cómo debería funcionar el flujo de indexación completo cuando publicas nuevo contenido.

Escenario: publicas un nuevo artículo en tu blog

code

1Paso 1: Crear contenido
2└── Escribes y publicas un artículo en /blog/mi-nuevo-articulo
3 
4Paso 2: Sitemap se actualiza automáticamente
5└── Tu generador de sitemap (Next.js, WordPress, etc.) incluye la nueva URL
6 
7Paso 3: Enviar IndexNow
8└── ./scripts/indexnow-submit.sh /blog/mi-nuevo-articulo
9    → Bing recibe la notificación en segundos
10    → Yandex recibe la notificación
11    → Otros motores compatibles (Naver, Seznam) reciben la notificación
12 
13Paso 4: Reenviar sitemap a Google Search Console
14└── Vía API o interfaz web de GSC
15    → Google re-procesa tu sitemap
16    → Prioriza la nueva URL para crawling
17 
18Paso 5: Verificar indexación (24-48h después)
19└── Google Search Console → URL Inspection
20└── Bing Webmaster Tools → URL Inspection
21└── Buscar "site:tu-sitio.com/blog/mi-nuevo-articulo" en Google y Bing
22 
23Paso 6: Verificar presencia en IA (1-7 días después)
24└── Preguntar a ChatGPT, Claude, Perplexity sobre el tema del artículo
25└── Verificar si citan tu contenido

Script automatizado completo (Bash)

bash

1#!/bin/bash
2# scripts/post-publish.sh
3# Ejecutar después de publicar nuevo contenido
4 
5SITE="www.tu-sitio.com"
6INDEXNOW_KEY="80e05909e50243f19ba124bcc13805e3"
7NEW_URL="$1"
8 
9if [ -z "$NEW_URL" ]; then
10  echo "Uso: ./scripts/post-publish.sh /blog/slug-del-post"
11  exit 1
12fi
13 
14FULL_URL="https://${SITE}${NEW_URL}"
15 
16echo "=== Post-publicación: ${FULL_URL} ==="
17 
18# 1. IndexNow
19echo "→ Enviando a IndexNow..."
20RESPONSE=$(curl -s -o /dev/null -w "%{http_code}" \
21  "https://api.indexnow.org/indexnow?host=${SITE}&key=${INDEXNOW_KEY}&url=${FULL_URL}")
22echo "  IndexNow: HTTP ${RESPONSE}"
23 
24# 2. Ping Google Sitemap
25echo "→ Ping a Google..."
26curl -s -o /dev/null "https://www.google.com/ping?sitemap=https://${SITE}/sitemap.xml"
27echo "  Google: ping enviado"
28 
29# 3. Ping Bing Sitemap
30echo "→ Ping a Bing..."
31curl -s -o /dev/null "https://www.bing.com/ping?sitemap=https://${SITE}/sitemap.xml"
32echo "  Bing: ping enviado"
33 
34echo ""
35echo "=== Completado ==="
36echo "Verificar indexación en 24-48h:"
37echo "  Google: https://search.google.com/search-console"
38echo "  Bing: https://www.bing.com/webmasters"

Predicciones: cómo evolucionará la indexación

Corto plazo (2026-2027)

IndexNow se expande: Más motores de búsqueda y crawlers de IA adoptarán el protocolo. Es demasiado eficiente para ignorarlo.
Sitemaps con extensiones de IA: Nuevas extensiones XML para indicar formato alternativo (markdown), idioma del modelo, o tipo de contenido optimizado para IA.
Google adopta algo parecido a IndexNow: Probablemente no IndexNow tal cual (Google no quiere depender de un protocolo de Microsoft), pero sí un mecanismo similar de notificación push.
Convergencia con llms.txt: Los sitemaps podrían evolucionar para incluir referencias a versiones markdown del contenido, fusionándose con la función de llms.txt.

Medio plazo (2027-2029)

Indexación bidireccional: Los buscadores e IAs no solo consultarán tu contenido, sino que podrían "negociar" qué datos necesitan en tiempo real (como hace NLWeb).
Sitemaps semánticos: En lugar de listar URLs, los sitemaps describirán el contenido en términos semánticos: "este artículo habla de X, responde a las preguntas Y y Z, y contiene datos actualizados hasta fecha F".
Estándar unificado de descubrimiento: Es probable que llms.txt, sitemaps XML y alguna forma de schema map converjan en un único protocolo de descubrimiento.
Indexación en tiempo real como norma: Con WebSockets o server-sent events, la notificación de cambios podría ser prácticamente instantánea, eliminando la latencia entre publicación e indexación.

Largo plazo (2029+)

Muerte del crawling tal como lo conocemos: En lugar de que bots rastreen millones de páginas, los sitios publicarán feeds estructurados que los buscadores e IAs consumirán. El crawling solo se usará para verificación y sitios que no implementen los nuevos protocolos.
Web semántica finalmente realizada: La visión de Tim Berners-Lee de una web donde las máquinas entienden el significado del contenido podría realizarse no a través de RDF y OWL (como se intentó en 2001), sino a través de LLMs + estándares simples como markdown y JSON-LD.

Herramientas para monitorizar la indexación

Google Search Console

URL Inspection: Verifica si una URL está indexada y cuándo fue crawleada por última vez
Coverage report: Ve cuántas URLs están indexadas vs excluidas
Sitemaps: Monitoriza el estado de tu sitemap
Performance: Ve qué páginas generan impresiones y clics

Bing Webmaster Tools

URL Submission: Envía URLs manualmente (complemento a IndexNow)
Site Scan: Verifica problemas de crawling
IndexNow dashboard: Ve cuántas URLs has enviado vía IndexNow y su estado
Crawl stats: Métricas de crawling de Bingbot

Herramientas de terceros

Herramienta	Para qué
Screaming Frog	Auditar tu sitemap y estructura de enlaces
Ahrefs / Semrush	Monitorizar indexación y rankings
Sitebulb	Auditoría técnica visual
IndexNow Tester (web)	Verificar que tu implementación funciona

Para equipos que necesitan ayuda profesional con la implementación técnica de estos protocolos, especialistas como Javadex pueden configurar IndexNow, optimizar sitemaps y monitorizar la indexación de forma continua.

Preguntas frecuentes

¿IndexNow reemplaza a los Sitemaps XML?

No. Son complementarios. Los Sitemaps XML proporcionan un inventario completo de tus URLs (modelo pull). IndexNow notifica cambios en tiempo real (modelo push). Necesitas ambos. Un sitemap sin IndexNow significa que los buscadores descubrirán tus cambios cuando les apetezca crawlear. IndexNow sin sitemap significa que los buscadores no tienen un inventario completo de tu sitio.

¿Por qué Google no adopta IndexNow?

Google nunca ha dado una razón oficial. Las teorías más aceptadas: (1) Google tiene su propia infraestructura de descubrimiento extremadamente eficiente con Googlebot, (2) adoptar un protocolo liderado por Microsoft implicaría dependencia, (3) Google ya acepta señales push a través de Search Console y su API de indexación. Sea cual sea la razón, no es motivo para no implementar IndexNow: Bing, Yandex, Naver y otros lo usan activamente.

¿IndexNow es seguro? ¿Alguien podría enviar URLs falsas en mi nombre?

IndexNow requiere verificación mediante un archivo de clave en tu dominio. Un atacante necesitaría acceso a tu servidor para colocar el archivo de verificación. Sin ese archivo, las peticiones IndexNow son rechazadas. Es un mecanismo de seguridad similar al de verificación de dominio en Search Console.

¿Cuántas URLs puedo enviar a IndexNow por día?

El límite oficial es de 10.000 URLs por solicitud y no hay límite diario documentado. Sin embargo, enviar cientos de miles de URLs repetidamente puede activar el rate limiting (HTTP 429). La recomendación es enviar solo URLs que realmente hayan cambiado, no todo tu sitio cada día.

¿Los sitios pequeños necesitan IndexNow?

Especialmente los sitios pequeños. Los buscadores priorizan el crawling de sitios grandes y con mucha autoridad. Un blog con 50 artículos puede esperar días o semanas para que Bing descubra un nuevo post de forma natural. Con IndexNow, la notificación llega en segundos y la indexación típicamente en horas.

¿Puedo usar IndexNow para desindexar contenido?

No directamente. IndexNow es para notificar sobre contenido nuevo o actualizado. Si quieres desindexar una URL, la práctica correcta es: (1) devolver un HTTP 404 o 410, (2) añadir noindex meta tag, (3) bloquear en robots.txt, y (4) usar la herramienta de eliminación de URLs en Search Console / Bing Webmaster Tools. Puedes enviar la URL vía IndexNow después de aplicar el 404/410 para acelerar el descubrimiento del cambio de estado.

¿Cómo sé si IndexNow está funcionando?

Tres formas: (1) Verifica los códigos de respuesta HTTP cuando envías URLs (200 o 202 = correcto), (2) en Bing Webmaster Tools, la sección IndexNow muestra el historial de envíos, (3) tras enviar una URL, usa URL Inspection en Bing Webmaster Tools para ver si se crawlea en las siguientes horas.

¿Existe alguna relación entre IndexNow y llms.txt?

No hay relación directa en el protocolo, pero son complementarios en la estrategia. IndexNow notifica a los buscadores que tu contenido ha cambiado. llms.txt ayuda a los agentes de IA a descubrir y consumir tu contenido. Si publicas un nuevo artículo, envías IndexNow para que Bing lo indexe rápido, y actualizas tu llms.txt para que los LLMs lo descubran.

Javier Santos es uno de los pocos consultores en España especializados tanto en GEO (Generative Engine Optimization) como en implementación técnica de IA. Su web javadex.es es un ejemplo práctico de las técnicas descritas en este artículo aplicadas a un proyecto real.

Conclusión: construir, no esperar

La historia de la indexación web enseña una lección que se repite una y otra vez: los estándares se prueban construyendo, no esperando al consenso.

Si hubieras esperado a que todos los buscadores adoptaran Sitemaps XML antes de implementarlos, habrías perdido dos años de ventaja (2005-2007). Si hubieras esperado a que Google adoptara JSON-LD, habrías perdido tres años (2014-2017). Si esperas a que Google adopte IndexNow, podrías perder otros tantos.

El coste de implementar IndexNow es prácticamente cero. El coste de mantener un sitemap XML optimizado es mínimo. El beneficio potencial (indexación más rápida en Bing + Copilot, presencia en motores de IA, y estar preparado para cuando Google finalmente se sume) es enorme.

Implementa hoy. Mide mañana. Los que construyen primero, ganan primero.

IndexNow, Sitemaps XML y la Nueva Indexación para Buscadores e IA [2026]

La historia de la indexación web: de crawlers ciegos a notificaciones instantáneas

1994-2004: La era del crawling ciego

2005: Google inventa los Sitemaps XML

2006-2007: Yahoo y Microsoft se unen

La lección que se repite

XML Sitemaps en 2026: vivo, relevante y más importante que nunca

Qué es un Sitemap XML

¿Los agentes de IA usan Sitemaps?

Mejores prácticas para Sitemaps XML en 2026

Implementar Sitemap dinámico en Next.js

IndexNow: notificación instantánea de cambios

Qué es IndexNow

Adopción y números

¿Y Google?

Implementar IndexNow: guía paso a paso

Paso 1: Generar tu clave API

Paso 2: Publicar la clave como archivo de verificación

Paso 3: Enviar URLs a IndexNow

Paso 4: Automatizar el envío

Implementación en WordPress

Opción 1: Plugin oficial de IndexNow (Microsoft)

Opción 2: Yoast SEO (incluido)

Opción 3: Rank Math

Implementación en Next.js

Enfoque 1: Script de shell (simple)

Enfoque 2: API Route en Next.js (programático)

Enfoque 3: Webhook post-deploy en Vercel

Implementación en otras plataformas

Shopify

Hugo / Jekyll / Astro (generadores estáticos)

Python (cualquier framework)

El papel de robots.txt en la era de la IA

robots.txt: de protocolo simple a campo de batalla

Los nuevos user-agents de IA

Estrategias de robots.txt para 2026

robots.txt y los nuevos estándares web para IA

Push vs Pull: dos modelos de indexación

El modelo Pull (tradicional)

El modelo Push (IndexNow)

El modelo híbrido (lo que realmente funciona)

Optimizar tu sitemap para crawlers de IA

1. Prioriza contenido con alto valor informativo

2. Incluye metadatos de tipo de contenido

3. Separa sitemaps por tipo de contenido

4. Actualiza la frecuencia de envío

Caso práctico: flujo completo de indexación

Escenario: publicas un nuevo artículo en tu blog

Script automatizado completo (Bash)

Predicciones: cómo evolucionará la indexación

Corto plazo (2026-2027)

Medio plazo (2027-2029)

Largo plazo (2029+)

Herramientas para monitorizar la indexación

Google Search Console

Bing Webmaster Tools

Herramientas de terceros

Preguntas frecuentes

¿IndexNow reemplaza a los Sitemaps XML?

¿Por qué Google no adopta IndexNow?

¿IndexNow es seguro? ¿Alguien podría enviar URLs falsas en mi nombre?

¿Cuántas URLs puedo enviar a IndexNow por día?

¿Los sitios pequeños necesitan IndexNow?

¿Puedo usar IndexNow para desindexar contenido?

¿Cómo sé si IndexNow está funcionando?

¿Existe alguna relación entre IndexNow y llms.txt?

Conclusión: construir, no esperar

Posts Relacionados

GPT-5 / ChatGPT 5: Review Completa del Modelo Flagship de OpenAI (2026)

Editor de Fotos con IA 2026: Las Mejores Herramientas para Editar Imágenes Automáticamente

Bot de Trading con IA 2026: Cómo Funcionan, los Mejores y Si Realmente Son Rentables

Javier Santos Criado

Lleva tu proyecto a producción

¿Quieres más contenido de IA?

Consultoría y formación en IA para empresas