Consultoría IA para empresas — 100% remoto, trabajamos con tu equipo in-house

javi@javadex.es — Diagnóstico gratuito 30 min
Despliega tu proyecto IA hoy — VPS desde 4,99€/mes con SSD NVMeVer Hostinger
Inicio/Blog/IndexNow, Sitemaps XML y la Nueva Indexación para Buscadores e IA [2026]
Volver al Blog
SEO13 de abril de 202626 min

IndexNow, Sitemaps XML y la Nueva Indexación para Buscadores e IA [2026]

Guía completa de IndexNow, Sitemaps XML y cómo evolucionan los protocolos de indexación para buscadores e inteligencia artificial en 2026.

IndexNow, Sitemaps XML y la Nueva Indexación para Buscadores e IA [2026]

TLDR: Los protocolos de indexación web están evolucionando para servir tanto a buscadores clásicos como a agentes de IA. XML Sitemaps (2005) sigue siendo fundamental. IndexNow (2021) permite notificar cambios en tiempo real a Bing y Yandex (60M+ de sitios lo usan, Google aún no). Los crawlers de IA ya consultan sitemaps para descubrir contenido. Implementar ambos protocolos es barato, rápido y te posiciona para la indexación del futuro. No esperes al consenso: los estándares se prueban construyendo, no esperando.


La historia de la indexación web: de crawlers ciegos a notificaciones instantáneas

Para entender hacia dónde va la indexación, hay que entender de dónde viene.

1994-2004: La era del crawling ciego

En los primeros años de la web, los buscadores descubrían contenido de una sola forma: crawling. Un bot visitaba una página, seguía los enlaces que encontraba, visitaba esas nuevas páginas, y así sucesivamente. Era un proceso lento, ineficiente y costoso.

El único mecanismo de control era robots.txt (propuesto por Martijn Koster en 1994), que permitía decirle a los bots qué no visitar. Pero no había forma de decirles qué visitar, ni cuándo había contenido nuevo.

Problemas del crawling puro:

  • Google podía tardar semanas en descubrir una página nueva
  • Las páginas profundas (muchos clics desde la home) rara vez se indexaban
  • Los sitios pequeños con pocos enlaces entrantes eran prácticamente invisibles
  • Los buscadores gastaban recursos rastreando páginas que no habían cambiado

2005: Google inventa los Sitemaps XML

En junio de 2005, Google lanzó Sitemaps 0.84, un formato XML que permitía a los webmasters listar explícitamente las URLs de su sitio, junto con metadatos como la fecha de última modificación y la frecuencia de cambio.

La reacción de la comunidad fue mixta. Muchos dijeron: "¿Para qué crear un archivo XML solo para Google? Si Yahoo y MSN no lo soportan, no merece la pena."

Pero los constructores lo implementaron igualmente. Y pasó lo inevitable.

2006-2007: Yahoo y Microsoft se unen

  • Noviembre 2006: Yahoo anuncia soporte para Sitemaps XML
  • Febrero 2007: Microsoft (Live Search) se une al protocolo
  • Noviembre 2007: Los tres buscadores crean sitemaps.org, un estándar abierto unificado

En menos de tres años, un protocolo "solo de Google" se convirtió en el estándar universal de descubrimiento web. No porque los buscadores se pusieran de acuerdo primero, sino porque los webmasters lo implementaron y los datos demostraron que funcionaba.

La lección que se repite

Esta historia se ha repetido con cada protocolo de indexación exitoso:

ProtocoloLanzamientoAdopción inicialAdopción masiva
robots.txt1994Solo crawlers tempranosUniversal en 1-2 años
Sitemaps XML2005 (Google solo)Webmasters early adoptersEstándar abierto en 2007
OpenGraph2010 (Facebook solo)Desarrolladores webUniversal en 2-3 años
JSON-LD2014 (Google lo prioriza)SEOs avanzadosMainstream en 2017-2018
IndexNow2021 (Bing + Yandex)16M sitios en 202260M+ sitios en 2023
El patrón es siempre el mismo: un actor propone, los constructores implementan, y el resto se suma cuando el beneficio es innegable. Los que esperaron "hasta que todos lo soportaran" perdieron años de ventaja.


XML Sitemaps en 2026: vivo, relevante y más importante que nunca

Qué es un Sitemap XML

Un sitemap XML es un archivo (generalmente sitemap.xml) que lista las URLs de tu sitio web, junto con metadatos opcionales:

xml
1<?xml version="1.0" encoding="UTF-8"?>
2<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
3 <url>
4 <loc>https://www.ejemplo.com/</loc>
5 <lastmod>2026-04-13</lastmod>
6 <changefreq>weekly</changefreq>
7 <priority>1.0</priority>
8 </url>
9 <url>
10 <loc>https://www.ejemplo.com/blog/mi-articulo</loc>
11 <lastmod>2026-04-10</lastmod>
12 <changefreq>monthly</changefreq>
13 <priority>0.8</priority>
14 </url>
15</urlset>

¿Los agentes de IA usan Sitemaps?

Sí, algunos lo hacen. Y es un detalle que muchos pasan por alto.

Los crawlers de los principales sistemas de IA han confirmado (directa o indirectamente) que consultan sitemaps XML para descubrir contenido:

CrawlerUser-Agent¿Usa sitemaps?Notas
GPTBot (OpenAI)GPTBot/1.0Respeta robots.txt y consulta sitemap
ClaudeBot (Anthropic)ClaudeBot/1.0Crawling selectivo basado en sitemap
Google-ExtendedGoogle-ExtendedParcialPara datos de entrenamiento, no para búsqueda
Bingbot (Copilot)bingbot/2.0Comparte infraestructura con Bing Search
PerplexityBotPerplexityBotCrawlea agresivamente desde sitemaps
Bytespider (TikTok)BytespiderCrawlea a gran escala

Esto significa que tu sitemap XML ya no solo sirve para Google y Bing: es tu tarjeta de presentación para todo el ecosistema de IA.

Mejores prácticas para Sitemaps XML en 2026

Muchos sitios tienen sitemaps XML subóptimos. Estas son las prácticas que recomendamos:

1. Mantén lastmod actualizado y preciso

El error más común es tener lastmod con la misma fecha para todas las URLs, o no actualizarlo cuando el contenido cambia. Los buscadores y crawlers de IA usan lastmod para priorizar qué páginas revisar.

xml
1<!-- MAL: misma fecha para todo -->
2<lastmod>2025-01-01</lastmod>
3 
4<!-- BIEN: fecha real de última modificación -->
5<lastmod>2026-04-13T14:30:00+02:00</lastmod>

2. No incluyas URLs con noindex o redirect

Tu sitemap debe contener solo URLs canónicas, indexables, con código de estado 200. URLs redirigidas (301/302), bloqueadas por robots.txt, o con meta noindex no deben aparecer.

3. Usa sitemap index para sitios grandes

Si tienes más de 50.000 URLs o tu sitemap supera 50 MB, usa un sitemap index:

xml
1<?xml version="1.0" encoding="UTF-8"?>
2<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
3 <sitemap>
4 <loc>https://www.ejemplo.com/sitemap-posts.xml</loc>
5 <lastmod>2026-04-13</lastmod>
6 </sitemap>
7 <sitemap>
8 <loc>https://www.ejemplo.com/sitemap-products.xml</loc>
9 <lastmod>2026-04-12</lastmod>
10 </sitemap>
11</sitemapindex>

4. Incluye solo contenido de valor

No metas todas las URLs de tu sitio. Los crawlers de IA son selectivos: si tu sitemap tiene 50.000 URLs pero solo 500 son contenido real, estás diluyendo la señal. Prioriza:

  • Artículos y contenido principal
  • Páginas de producto con descripciones únicas
  • Landing pages con información relevante
  • FAQs y documentación

5. Referencia tu sitemap en robots.txt

code
1User-agent: *
2Allow: /
3 
4Sitemap: https://www.ejemplo.com/sitemap.xml

Implementar Sitemap dinámico en Next.js

En Next.js con App Router, puedes generar un sitemap dinámico que siempre esté actualizado:

typescript
1// app/sitemap.ts
2import { MetadataRoute } from 'next'
3import { getBlogPosts, getProjects } from '@/lib/data'
4 
5export default async function sitemap(): Promise<MetadataRoute.Sitemap> {
6 const posts = await getBlogPosts()
7 const projects = await getProjects()
8
9 const blogUrls = posts.map(post => ({
10 url: `https://www.ejemplo.com/blog/${post.slug}`,
11 lastModified: new Date(post.date),
12 changeFrequency: 'monthly' as const,
13 priority: 0.8,
14 }))
15 
16 const projectUrls = projects.map(project => ({
17 url: `https://www.ejemplo.com/project/${project.slug}`,
18 lastModified: new Date(project.updatedAt || project.createdAt),
19 changeFrequency: 'monthly' as const,
20 priority: 0.7,
21 }))
22 
23 return [
24 {
25 url: 'https://www.ejemplo.com',
26 lastModified: new Date(),
27 changeFrequency: 'weekly',
28 priority: 1.0,
29 },
30 ...blogUrls,
31 ...projectUrls,
32 ]
33}

Next.js genera automáticamente /sitemap.xml a partir de este archivo. No necesitas generación manual ni archivos estáticos.


IndexNow: notificación instantánea de cambios

Qué es IndexNow

IndexNow es un protocolo abierto lanzado en octubre de 2021 por Microsoft (Bing) y Yandex. Su propósito es simple y poderoso: en lugar de esperar a que un buscador crawlee tu sitio y descubra cambios (modelo pull), tú le notificas directamente qué URLs han cambiado (modelo push).

code
1Modelo tradicional (Pull):
2Buscador → Crawlea tu sitio → Descubre cambios → Indexa
3(Puede tardar horas, días o semanas)
4 
5Modelo IndexNow (Push):
6Tu sitio → Notifica al buscador → Buscador procesa → Indexa
7(Minutos u horas)

Adopción y números

La adopción de IndexNow ha sido espectacular:

FechaSitios usando IndexNowHito
Octubre 2021LanzamientoBing + Yandex
Marzo 2022~16 millonesWordPress plugins nativos
Diciembre 2022~40 millonesCloudflare integra en Crawler Hints
Junio 2023~60 millonesNaver (Corea) adopta el protocolo
2024~80 millonesSeznam.cz (Chequia) se une
2025-2026~100+ millonesYep, Mojeek evalúan adopción

¿Y Google?

La gran pregunta. Google no ha adoptado IndexNow oficialmente. Su posición ha sido ambigua: en 2022 dijeron que estaban "evaluando" el protocolo. En 2023, John Mueller mencionó que tenían "sus propios mecanismos de descubrimiento". En 2024-2025, silencio.

Sin embargo, hay indicios de que Google podría estar escuchando indirectamente. Cloudflare Crawler Hints (que usa IndexNow internamente) también envía señales que Google puede consumir. Y Google Search Console permite enviar URLs individuales para indexación, lo que es funcionalmente similar.

Nuestra recomendación: implementa IndexNow igualmente. Bing es el segundo buscador más grande del mundo, y su infraestructura alimenta a Microsoft Copilot, que cada vez tiene más cuota de mercado. Además, el coste de implementación es prácticamente cero.

Si tu estrategia SEO incluye aprovechar herramientas de IA para optimizar contenido, nuestra guía de ChatGPT para SEO te muestra cómo complementar estos protocolos técnicos con inteligencia artificial aplicada.


Implementar IndexNow: guía paso a paso

Paso 1: Generar tu clave API

IndexNow usa una clave API simple para verificar que las peticiones vienen del propietario del sitio. La clave es un string hexadecimal que actúa como autenticación.

bash
1# Generar una clave aleatoria (32 caracteres hex)
2openssl rand -hex 16
3# Resultado ejemplo: 80e05909e50243f19ba124bcc13805e3

Paso 2: Publicar la clave como archivo de verificación

Crea un archivo en la raíz de tu sitio con el nombre de tu clave:

bash
1# El archivo debe contener la clave como texto plano
2echo "80e05909e50243f19ba124bcc13805e3" > public/80e05909e50243f19ba124bcc13805e3.txt

Verifica que es accesible:

bash
1curl https://www.tu-sitio.com/80e05909e50243f19ba124bcc13805e3.txt
2# Debe devolver: 80e05909e50243f19ba124bcc13805e3

Paso 3: Enviar URLs a IndexNow

Opción A: URL individual (GET)

bash
1curl "https://api.indexnow.org/indexnow?\
2host=www.tu-sitio.com&\
3key=80e05909e50243f19ba124bcc13805e3&\
4url=https://www.tu-sitio.com/blog/mi-nuevo-articulo"

Opción B: Múltiples URLs (POST)

bash
1curl -X POST "https://api.indexnow.org/indexnow" \
2 -H "Content-Type: application/json" \
3 -d '{
4 "host": "www.tu-sitio.com",
5 "key": "80e05909e50243f19ba124bcc13805e3",
6 "keyLocation": "https://www.tu-sitio.com/80e05909e50243f19ba124bcc13805e3.txt",
7 "urlList": [
8 "https://www.tu-sitio.com/blog/articulo-1",
9 "https://www.tu-sitio.com/blog/articulo-2",
10 "https://www.tu-sitio.com/blog/articulo-3"
11 ]
12 }'

Códigos de respuesta:

CódigoSignificado
200URL enviada correctamente
202Aceptada, se procesará más tarde
400Petición mal formada
403Clave API inválida
422URL no válida
429Demasiadas peticiones (rate limit)

Paso 4: Automatizar el envío

Lo ideal es que IndexNow se dispare automáticamente cada vez que publicas o actualizas contenido. Aquí tienes implementaciones para las plataformas más comunes.


Implementación en WordPress

WordPress es la plataforma donde IndexNow es más fácil de implementar, gracias a plugins nativos.

Opción 1: Plugin oficial de IndexNow (Microsoft)

code
11. Ve a Plugins → Añadir nuevo
22. Busca "IndexNow"
33. Instala "IndexNow" por Microsoft Bing
44. Activa el plugin
55. No requiere configuración adicional

El plugin automáticamente:

  • Genera una clave API
  • Crea el archivo de verificación
  • Envía URLs a IndexNow cada vez que publicas/actualizas contenido
  • Soporta posts, páginas, y custom post types

Opción 2: Yoast SEO (incluido)

Si ya usas Yoast SEO, IndexNow viene integrado desde la versión 22.x:

code
11. Ve a Yoast SEO → Ajustes → General
22. En la pestaña "Integraciones", busca "IndexNow"
33. Activa la opción
44. Yoast genera y gestiona la clave automáticamente

Opción 3: Rank Math

Rank Math incluye soporte de IndexNow en su versión Pro:

code
11. Ve a Rank Math → Ajustes Generales → Instant Indexing
22. Activa IndexNow
33. Configura qué tipos de contenido se notifican


Implementación en Next.js

Para sitios Next.js, necesitas implementar IndexNow manualmente. Aquí hay dos enfoques.

Enfoque 1: Script de shell (simple)

Crea un script que puedas ejecutar después de cada despliegue:

bash
1#!/bin/bash
2# scripts/indexnow-submit.sh
3 
4SITE_HOST="www.tu-sitio.com"
5API_KEY="80e05909e50243f19ba124bcc13805e3"
6INDEXNOW_URL="https://api.indexnow.org/indexnow"
7 
8# Enviar URLs pasadas como argumentos
9if [ "$1" == "--all" ]; then
10 # Extraer URLs del sitemap
11 URLS=$(curl -s "https://${SITE_HOST}/sitemap.xml" | \
12 grep -oP '(?<=<loc>).*?(?=</loc>)' | head -50)
13else
14 URLS=""
15 for path in "$@"; do
16 URLS="${URLS}\"https://${SITE_HOST}${path}\","
17 done
18 URLS="[${URLS%,}]"
19fi
20 
21# Construir JSON y enviar
22if [ "$1" == "--all" ]; then
23 URL_ARRAY=$(echo "$URLS" | while read url; do echo "\"$url\""; done | paste -sd, -)
24 URL_ARRAY="[${URL_ARRAY}]"
25else
26 URL_ARRAY="$URLS"
27fi
28 
29curl -X POST "$INDEXNOW_URL" \
30 -H "Content-Type: application/json" \
31 -d "{
32 \"host\": \"${SITE_HOST}\",
33 \"key\": \"${API_KEY}\",
34 \"keyLocation\": \"https://${SITE_HOST}/${API_KEY}.txt\",
35 \"urlList\": ${URL_ARRAY}
36 }"
37 
38echo ""
39echo "IndexNow: URLs enviadas correctamente"

Uso:

bash
1# Una URL específica
2./scripts/indexnow-submit.sh /blog/mi-nuevo-articulo
3 
4# Varias URLs
5./scripts/indexnow-submit.sh /blog/post-1 /blog/post-2 /blog/post-3
6 
7# Todas las URLs del sitemap (máximo 50)
8./scripts/indexnow-submit.sh --all

Enfoque 2: API Route en Next.js (programático)

typescript
1// app/api/indexnow/route.ts
2import { NextRequest, NextResponse } from 'next/server'
3 
4const INDEXNOW_KEY = process.env.INDEXNOW_KEY || '80e05909e50243f19ba124bcc13805e3'
5const SITE_HOST = 'www.tu-sitio.com'
6 
7export async function POST(request: NextRequest) {
8 // Proteger con API key interna
9 const authHeader = request.headers.get('authorization')
10 if (authHeader !== `Bearer ${process.env.INTERNAL_API_KEY}`) {
11 return NextResponse.json({ error: 'Unauthorized' }, { status: 401 })
12 }
13 
14 const { urls } = await request.json()
15 
16 if (!urls || !Array.isArray(urls)) {
17 return NextResponse.json({ error: 'urls array required' }, { status: 400 })
18 }
19 
20 const fullUrls = urls.map(url =>
21 url.startsWith('http') ? url : `https://${SITE_HOST}${url}`
22 )
23 
24 const response = await fetch('https://api.indexnow.org/indexnow', {
25 method: 'POST',
26 headers: { 'Content-Type': 'application/json' },
27 body: JSON.stringify({
28 host: SITE_HOST,
29 key: INDEXNOW_KEY,
30 keyLocation: `https://${SITE_HOST}/${INDEXNOW_KEY}.txt`,
31 urlList: fullUrls,
32 }),
33 })
34 
35 return NextResponse.json({
36 status: response.status,
37 message: response.status === 200 ? 'URLs enviadas' : 'Error',
38 urlCount: fullUrls.length,
39 })
40}

Enfoque 3: Webhook post-deploy en Vercel

Si despliegas con Vercel, puedes configurar un webhook que envíe IndexNow automáticamente después de cada deploy:

typescript
1// app/api/webhook/vercel-deploy/route.ts
2import { NextRequest, NextResponse } from 'next/server'
3import { getBlogPosts } from '@/lib/data'
4 
5export async function POST(request: NextRequest) {
6 // Verificar que viene de Vercel
7 const body = await request.json()
8
9 if (body.type !== 'deployment.succeeded') {
10 return NextResponse.json({ skipped: true })
11 }
12 
13 // Obtener URLs recientes (último post publicado)
14 const posts = await getBlogPosts()
15 const recentPosts = posts
16 .sort((a, b) => new Date(b.date).getTime() - new Date(a.date).getTime())
17 .slice(0, 5)
18 
19 const urls = recentPosts.map(p => `https://www.tu-sitio.com/blog/${p.slug}`)
20 
21 // Enviar a IndexNow
22 await fetch('https://api.indexnow.org/indexnow', {
23 method: 'POST',
24 headers: { 'Content-Type': 'application/json' },
25 body: JSON.stringify({
26 host: 'www.tu-sitio.com',
27 key: process.env.INDEXNOW_KEY,
28 keyLocation: `https://www.tu-sitio.com/${process.env.INDEXNOW_KEY}.txt`,
29 urlList: urls,
30 }),
31 })
32 
33 return NextResponse.json({ sent: urls.length })
34}


Implementación en otras plataformas

Shopify

Shopify no tiene soporte nativo de IndexNow, pero puedes usar apps de terceros:

  • IndexNow for Shopify (app gratuita): Notifica automáticamente cuando publicas productos o artículos
  • Manual: Usa la API de Shopify webhooks para disparar peticiones IndexNow desde un servicio externo

Hugo / Jekyll / Astro (generadores estáticos)

Para generadores de sitios estáticos, añade IndexNow como paso en tu pipeline de CI/CD:

yaml
1# .github/workflows/deploy.yml (GitHub Actions)
2name: Deploy and IndexNow
3 
4on:
5 push:
6 branches: [main]
7 
8jobs:
9 deploy:
10 runs-on: ubuntu-latest
11 steps:
12 - uses: actions/checkout@v4
13
14 - name: Build site
15 run: npm run build
16
17 - name: Deploy
18 run: # tu comando de deploy
19
20 - name: Notify IndexNow
21 run: |
22 # Extraer URLs cambiadas
23 CHANGED_FILES=$(git diff --name-only HEAD~1 HEAD -- content/ | head -50)
24 URLS=""
25 for file in $CHANGED_FILES; do
26 slug=$(basename "$file" .md)
27 URLS="$URLS\"https://www.tu-sitio.com/blog/$slug\","
28 done
29 URLS="[${URLS%,}]"
30
31 curl -X POST "https://api.indexnow.org/indexnow" \
32 -H "Content-Type: application/json" \
33 -d "{
34 \"host\": \"www.tu-sitio.com\",
35 \"key\": \"${{ secrets.INDEXNOW_KEY }}\",
36 \"urlList\": $URLS
37 }"

Python (cualquier framework)

python
1import requests
2import hashlib
3 
4INDEXNOW_KEY = "80e05909e50243f19ba124bcc13805e3"
5SITE_HOST = "www.tu-sitio.com"
6 
7def notify_indexnow(urls: list[str]):
8 """Enviar URLs a IndexNow para indexación rápida."""
9 full_urls = [
10 f"https://{SITE_HOST}{url}" if not url.startswith("http") else url
11 for url in urls
12 ]
13
14 response = requests.post(
15 "https://api.indexnow.org/indexnow",
16 json={
17 "host": SITE_HOST,
18 "key": INDEXNOW_KEY,
19 "keyLocation": f"https://{SITE_HOST}/{INDEXNOW_KEY}.txt",
20 "urlList": full_urls,
21 }
22 )
23
24 print(f"IndexNow response: {response.status_code}")
25 return response.status_code
26 
27# Uso
28notify_indexnow(["/blog/nuevo-articulo", "/blog/articulo-actualizado"])


El papel de robots.txt en la era de la IA

robots.txt: de protocolo simple a campo de batalla

robots.txt fue creado en 1994 como una convención de cortesía entre webmasters y crawlers. Nunca fue un estándar formal (hasta que Google lo propuso como RFC 9309 en 2022). Su sintaxis es simple:

code
1User-agent: *
2Disallow: /admin/
3Disallow: /private/
4 
5User-agent: GPTBot
6Disallow: /
7 
8User-agent: ClaudeBot
9Allow: /blog/
10Disallow: /

Los nuevos user-agents de IA

En 2024-2026, docenas de nuevos crawlers de IA aparecieron en la web. Los más relevantes:

User-AgentEmpresaPropósito
GPTBotOpenAIEntrenamiento + ChatGPT browse
OAI-SearchBotOpenAIChatGPT Search (solo búsqueda)
ClaudeBotAnthropicEntrenamiento de Claude
Google-ExtendedGoogleEntrenamiento de Gemini
BingbotMicrosoftBúsqueda + Copilot
PerplexityBotPerplexityMotor de búsqueda IA
BytespiderByteDanceEntrenamiento de IA
Applebot-ExtendedAppleApple Intelligence
Meta-ExternalAgentMetaEntrenamiento de Llama
AmazonbotAmazonAlexa / IA Amazon

Estrategias de robots.txt para 2026

Hay tres enfoques comunes:

Estrategia 1: Permitir todo (recomendada para la mayoría)

code
1User-agent: *
2Allow: /
3 
4Sitemap: https://www.tu-sitio.com/sitemap.xml

Si quieres que tu contenido aparezca en respuestas de IA (GEO), necesitas permitir el crawling. Bloquear bots de IA es como bloquear Googlebot en 2005: te haces invisible.

Estrategia 2: Permitir búsqueda, bloquear entrenamiento

code
1User-agent: *
2Allow: /
3 
4# Permitir búsqueda IA
5User-agent: OAI-SearchBot
6Allow: /
7 
8User-agent: PerplexityBot
9Allow: /
10 
11# Bloquear entrenamiento
12User-agent: GPTBot
13Disallow: /
14 
15User-agent: ClaudeBot
16Disallow: /
17 
18User-agent: Google-Extended
19Disallow: /
20 
21Sitemap: https://www.tu-sitio.com/sitemap.xml

Estrategia 3: Control granular

code
1User-agent: GPTBot
2Allow: /blog/
3Allow: /docs/
4Disallow: /
5 
6User-agent: ClaudeBot
7Allow: /blog/
8Disallow: /
9 
10Sitemap: https://www.tu-sitio.com/sitemap.xml

robots.txt y los nuevos estándares web para IA

robots.txt sigue siendo el guardián del acceso. Los nuevos estándares como llms.txt, NLWeb y Schema Maps se ocupan de la experiencia una vez que el acceso está permitido. Son capas complementarias:

code
1robots.txt → ¿PUEDE acceder el bot? (control de acceso)
2llms.txt → ¿QUÉ contenido importa? (descubrimiento)
3sitemap.xml → ¿QUÉ URLs existen? (inventario)
4IndexNow → ¿QUÉ ha cambiado? (notificación)


Push vs Pull: dos modelos de indexación

El modelo Pull (tradicional)

code
1Buscador decide cuándo y qué crawlear
2→ Visita tu sitio periódicamente
3→ Descubre cambios comparando con versión anterior
4→ Indexa los cambios
5 
6Ventajas: No requiere nada del webmaster
7Desventajas: Lento, ineficiente, impredecible

El modelo Push (IndexNow)

code
1Tu sitio notifica cuando hay cambios
2→ Buscador recibe la notificación
3→ Prioriza el crawl de esas URLs
4→ Indexa más rápido
5 
6Ventajas: Rápido, eficiente, predecible
7Desventajas: Requiere implementación activa

El modelo híbrido (lo que realmente funciona)

En la práctica, ningún buscador usa solo push o solo pull. Google usa principalmente pull (Googlebot crawlea) pero también acepta señales push (Search Console URL inspection, API de indexación). Bing usa pull (Bingbot) + push (IndexNow).

La estrategia óptima es cubrir ambos modelos:

  1. Sitemap XML actualizado (pull: los buscadores lo consultan regularmente)
  2. IndexNow activo (push: notificas cambios en tiempo real)
  3. Search Console activo (híbrido: envías sitemap + solicitas indexación)
  4. Estructura de enlaces interna sólida (pull: facilitas el crawling natural)

Si estás construyendo automatizaciones para gestionar este flujo, nuestra comparativa de n8n vs Make vs Zapier te ayudará a elegir la herramienta adecuada para automatizar notificaciones de IndexNow y envío de sitemaps.


Optimizar tu sitemap para crawlers de IA

Los crawlers de IA tienen comportamientos diferentes a los buscadores tradicionales. Aquí van las optimizaciones específicas.

1. Prioriza contenido con alto valor informativo

Los modelos de lenguaje valoran contenido extenso, estructurado y autorizado. Si tienes artículos de 5.000 palabras y páginas de 200 palabras, dale más prioridad a los primeros:

xml
1<url>
2 <loc>https://www.ejemplo.com/blog/guia-completa-ia-empresas</loc>
3 <lastmod>2026-04-13</lastmod>
4 <priority>0.9</priority>
5</url>
6<url>
7 <loc>https://www.ejemplo.com/blog/nota-breve</loc>
8 <lastmod>2026-04-01</lastmod>
9 <priority>0.4</priority>
10</url>

2. Incluye metadatos de tipo de contenido

Aunque no es parte del estándar sitemaps.org, algunos crawlers respetan extensiones:

xml
1<url>
2 <loc>https://www.ejemplo.com/blog/tutorial-indexnow</loc>
3 <lastmod>2026-04-13</lastmod>
4 <!-- Extensión de noticias (si aplica) -->
5 <news:news>
6 <news:publication>
7 <news:name>Tu Sitio</news:name>
8 <news:language>es</news:language>
9 </news:publication>
10 <news:publication_date>2026-04-13</news:publication_date>
11 <news:title>Tutorial: Cómo implementar IndexNow</news:title>
12 </news:news>
13</url>

3. Separa sitemaps por tipo de contenido

Crea sitemaps separados para que los crawlers puedan priorizar lo que les interesa:

code
1sitemap-index.xml
2├── sitemap-blog.xml (artículos del blog)
3├── sitemap-docs.xml (documentación)
4├── sitemap-products.xml (productos)
5└── sitemap-pages.xml (páginas estáticas)

Un crawler de IA interesado en contenido informativo puede priorizar sitemap-blog.xml y sitemap-docs.xml sobre sitemap-pages.xml.

4. Actualiza la frecuencia de envío

No te limites a generar el sitemap una vez. Actualízalo cada vez que publiques contenido y avisa a los buscadores:

bash
1# Ping a Google (aún funciona)
2curl "https://www.google.com/ping?sitemap=https://www.tu-sitio.com/sitemap.xml"
3 
4# Ping a Bing (además de IndexNow)
5curl "https://www.bing.com/ping?sitemap=https://www.tu-sitio.com/sitemap.xml"


Caso práctico: flujo completo de indexación

Veamos un ejemplo real de cómo debería funcionar el flujo de indexación completo cuando publicas nuevo contenido.

Escenario: publicas un nuevo artículo en tu blog

code
1Paso 1: Crear contenido
2└── Escribes y publicas un artículo en /blog/mi-nuevo-articulo
3 
4Paso 2: Sitemap se actualiza automáticamente
5└── Tu generador de sitemap (Next.js, WordPress, etc.) incluye la nueva URL
6 
7Paso 3: Enviar IndexNow
8└── ./scripts/indexnow-submit.sh /blog/mi-nuevo-articulo
9 → Bing recibe la notificación en segundos
10 → Yandex recibe la notificación
11 → Otros motores compatibles (Naver, Seznam) reciben la notificación
12 
13Paso 4: Reenviar sitemap a Google Search Console
14└── Vía API o interfaz web de GSC
15 → Google re-procesa tu sitemap
16 → Prioriza la nueva URL para crawling
17 
18Paso 5: Verificar indexación (24-48h después)
19└── Google Search Console → URL Inspection
20└── Bing Webmaster Tools → URL Inspection
21└── Buscar "site:tu-sitio.com/blog/mi-nuevo-articulo" en Google y Bing
22 
23Paso 6: Verificar presencia en IA (1-7 días después)
24└── Preguntar a ChatGPT, Claude, Perplexity sobre el tema del artículo
25└── Verificar si citan tu contenido

Script automatizado completo (Bash)

bash
1#!/bin/bash
2# scripts/post-publish.sh
3# Ejecutar después de publicar nuevo contenido
4 
5SITE="www.tu-sitio.com"
6INDEXNOW_KEY="80e05909e50243f19ba124bcc13805e3"
7NEW_URL="$1"
8 
9if [ -z "$NEW_URL" ]; then
10 echo "Uso: ./scripts/post-publish.sh /blog/slug-del-post"
11 exit 1
12fi
13 
14FULL_URL="https://${SITE}${NEW_URL}"
15 
16echo "=== Post-publicación: ${FULL_URL} ==="
17 
18# 1. IndexNow
19echo "→ Enviando a IndexNow..."
20RESPONSE=$(curl -s -o /dev/null -w "%{http_code}" \
21 "https://api.indexnow.org/indexnow?host=${SITE}&key=${INDEXNOW_KEY}&url=${FULL_URL}")
22echo " IndexNow: HTTP ${RESPONSE}"
23 
24# 2. Ping Google Sitemap
25echo "→ Ping a Google..."
26curl -s -o /dev/null "https://www.google.com/ping?sitemap=https://${SITE}/sitemap.xml"
27echo " Google: ping enviado"
28 
29# 3. Ping Bing Sitemap
30echo "→ Ping a Bing..."
31curl -s -o /dev/null "https://www.bing.com/ping?sitemap=https://${SITE}/sitemap.xml"
32echo " Bing: ping enviado"
33 
34echo ""
35echo "=== Completado ==="
36echo "Verificar indexación en 24-48h:"
37echo " Google: https://search.google.com/search-console"
38echo " Bing: https://www.bing.com/webmasters"


Predicciones: cómo evolucionará la indexación

Corto plazo (2026-2027)

  • IndexNow se expande: Más motores de búsqueda y crawlers de IA adoptarán el protocolo. Es demasiado eficiente para ignorarlo.
  • Sitemaps con extensiones de IA: Nuevas extensiones XML para indicar formato alternativo (markdown), idioma del modelo, o tipo de contenido optimizado para IA.
  • Google adopta algo parecido a IndexNow: Probablemente no IndexNow tal cual (Google no quiere depender de un protocolo de Microsoft), pero sí un mecanismo similar de notificación push.
  • Convergencia con llms.txt: Los sitemaps podrían evolucionar para incluir referencias a versiones markdown del contenido, fusionándose con la función de llms.txt.

Medio plazo (2027-2029)

  • Indexación bidireccional: Los buscadores e IAs no solo consultarán tu contenido, sino que podrían "negociar" qué datos necesitan en tiempo real (como hace NLWeb).
  • Sitemaps semánticos: En lugar de listar URLs, los sitemaps describirán el contenido en términos semánticos: "este artículo habla de X, responde a las preguntas Y y Z, y contiene datos actualizados hasta fecha F".
  • Estándar unificado de descubrimiento: Es probable que llms.txt, sitemaps XML y alguna forma de schema map converjan en un único protocolo de descubrimiento.
  • Indexación en tiempo real como norma: Con WebSockets o server-sent events, la notificación de cambios podría ser prácticamente instantánea, eliminando la latencia entre publicación e indexación.

Largo plazo (2029+)

  • Muerte del crawling tal como lo conocemos: En lugar de que bots rastreen millones de páginas, los sitios publicarán feeds estructurados que los buscadores e IAs consumirán. El crawling solo se usará para verificación y sitios que no implementen los nuevos protocolos.
  • Web semántica finalmente realizada: La visión de Tim Berners-Lee de una web donde las máquinas entienden el significado del contenido podría realizarse no a través de RDF y OWL (como se intentó en 2001), sino a través de LLMs + estándares simples como markdown y JSON-LD.


Herramientas para monitorizar la indexación

Google Search Console

  • URL Inspection: Verifica si una URL está indexada y cuándo fue crawleada por última vez
  • Coverage report: Ve cuántas URLs están indexadas vs excluidas
  • Sitemaps: Monitoriza el estado de tu sitemap
  • Performance: Ve qué páginas generan impresiones y clics

Bing Webmaster Tools

  • URL Submission: Envía URLs manualmente (complemento a IndexNow)
  • Site Scan: Verifica problemas de crawling
  • IndexNow dashboard: Ve cuántas URLs has enviado vía IndexNow y su estado
  • Crawl stats: Métricas de crawling de Bingbot

Herramientas de terceros

HerramientaPara qué
Screaming FrogAuditar tu sitemap y estructura de enlaces
Ahrefs / SemrushMonitorizar indexación y rankings
SitebulbAuditoría técnica visual
IndexNow Tester (web)Verificar que tu implementación funciona

Para equipos que necesitan ayuda profesional con la implementación técnica de estos protocolos, especialistas como Javadex pueden configurar IndexNow, optimizar sitemaps y monitorizar la indexación de forma continua.


Preguntas frecuentes

¿IndexNow reemplaza a los Sitemaps XML?

No. Son complementarios. Los Sitemaps XML proporcionan un inventario completo de tus URLs (modelo pull). IndexNow notifica cambios en tiempo real (modelo push). Necesitas ambos. Un sitemap sin IndexNow significa que los buscadores descubrirán tus cambios cuando les apetezca crawlear. IndexNow sin sitemap significa que los buscadores no tienen un inventario completo de tu sitio.

¿Por qué Google no adopta IndexNow?

Google nunca ha dado una razón oficial. Las teorías más aceptadas: (1) Google tiene su propia infraestructura de descubrimiento extremadamente eficiente con Googlebot, (2) adoptar un protocolo liderado por Microsoft implicaría dependencia, (3) Google ya acepta señales push a través de Search Console y su API de indexación. Sea cual sea la razón, no es motivo para no implementar IndexNow: Bing, Yandex, Naver y otros lo usan activamente.

¿IndexNow es seguro? ¿Alguien podría enviar URLs falsas en mi nombre?

IndexNow requiere verificación mediante un archivo de clave en tu dominio. Un atacante necesitaría acceso a tu servidor para colocar el archivo de verificación. Sin ese archivo, las peticiones IndexNow son rechazadas. Es un mecanismo de seguridad similar al de verificación de dominio en Search Console.

¿Cuántas URLs puedo enviar a IndexNow por día?

El límite oficial es de 10.000 URLs por solicitud y no hay límite diario documentado. Sin embargo, enviar cientos de miles de URLs repetidamente puede activar el rate limiting (HTTP 429). La recomendación es enviar solo URLs que realmente hayan cambiado, no todo tu sitio cada día.

¿Los sitios pequeños necesitan IndexNow?

Especialmente los sitios pequeños. Los buscadores priorizan el crawling de sitios grandes y con mucha autoridad. Un blog con 50 artículos puede esperar días o semanas para que Bing descubra un nuevo post de forma natural. Con IndexNow, la notificación llega en segundos y la indexación típicamente en horas.

¿Puedo usar IndexNow para desindexar contenido?

No directamente. IndexNow es para notificar sobre contenido nuevo o actualizado. Si quieres desindexar una URL, la práctica correcta es: (1) devolver un HTTP 404 o 410, (2) añadir noindex meta tag, (3) bloquear en robots.txt, y (4) usar la herramienta de eliminación de URLs en Search Console / Bing Webmaster Tools. Puedes enviar la URL vía IndexNow después de aplicar el 404/410 para acelerar el descubrimiento del cambio de estado.

¿Cómo sé si IndexNow está funcionando?

Tres formas: (1) Verifica los códigos de respuesta HTTP cuando envías URLs (200 o 202 = correcto), (2) en Bing Webmaster Tools, la sección IndexNow muestra el historial de envíos, (3) tras enviar una URL, usa URL Inspection en Bing Webmaster Tools para ver si se crawlea en las siguientes horas.

¿Existe alguna relación entre IndexNow y llms.txt?

No hay relación directa en el protocolo, pero son complementarios en la estrategia. IndexNow notifica a los buscadores que tu contenido ha cambiado. llms.txt ayuda a los agentes de IA a descubrir y consumir tu contenido. Si publicas un nuevo artículo, envías IndexNow para que Bing lo indexe rápido, y actualizas tu llms.txt para que los LLMs lo descubran.


Conclusión: construir, no esperar

La historia de la indexación web enseña una lección que se repite una y otra vez: los estándares se prueban construyendo, no esperando al consenso.

Si hubieras esperado a que todos los buscadores adoptaran Sitemaps XML antes de implementarlos, habrías perdido dos años de ventaja (2005-2007). Si hubieras esperado a que Google adoptara JSON-LD, habrías perdido tres años (2014-2017). Si esperas a que Google adopte IndexNow, podrías perder otros tantos.

El coste de implementar IndexNow es prácticamente cero. El coste de mantener un sitemap XML optimizado es mínimo. El beneficio potencial (indexación más rápida en Bing + Copilot, presencia en motores de IA, y estar preparado para cuando Google finalmente se sume) es enorme.

Implementa hoy. Mide mañana. Los que construyen primero, ganan primero.

Recomendado

¿Listo para poner tu proyecto en producción?

Si estás siguiendo este tutorial, necesitas un servidor donde desplegarlo. Yo uso Hostinger para mis proyectos porque el panel es intuitivo, los VPS van con SSD NVMe, y a 4,99€/mes no hay nada comparable en relación calidad-precio.

SSL gratis + IP dedicada
SSD NVMe ultra rápido
Soporte 24/7 en español

* Enlace de afiliado. Si contratas a través de este enlace, nos ayudas a mantener este contenido gratuito.

Posts Relacionados

JS

Javier Santos Criado

Consultor de IA y Automatización | Fundador de Javadex

Experto en implementación de soluciones de Inteligencia Artificial para empresas. Especializado en automatización con n8n, integración de LLMs, y desarrollo de agentes IA.

RECOMENDADO

Lleva tu proyecto a producción

Hosting web desde 2,99€/mes o VPS con SSD NVMe desde 4,99€/mes. Panel intuitivo, IP dedicada y soporte 24/7 en español.

SSL gratis SSD NVMe Soporte 24/7 Panel intuitivo
Explorar planes de Hostinger

¿Quieres más contenido de IA?

Explora nuestras comparativas y guías

Consultoría y formación en IA para empresas

Implementamos soluciones de inteligencia artificial adaptadas a tu negocio. Proceso 100% remoto — trabajamos con tu equipo in-house sin que tengas que desplazarte.

javi@javadex.esSesión de diagnóstico gratuita · 30 min