Saltar al contenido principal

Extracción de contenido

Configura cómo ChattyBox rastrea tu sitio web e indexa el contenido para las respuestas de IA.

Modos de scraping

ChattyBox admite tres modos de scraping:

1. Solo la página de inicio

Extrae solo la página de inicio de tu sitio. Ideal para páginas de destino sencillas o si quieres indexar la menor cantidad de contenido posible.

2. Modo sitemap (Recomendado)

Proporciona la URL de un mapa del sitio y ChattyBox extraerá todas las páginas que figuren en él. Esta es la forma más fiable de garantizar que todas tus páginas se indexen.

https://example.com/sitemap.xml

3. URLs manuales

Especifica las URL exactas que quieres extraer, una por línea. Usa esto cuando quieras tener un control preciso sobre qué páginas se indexan.

https://example.com/pricing
https://example.com/features
https://example.com/about
https://example.com/faq

Límites de páginas

El número de páginas que puedes extraer depende de tu plan:

PlanPáginas por sitio
Free10
Starter50
Pro500
Business2,000

Extracción de contenido

ChattyBox extrae:

  • Título de la página - La etiqueta <title>
  • Contenido principal - Texto de <main>, <article> o <body>
  • Encabezados - Todas las etiquetas, de <h1> a <h6>
  • Párrafos - Todo el contenido de <p>
  • Listas - Elementos de <ul> y <ol>

Contenido ignorado

ChattyBox ignora automáticamente:

  • menús de navegación
  • contenido del pie de página
  • scripts y estilos
  • elementos ocultos
  • banners de cookies

Solución de problemas

¿No se extraen las páginas?

  • Comprueba que la URL sea accesible públicamente
  • Asegúrate de que tu robots.txt permita nuestro rastreador
  • Verifica que la página no requiera autenticación

¿Falta contenido en las respuestas?

  • Vuelve a extraer la página para obtener el contenido más reciente
  • Comprueba que el contenido no se cargue mediante JavaScript (renderizamos JS)
  • Asegúrate de que el contenido esté en la parte principal de la página, no en iframes

¿Necesitas más control?

Si necesitas opciones avanzadas de extracción (autenticación, contenido dinámico, etc.), contáctanos en [email protected].