Passer au contenu principal

Extraction de contenu

Configurez la manière dont ChattyBox explore votre site web et indexe son contenu pour les réponses de l’IA.

Modes d’exploration

ChattyBox prend en charge trois modes d’exploration :

1. Page d’accueil uniquement

Extrait uniquement votre page d’accueil. Idéal pour les landing pages simples ou si vous souhaitez indexer un minimum de contenu.

2. Mode Sitemap (recommandé)

Fournissez l’URL d’un plan du site et ChattyBox extraira toutes les pages qui y sont répertoriées. C’est la méthode la plus fiable pour vous assurer que toutes vos pages sont indexées.

https://example.com/sitemap.xml

3. URL manuelles

Spécifiez les URL exactes à extraire, une par ligne. Utilisez cette option lorsque vous voulez contrôler précisément les pages à indexer.

https://example.com/pricing
https://example.com/features
https://example.com/about
https://example.com/faq

Limites de pages

Le nombre de pages que vous pouvez extraire dépend de votre forfait :

ForfaitPages par site
Free10
Starter50
Pro500
Business2 000

Extraction du contenu

ChattyBox extrait :

  • Titre de la page - La balise <title>
  • Contenu principal - Le texte de <main>, <article> ou <body>
  • Titres - Toutes les balises <h1> à <h6>
  • Paragraphes - Tout le contenu des balises <p>
  • Listes - Les éléments de <ul> et <ol>

Contenu ignoré

ChattyBox ignore automatiquement :

  • Menus de navigation
  • Contenu du pied de page
  • Scripts et styles
  • Éléments masqués
  • Bannières de cookies

Dépannage

Les pages ne sont pas extraites ?

  • Vérifiez que l’URL est accessible au public
  • Assurez-vous que votre robots.txt autorise notre robot d’exploration
  • Vérifiez que la page ne nécessite pas d’authentification

Du contenu manque dans les réponses ?

  • Ré-extrayez la page pour récupérer le contenu le plus récent
  • Vérifiez que le contenu n’est pas chargé via JavaScript (nous exécutons le JS)
  • Assurez-vous que le contenu se trouve dans le corps principal de la page, et non dans des iframes

Besoin de plus de contrôle ?

Pour des besoins avancés en extraction (authentification, contenu dynamique, etc.), contactez-nous à l’adresse [email protected].