Extraction de contenu
Configurez la manière dont ChattyBox explore votre site web et indexe son contenu pour les réponses de l’IA.
Modes d’exploration
ChattyBox prend en charge trois modes d’exploration :
1. Page d’accueil uniquement
Extrait uniquement votre page d’accueil. Idéal pour les landing pages simples ou si vous souhaitez indexer un minimum de contenu.
2. Mode Sitemap (recommandé)
Fournissez l’URL d’un plan du site et ChattyBox extraira toutes les pages qui y sont répertoriées. C’est la méthode la plus fiable pour vous assurer que toutes vos pages sont indexées.
https://example.com/sitemap.xml
3. URL manuelles
Spécifiez les URL exactes à extraire, une par ligne. Utilisez cette option lorsque vous voulez contrôler précisément les pages à indexer.
https://example.com/pricing
https://example.com/features
https://example.com/about
https://example.com/faq
Limites de pages
Le nombre de pages que vous pouvez extraire dépend de votre forfait :
| Forfait | Pages par site |
|---|---|
| Free | 10 |
| Starter | 50 |
| Pro | 500 |
| Business | 2 000 |
Extraction du contenu
ChattyBox extrait :
- Titre de la page - La balise
<title> - Contenu principal - Le texte de
<main>,<article>ou<body> - Titres - Toutes les balises
<h1>à<h6> - Paragraphes - Tout le contenu des balises
<p> - Listes - Les éléments de
<ul>et<ol>
Contenu ignoré
ChattyBox ignore automatiquement :
- Menus de navigation
- Contenu du pied de page
- Scripts et styles
- Éléments masqués
- Bannières de cookies
Dépannage
Les pages ne sont pas extraites ?
- Vérifiez que l’URL est accessible au public
- Assurez-vous que votre
robots.txtautorise notre robot d’exploration - Vérifiez que la page ne nécessite pas d’authentification
Du contenu manque dans les réponses ?
- Ré-extrayez la page pour récupérer le contenu le plus récent
- Vérifiez que le contenu n’est pas chargé via JavaScript (nous exécutons le JS)
- Assurez-vous que le contenu se trouve dans le corps principal de la page, et non dans des iframes
Besoin de plus de contrôle ?
Pour des besoins avancés en extraction (authentification, contenu dynamique, etc.), contactez-nous à l’adresse [email protected].