Inhoud scrapen
Stel in hoe ChattyBox je website doorzoekt en inhoud indexeert voor AI-antwoorden.
Scrapingmodi
ChattyBox ondersteunt drie scrapingmodi:
1. Alleen de homepage
Scrapet alleen je homepage. Het meest geschikt voor eenvoudige landingspagina's of wanneer je zo min mogelijk inhoud wilt indexeren.
2. Sitemapmodus (Aanbevolen)
Geef een sitemap-URL op en ChattyBox scrapt alle pagina's die daarin staan. Dit is de betrouwbaarste manier om ervoor te zorgen dat al je pagina's worden geïndexeerd.
https://example.com/sitemap.xml
3. Handmatige URL's
Geef de exacte URL's op om te scrapen, één per regel. Gebruik dit als je precies wilt bepalen welke pagina's worden geïndexeerd.
https://example.com/pricing
https://example.com/features
https://example.com/about
https://example.com/faq
Paginalimieten
Het aantal pagina's dat je kunt scrapen, hangt af van je abonnement:
| Abonnement | Pagina's per site |
|---|---|
| Free | 10 |
| Starter | 50 |
| Pro | 500 |
| Business | 2,000 |
Inhoudsextractie
ChattyBox extraheert:
- Paginatitel - De
<title>-tag - Hoofdinhoud - Tekst uit
<main>,<article>of<body> - Koppen - Alle
<h1>- tot en met<h6>-tags - Alinea's - Alle inhoud in
<p>-tags - Lijsten - Items in
<ul>- en<ol>-tags
Genegeerde inhoud
ChattyBox negeert automatisch:
- Navigatiemenu's
- Inhoud in de voettekst
- Scripts en stijlen
- verborgen elementen
- cookiebanners
Problemen oplossen
Worden pagina's niet gescrapet?
- Controleer of de URL openbaar toegankelijk is
- Zorg ervoor dat je
robots.txtonze webcrawler toestaat - Controleer of de pagina niet is afgeschermd met een inlog
Ontbreekt er inhoud in antwoorden?
- Scrape de pagina opnieuw om de meest recente inhoud op te halen
- Controleer of de inhoud niet via JavaScript wordt geladen (we renderen JS)
- Zorg ervoor dat de inhoud in het hoofdgedeelte staat, niet in iframes
Meer controle nodig?
Voor geavanceerdere behoeften op het gebied van scrapen (authenticatie, dynamische inhoud, enz.) kun je contact met ons opnemen via [email protected].