Ga naar de hoofdinhoud

Inhoud scrapen

Stel in hoe ChattyBox je website doorzoekt en inhoud indexeert voor AI-antwoorden.

Scrapingmodi

ChattyBox ondersteunt drie scrapingmodi:

1. Alleen de homepage

Scrapet alleen je homepage. Het meest geschikt voor eenvoudige landingspagina's of wanneer je zo min mogelijk inhoud wilt indexeren.

2. Sitemapmodus (Aanbevolen)

Geef een sitemap-URL op en ChattyBox scrapt alle pagina's die daarin staan. Dit is de betrouwbaarste manier om ervoor te zorgen dat al je pagina's worden geïndexeerd.

https://example.com/sitemap.xml

3. Handmatige URL's

Geef de exacte URL's op om te scrapen, één per regel. Gebruik dit als je precies wilt bepalen welke pagina's worden geïndexeerd.

https://example.com/pricing
https://example.com/features
https://example.com/about
https://example.com/faq

Paginalimieten

Het aantal pagina's dat je kunt scrapen, hangt af van je abonnement:

AbonnementPagina's per site
Free10
Starter50
Pro500
Business2,000

Inhoudsextractie

ChattyBox extraheert:

  • Paginatitel - De <title>-tag
  • Hoofdinhoud - Tekst uit <main>, <article> of <body>
  • Koppen - Alle <h1>- tot en met <h6>-tags
  • Alinea's - Alle inhoud in <p>-tags
  • Lijsten - Items in <ul>- en <ol>-tags

Genegeerde inhoud

ChattyBox negeert automatisch:

  • Navigatiemenu's
  • Inhoud in de voettekst
  • Scripts en stijlen
  • verborgen elementen
  • cookiebanners

Problemen oplossen

Worden pagina's niet gescrapet?

  • Controleer of de URL openbaar toegankelijk is
  • Zorg ervoor dat je robots.txt onze webcrawler toestaat
  • Controleer of de pagina niet is afgeschermd met een inlog

Ontbreekt er inhoud in antwoorden?

  • Scrape de pagina opnieuw om de meest recente inhoud op te halen
  • Controleer of de inhoud niet via JavaScript wordt geladen (we renderen JS)
  • Zorg ervoor dat de inhoud in het hoofdgedeelte staat, niet in iframes

Meer controle nodig?

Voor geavanceerdere behoeften op het gebied van scrapen (authenticatie, dynamische inhoud, enz.) kun je contact met ons opnemen via [email protected].