Content Scraping
Konfigurieren Sie, wie ChattyBox Ihre Website crawlt und Inhalte für AI-Antworten indexiert.
Scraping-Modi
ChattyBox unterstützt drei Scraping-Modi:
1. Nur die Homepage
Scrapt nur Ihre Homepage. Ideal für einfache Landingpages oder wenn Sie nur minimale Inhalte indexieren möchten.
2. Sitemap-Modus (Empfohlen)
Geben Sie eine Sitemap-URL an, und ChattyBox wird alle darin aufgeführten Seiten scrapen. Das ist die zuverlässigste Methode, um sicherzustellen, dass alle Ihre Seiten indexiert werden.
https://example.com/sitemap.xml
3. Manuelle URLs
Geben Sie die genauen URLs zum Scrapen an, eine pro Zeile. Nutzen Sie dies, wenn Sie genau steuern möchten, welche Seiten indexiert werden.
https://example.com/pricing
https://example.com/features
https://example.com/about
https://example.com/faq
Seitenlimits
Wie viele Seiten Sie scrapen können, hängt von Ihrem Tarif ab:
| Tarif | Seiten pro Website |
|---|---|
| Free | 10 |
| Starter | 50 |
| Pro | 500 |
| Business | 2,000 |
Inhaltsextraktion
ChattyBox extrahiert:
- Seitentitel - Das
<title>-Tag - Hauptinhalt - Text aus
<main>,<article>oder<body> - Überschriften - Alle
<h1>- bis<h6>-Tags - Absätze - Alle Inhalte in
<p>-Tags - Listen -
<ul>- und<ol>-Elemente
Ignorierte Inhalte
ChattyBox ignoriert automatisch:
- Navigationsmenüs
- Inhalte im Footer
- Skripte und Styles
- versteckte Elemente
- Cookie-Banner
Fehlerbehebung
Seiten werden nicht gescraped?
- Prüfen Sie, ob die URL öffentlich zugänglich ist
- Stellen Sie sicher, dass Ihre
robots.txtunseren Crawler zulässt - Prüfen Sie, ob die Seite nicht durch eine Anmeldung geschützt ist
Fehlt Inhalt in den Antworten?
- Scrapen Sie die Seite erneut, um die neuesten Inhalte abzurufen
- Prüfen Sie, ob die Inhalte nicht über JavaScript geladen werden (wir rendern JS)
- Stellen Sie sicher, dass sich die Inhalte im Hauptinhalt befinden, nicht in iframes
Mehr Kontrolle gewünscht?
Für erweiterte Scraping-Anforderungen (Authentifizierung, dynamische Inhalte usw.) kontaktieren Sie uns unter [email protected].