Modèles de crawl
Les modèles permettent des restrictions rapides et faciles sur les pages crawlées ou les processus basés sur des correspondances simples de chaînes d’URL. Par exemple, pour crawler uniquement les pages de la catégorie « sports » à l’adresse http://www.example.com/sports/heres-a-sports-article.html, vous pouvez spécifier un modèle de crawl de/sports/ (l’inclusion des barres obliques garantit la précision et évite de correspondre à une chaîne « sports » ailleurs dans l’URL).
En utilisant un modèle de crawl, vous pouvez limiter le crawl à un sous-domaine particulier. Par exemple, lors d’un crawl commençant à un domaine spécifique, vous pouvez entrer un modèle de crawl pour empêcher le crawl de liens indésirables.
Dans une configuration de Web Crawl, vous pouvez entrer plusieurs modèles pour correspondre à plusieurs chaînes en plaçant chaque modèle individuel sur une nouvelle ligne.
Voici les modèles de crawl disponibles :
Limiter les correspondances au début des URL
Limiter les correspondances au début des URL
Utilisez le caractère accent circonflexe (
^) pour restreindre les correspondances de modèle au début d’une URL. Par exemple, un modèle de traitement de ^https://example.com limitera le traitement uniquement aux pages dont les URL commencent par https://example.com.Modèles de correspondance négative
Modèles de correspondance négative
Utilisez le point d’exclamation (
!) pour une « correspondance négative » pour exclure explicitement les pages du crawl ou du traitement.
Expressions régulières pour crawl et traitement
Expressions régulières pour crawl et traitement
Pour un contrôle précis de vos correspondances d’URL de crawl ou de traitement, vous pouvez créer une expression régulière (regex) pour crawler ou traiter exclusivement les URL qui correspondent à votre expression définie. Par exemple, pour traiter les pages à
https://example.com/ sous le chemin « /crawl » et contenant le terme « regex », vous pourriez utiliser un regex de traitement similaire à : \\/crawl.*?regex.
Le crawlbot utilise un moteur d’expression régulière personnalisé pour des performances optimales lors de l’évaluation des pages. En termes de syntaxe de classe de caractères, couramment utilisée dans l’analyse du Crawlbot, le crawlbot prend en charge tous les caractères de traitement ASCII et la plupart des raccourcis Perl/Tcl.
Modèle de traitement HTML
Modèle de traitement HTML
Le crawl permet de limiter les pages traitées en fonction des modèles de traitement HTML, qui n’examinent que la source brute et n’exécutent pas JavaScript/AJAX pendant le temps de crawl. Cependant, l’inconvénient de cette option est la vitesse de crawl.
Si vous souhaitez une vitesse de crawl plus rapide, vous devriez utiliser le regex de crawl et de traitement.
Quand utiliser un Crawler
Le crawler est conçu pour extraire des informations structurées et de haute valeur du web. Il fonctionne mieux dans les scénarios où les données sont accessibles au public et régulièrement mises à jour.Meilleurs cas d’usage
- Actualités et médias – Extrayez des articles de sites comme BBC News
- Données financières – Collectez des perspectives de marché à partir de sites boursiers comme NASDAQ
- E-commerce – Rassemblez les listes de produits, les avis et les prix des marchés électroniques
- Ressources de connaissance – Capturez les articles de blog, les discussions de forum ou le contenu FAQ pour enrichir votre Knowledge Base.
Quand ne pas utiliser le Crawler
Évitez le crawl dans ces situations pour prévenir les erreurs ou les problèmes de conformité :- Authentification requise – Les sites web qui nécessitent des identifiants de connexion (par exemple, LinkedIn).
- Tableaux de bord très dynamiques – Les tableaux de bord en temps réel (comme les cotations boursières en direct) peuvent ne pas donner des résultats complets.
- Charge excessive du site – Respectez les politiques d’utilisation de chaque site – consultez toujours le fichier
robot.txtavant le crawl.
Créer un nouveau Crawler
- Dans votre projet EKB, accédez à la Knowledge Base.
- Dans la Knowledge Base, cliquez sur l’icône d’engrenage en haut à droite.
- Allez à l’onglet Crawlers.
- Cliquez sur + Créer nouveau.
- Dans la section Entrée :
a. Entrez un nom pour votre crawler.
b. Fournissez l’URL de départ, le lien du site web que vous souhaitez crawler. C’est le lien initial qui est accédé par le crawler. À partir de là, le crawler explore les pages web et les liens disponibles au sein du site web. - Dans la section Paramètres du Crawler :
- Limiter au domaine racine – Ceci configure le crawler pour se concentrer uniquement sur le domaine racine, rationalisant l’extraction d’informations pertinentes.
- Télécharger les fichiers – Activez cette option si vous souhaitez que le crawler télécharge et traite les fichiers trouvés lors du crawl.
- Max Pages à crawler – Définissez le nombre maximum de pages à crawler pour optimiser l’utilisation des ressources et l’efficacité.
- Profondeur maximale – Définissez la profondeur maximale à crawler à partir de l’URL de départ (c’est-à-dire combien de liens en profondeur à suivre).
- Stratégie de crawl – Choisissez comment le crawler priorise les pages à visiter en premier.
- Meilleur d’abord – Si vous sélectionnez cette option, vous devez configurer les mots-clés que le crawler doit utiliser pour trouver ces pages et le poids de ces mots-clés.
- Mots-clés pour le meilleur d’abord – Les pages contenant les mots-clés configurés dans cette zone de texte seront crawlées en premier. Entrez un mot-clé par ligne.
- Poids des mots-clés – Configurez le poids des mots-clés pour la correspondance des mots-clés ; plus la valeur est élevée, plus elle priorise la correspondance des mots-clés.
- Largeur d’abord – Cette méthode priorise la visite de toutes les pages directement liées à partir d’une page actuelle avant d’aller plus loin.
- Profondeur d’abord – Cette méthode priorise l’exploration aussi profondément que possible le long d’un chemin unique de liens avant de revenir en arrière et d’explorer d’autres chemins.
- Meilleur d’abord – Si vous sélectionnez cette option, vous devez configurer les mots-clés que le crawler doit utiliser pour trouver ces pages et le poids de ces mots-clés.
- Limiter aux domaines – Limitez le crawler à des domaines spécifiques au lieu de crawler tous les sous-domaines au sein du domaine racine. Entrez un domaine par ligne ou laissez vide pour crawler tous les sous-domaines.
- Limiter aux modèles – Entrez les modèles de crawl que vous souhaitez que le crawler utilise. Entrez un modèle de crawl par ligne.
- Dans la section Planification, définissez la fréquence et l’heure des crawls planifiés :
- Crawl activé – Activez cette option pour définir le calendrier de crawl.
- Répéter tous les n jours – Définissez le nombre de jours selon lequel vous souhaitez que le crawl s’exécute. Par exemple :
- Quotidien =
1 - Hebdomadaire =
7 - Bi-hebdomadaire =
14 - Mensuel =
30
- Quotidien =
- Prochain planification – En fonction du nombre de jours que vous entrez, vous verrez la date du prochain crawl.
- Une fois que vous avez terminé la configuration de votre crawl web, cliquez sur Crawl maintenant pour démarrer le premier crawl. Vous serez redirigé vers la page de configuration du nouveau crawler avec les onglets suivants :
- Vue d’ensemble – C’est ici que vous pouvez voir les informations et le statut de la demande de crawl.
- Paramètres – C’est ici que vous pouvez modifier les paramètres du crawler. Vous pouvez modifier ces paramètres même après qu’un crawl s’est exécuté.
- Rapport crawlé – Cet onglet fournit des mises à jour en temps réel sur les pages en cours de crawl.
Votre crawler est maintenant configuré et exécute son premier crawl !
Meilleures pratiques
Le respect de ces meilleures pratiques garantit que votre crawler s’exécute efficacement, évite les doublons inutiles et apporte uniquement les données les plus pertinentes à votre Knowledge Base.
1. Utiliser des URL de départ claires et concises
Choisissez des URL qui pointent directement vers la section d’un site web que vous souhaitez extraire.- Bon exemple :
https://www.example.com/news(cible uniquement la section « actualités ») - Mauvais exemple :
https://www.example.com?user=1234(L’utilisation de paramètres dynamiques peut causer des erreurs ou des crawls redondants)
- l’URL est accessible et pertinente pour les données que vous souhaitez extraire.
- utilisez des sous-pages lorsque vous souhaitez restreindre le crawl à une section spécifique.
2. Restreindre aux domaines et sous-domaines
Maintenez votre crawl ciblé pour éviter de récupérer des données inutiles ou non pertinentes.- Limiter au domaine racine – Crawler
example.comcapture uniquement ce domaine et ignore les liens externes (par exemple, otherwebsite.com). - Limiter au domaine – Crawler
blog.example.comn’inclura pas d’autres sous-domaines commeshop.example.com.
Exemple
Crawlerhttps://www.bbc.com, avec Limiter au domaine racine activé garantit que seul le contenu BBC est inclus – pas les sources d’actualités externes liées sur le site.
3. Utiliser les modèles de crawl et de traitement
Les modèles vous permettent de peaufiner ce que le crawler récupère et traite.- Modèles de crawl – Définissez les URL qui doivent être crawlées.
- Modèles de traitement – Spécifiez le contenu qui doit être extrait dans votre Knowledge Base. Les deux utilisent une syntaxe regex simplifiée :
- Wildcard implicite – Entrer
productscorrespond à toute URL contenant « products ». - Négation(
!) –!productscorrespond à toute URL sans « products ». - Commence par (
^) –^https://example.com/products/correspond aux URL commençant par ce chemin. - Se termine par(
$) –products/$correspond aux URL se terminant par « products ».
Exemple
- Modèle de crawl –
https://example.com/products/*> crawle toutes les pages de produits. - Modèle de traitement –
https://example.com/products/*reviews> extrait uniquement les avis des pages de produits.
4. Activer les crawls planifiés (si nécessaire)
Pour les sites web dynamiques, planifiez les crawls pour maintenir votre Knowledge Base à jour.Exemple
Suivez les prix des actions surhttps://www.nasdaq.com en activant les crawls quotidiens.
5. Utiliser les sitemaps pour l’efficacité
Si un site propose un sitemap (par exemple,https://example.com/sitemap.xml), utilisez-le pour guider le crawler et assurer une couverture complète.