Padrões de Crawl
Patterns permitem restrições rápidas e fáceis nas páginas rastreadas ou processadas com base em correspondências simples de strings de URL. Por exemplo, para rastrear apenas páginas dentro da categoria “sports” em http://www.example.com/sports/heres-a-sports-article.html, você pode especificar um padrão de crawl de/sports/ (incluir barras garante precisão e evita correspondência com uma string “sports” em outro lugar na URL).
Usando um padrão de crawl, você pode limitar o crawl a um subdomínio específico. Por exemplo, em um crawl iniciado em um domínio específico, você pode inserir um padrão de crawl para prevenir o crawl de links indesejados.
Em uma configuração de Web Crawl, você pode inserir múltiplos padrões para corresponder a múltiplas strings colocando cada padrão individual em uma nova linha.
Estes são os padrões de crawl disponíveis:
Limitando Correspondências ao Início de URLs
Limitando Correspondências ao Início de URLs
Use o caractere de acento circunflexo (
^) para restringir as correspondências de padrão ao início de uma URL. Por exemplo, um padrão de processamento de ^https://example.com limitará o processamento apenas a páginas cujas URLs comecem com https://example.com.Padrões de Correspondência Negativa
Padrões de Correspondência Negativa
Use o ponto de exclamação (
!) para uma “correspondência negativa” para excluir explicitamente páginas de serem rastreadas ou processadas.
Expressões Regulares de Crawl e Processamento
Expressões Regulares de Crawl e Processamento
Para controle preciso sobre suas correspondências de crawl ou processamento de URL, você pode criar uma expressão regular (regex) para rastrear ou processar exclusivamente URLs que correspondam à sua expressão definida. Por exemplo, para processar páginas em
https://example.com/ sob o caminho “/crawl” e contendo o termo “regex”, você poderia usar uma regex de processamento semelhante a: \\/crawl.*?regex.
O crawlbot emprega um mecanheiro de expressão regular personalizado para desempenho ideal ao avaliar páginas. Em termos de sintaxe de classe de caracteres, comumente usada na análise do Crawlbot, o crawlbot suporta todos os caracteres de processamento ASCII e a maioria dos atalhos Perl/Tcl.
Padrão de Processamento HTML
Padrão de Processamento HTML
O crawl permite limitar as páginas processadas com base em padrões de processamento HTML, que examinarão apenas o código-fonte bruto e não executam JavaScript/AJAX durante o tempo de crawl. No entanto, a desvantagem desta opção é a velocidade do crawl.
Se você deseja uma velocidade de crawl mais rápida, deve usar crawl e processamento por regex.
Quando Usar um Crawler
O crawler foi projetado para extrair informações estruturadas e de alto valor da web. Ele funciona melhor em cenários onde os dados estão disponíveis publicamente e são atualizados regularmente.Melhores Casos de Uso
- Notícias e Mídia – Extraia artigos de sites como BBC News
- Dados Financeiros – Colete insights de mercado de sites de ações como NASDAQ
- E-Commerce – Reúna listagens de produtos, avaliações e preços de marketplaces
- Recursos de Conhecimento – Capture posts de blogs, discussões em fóruns ou conteúdo de FAQ para enriquecer sua Base de Conhecimento.
Quando Não Usar o Crawler
Evite o crawl nestas situações para prevenir erros ou problemas de conformidade:- Autenticação Necessária – Websites que requerem credenciais de login (ex.: LinkedIn).
- Dashboards Altamente Dinâmicos – Dashboards em tempo real (como tickers de ações ao vivo) podem não fornecer resultados completos.
- Carga Excessiva no Site – Respeite as políticas de uso de cada site – sempre revise o arquivo
robot.txtantes de rastrear.
Crie um Novo Crawler
- No seu projeto EKB, navegue até a Knowledge Base.
- Na Base de Conhecimento, clique no ícone de engrenagem no canto superior direito.
- Vá para a aba Crawlers.
- Clique em + Create New.
- Na seção Input:
a. Insira um nome para o seu crawler.
b. Forneça a Seed URL, o link do website que você deseja rastrear. Este é o link inicial acessado pelo crawler. A partir dele, o crawler explora as páginas da web e links disponíveis dentro do website. - Na seção Crawler Settings:
- Limit to Root Domain – Configura o crawler para focar exclusivamente no domínio raiz, simplificando a extração de informações relevantes.
- Download Files – Habilite esta opção quando desejar que o crawler baixe e processe arquivos encontrados durante o crawl.
- Max Pages to Crawl – Defina o número máximo de páginas a rastrear, para otimizar o uso de recursos e eficiência.
- Max Depth – Defina a profundidade máxima de crawl a partir da seed URL (ou seja, quantos links de profundidade seguir).
- Crawl Strategy – Escolha como o crawler prioriza quais páginas visitar primeiro.
- Best First – Se você selecionar esta opção, precisará configurar as palavras-chave que o crawler deve usar para encontrar essas páginas e o peso dessas palavras-chave.
- Keywords for Best First – Páginas contendo as palavras-chave configuradas nesta caixa de texto serão rastreadas primeiro. Insira uma palavra-chave por linha.
- Keywords Weight – Configure o peso da palavra-chave para correspondência de palavras-chave; quanto maior o valor, mais prioriza a correspondência de palavras-chave.
- Breadth First – Este método prioriza visitar todas as páginas diretamente vinculadas de uma página atual antes de se aprofundar.
- Depth First – Este método prioriza explorar o mais profundamente possível ao longo de um único caminho de links antes de voltar e explorar outros caminhos.
- Best First – Se você selecionar esta opção, precisará configurar as palavras-chave que o crawler deve usar para encontrar essas páginas e o peso dessas palavras-chave.
- Limit to Domains – Restrinja o crawler a domínios específicos em vez de rastrear todos os subdomínios dentro do domínio raiz. Insira um domínio por linha ou deixe em branco para rastrear todos os subdomínios.
- Limit to Patterns – Insira os padrões de crawl que você deseja que o crawler use. Insira um padrão de crawl por linha.
- Na seção Scheduling, defina a frequência e o horário para crawls agendados:
- Crawling Enabled – Habilite esta opção para definir o agendamento de crawl.
- Repeat Every n Days – Defina o número de dias para os quais você deseja que o crawl seja executado. Por exemplo:
- Diário =
1 - Semanal =
7 - Quinzenal =
14 - Mensal =
30
- Diário =
- Next Schedule – Dependendo do número de dias inserido, você verá a próxima data de crawl.
- Após concluir a configuração do seu web crawl, clique em Crawl Now para iniciar o primeiro crawl. Você será redirecionado à página de configuração do novo crawler com as seguintes abas:
- Overview – Aqui você pode ver as informações e o status da solicitação de crawl.
- Settings – Aqui você pode editar as configurações do crawler. Você pode editar essas configurações mesmo após um crawl ter sido executado.
- Crawled Report – Esta aba fornece atualizações em tempo real sobre as páginas sendo rastreadas.
Agora seu crawler está configurado e executando seu primeiro crawl!
Melhores Práticas
Seguir estas melhores práticas garante que seu crawler funcione de forma eficiente, evite duplicações desnecessárias e traga apenas os dados mais relevantes para sua Base de Conhecimento.
1. Use URLs de Origem Claras e Concisas
Escolha URLs que apontem diretamente para a seção de um website que você deseja extrair..- Bom Exemplo:
https://www.example.com/news(direciona apenas à seção “notícias”) - Mau Exemplo:
https://www.example.com?user=1234(Usar parâmetros dinâmicos pode causar erros ou crawl redundante)
- a URL está acessível e é relevante para os dados que você deseja extrair.
- use subpáginas quando quiser restringir o crawl a uma seção específica.
2. Restrinja a Domínios e Subdomínios
Mantenha seu crawl focado para evitar puxar dados desnecessários ou não relacionados.- Limit to Root Domain – Rastrear
example.comcaptura apenas esse domínio e ignora links externos (ex.: otherwebsite.com). - Limit to Domain – Rastrear
blog.example.comnão incluirá outros subdomínios comoshop.example.com.
Exemplo
Rastrearhttps://www.bbc.com com Limit to Root Domain habilitado garante que apenas o conteúdo da BBC seja incluído – não fontes de notícias externas vinculadas no site.
3. Use Padrões de Crawl e Processamento
Os padrões permitem ajustar o que o crawler busca e processa.- Crawling Patterns – Defina quais URLs devem ser rastreadas.
- Processing Patterns – Especifique quais conteúdos devem ser extraídos para sua Base de Conhecimento. Ambos usam uma sintaxe simplificada de regex:
- Wildcard Implícito – Inserir
productscorresponde a qualquer URL contendo “products.” - Negação (
!) –!productscorresponde a qualquer URL sem “products.” - Começa com (
^) –^https://example.com/products/corresponde a URLs começando com esse caminho. - Termina com (
$) –products/$corresponde a URLs terminando em “products.”
Exemplo
- Crawling Pattern –
https://example.com/products/*> rastreia todas as páginas de produtos. - Processing Pattern –
https://example.com/products/*reviews> extrai apenas avaliações das páginas de produtos.
4. Habilite Crawls Agendados (Quando Necessário)
Para websites dinâmicos, agende crawls para manter sua Base de Conhecimento atualizada.Exemplo
Acompanhe preços de ações emhttps://www.nasdaq.com habilitando crawls diários.