Patrones de Rastreo
Los Patrones permiten restricciones rápidas y fáciles en las páginas rastreadas o procesadas basándose en coincidencias simples de cadenas de URL. Por ejemplo, para rastrear solo páginas dentro de la categoría “deportes” en http://www.example.com/sports/heres-a-sports-article.html, puede especificar un patrón de rastreo de/sports/ (incluir barras garantiza precisión y evita coincidir con una cadena “deportes” en otro lugar de la URL).
Al usar un patrón de rastreo, puede limitar el rastreo a un subdominio particular. Por ejemplo, en un rastreo que comienza en un dominio específico, puede ingresar un patrón de rastreo para evitar el rastreo de enlaces no deseados.
En una configuración de Rastreo Web, puede ingresar múltiples patrones para coincidir con múltiples cadenas colocando cada patrón individual en una nueva línea.
Estos son los patrones de rastreo disponibles:
Limitar Coincidencias al Inicio de URLs
Limitar Coincidencias al Inicio de URLs
Use el carácter de circunflejo (
^) para restringir las coincidencias de patrones al inicio de una URL. Por ejemplo, un patrón de procesamiento de ^https://example.com limitará el procesamiento solo a páginas cuyas URLs comiencen con https://example.com.Patrones de Coincidencia Negativa
Patrones de Coincidencia Negativa
Use el signo de exclamación (
!) para una “coincidencia negativa” para excluir explícitamente páginas de ser rastreadas o procesadas.
Expresiones Regulares de Rastreo y Procesamiento
Expresiones Regulares de Rastreo y Procesamiento
Para un control preciso sobre sus coincidencias de URL de rastreo o procesamiento, puede crear una expresión regular (regex) para rastrear o procesar exclusivamente URLs que coincidan con su expresión definida. Por ejemplo, para procesar páginas en
https://example.com/ bajo la ruta “/crawl” y que contengan el término “regex”, podría usar un regex de procesamiento similar a: \\/crawl.*?regex.
El crawlbot utiliza un motor personalizado de expresiones regulares para un rendimiento óptimo al evaluar páginas. En términos de sintaxis de clases de caracteres, comúnmente usada en el análisis de Crawlbot, el crawlbot soporta todos los caracteres ASCII de procesamiento y la mayoría de los accesos directos Perl/Tcl.
Patrón de Procesamiento HTML
Patrón de Procesamiento HTML
El rastreo permite limitar las páginas procesadas basándose en patrones de procesamiento HTML, que solo examinarán el código fuente raw y no ejecutarán JavaScript/AJAX durante el tiempo de rastreo. Sin embargo, la desventaja de esta opción es la velocidad de rastreo.
Si desea una velocidad de rastreo más rápida, debería usar rastreo y procesamiento con regex.
Cuándo Usar un Rastreador
El rastreador está diseñado para extraer información estructurada y de alto valor de la web. Funciona mejor en escenarios donde los datos están disponibles públicamente y se actualizan regularmente.Mejores Casos de Uso
- Noticias y Medios – Extraiga artículos de sitios como BBC News
- Datos Financieros – Recopile información del mercado de sitios de valores como NASDAQ
- Comercio Electrónico – Recopile listados de productos, reseñas y precios de mercados en línea
- Recursos de Conocimiento – Capture publicaciones de blog, discusiones de foros o contenido de FAQ para enriquecer su Base de Conocimiento.
Cuándo No Usar el Rastreador
Evite el rastreo en estas situaciones para prevenir errores o problemas de cumplimiento:- Se Requiere Autenticación – Sitios web que requieren credenciales de inicio de sesión (por ejemplo, LinkedIn).
- Paneles de Control Altamente Dinámicos – Los paneles en tiempo real (como indicadores de valores en vivo) pueden no producir resultados completos.
- Carga Excesiva del Sitio – Respete las políticas de uso de cada sitio–revise siempre el archivo
robot.txtantes de rastrear.
Crear un Nuevo Rastreador
- En su proyecto de EKB, navegue a la Base de Conocimiento.
- En la Base de Conocimiento, haga clic en el icono de engranaje en la esquina superior derecha.
- Vaya a la pestaña Crawlers.
- Haga clic en + Create New.
- En la sección Input:
a. Ingrese un nombre para su rastreador.
b. Proporcione la Seed URL, el enlace al sitio web que desea rastrear. Este es el enlace inicial al que accede el rastreador. Desde allí, el rastreador explora las páginas web y enlaces disponibles dentro del sitio web. - En la sección Crawler Settings:
- Limit to Root Domain – Esto configura el rastreador para enfocarse solo en el dominio raíz, facilitando la extracción de información relevante.
- Download Files – Habilite esta opción si desea que el rastreador descargue y procese archivos encontrados durante el rastreo.
- Max Pages to Crawl – Establezca el número máximo de páginas a rastrear, para optimizar el uso de recursos y la eficiencia.
- Max Depth – Establezca la profundidad máxima a rastrear desde la seed URL (es decir, cuántos enlaces de profundidad seguir).
- Crawl Strategy – Elija cómo el rastreador prioriza qué páginas visitar primero.
- Best First – Si selecciona esta opción, necesita configurar las palabras clave que el rastreador debe usar para encontrar estas páginas y el peso de estas palabras clave.
- Keywords for Best First – Las páginas que contengan las palabras clave configuradas en esta caja de texto serán rastreadas primero. Ingrese una palabra clave por línea.
- Keywords Weight – Configure el peso de las palabras clave para la coincidencia de palabras clave; cuanto mayor sea el valor, más prioriza la coincidencia de palabras clave.
- Breadth First – Este método prioriza visitar todas las páginas directamente enlazadas desde una página actual antes de profundizar.
- Depth First – Este método prioriza explorar tan profundamente como sea posible a lo largo de una sola ruta de enlaces antes de retroceder y explorar otras rutas.
- Best First – Si selecciona esta opción, necesita configurar las palabras clave que el rastreador debe usar para encontrar estas páginas y el peso de estas palabras clave.
- Limit to Domains – Restrinja el rastreador a dominios específicos en lugar de rastrear todos los subdominios dentro del dominio raíz. Ingrese un dominio por línea o deje en blanco para rastrear todos los subdominios.
- Limit to Patterns – Ingrese los patrones de rastreo que desea que el rastreador use. Ingrese un patrón de rastreo por línea.
- En la sección Scheduling, defina la frecuencia y hora para los rastreos programados:
- Crawling Enabled – Habilite esta opción para establecer la programación de rastreo.
- Repeat Every n Days – Establezca el número de días en los que desea que el rastreo se ejecute. Por ejemplo:
- Diario =
1 - Semanal =
7 - Quincenal =
14 - Mensual =
30
- Diario =
- Next Schedule – Dependiendo del número de días que ingrese, verá la próxima fecha de rastreo.
- Una vez que haya terminado de configurar su rastreo web, haga clic en Crawl Now para iniciar el primer rastreo. Será redirigido a la página de configuración del nuevo rastreador con las siguientes pestañas:
- Overview – Aquí puede ver la información y estado de la solicitud de rastreo.
- Settings – Aquí puede editar los ajustes del rastreador. Puede editar estos ajustes incluso después de que se haya ejecutado un rastreo.
- Crawled Report – Esta pestaña proporciona actualizaciones en tiempo real sobre las páginas que están siendo rastreadas.
¡Ahora su rastreador está configurado y ejecutando su primer rastreo!
Mejores Prácticas
Siguiendo estas mejores prácticas se asegura que su rastreador funcione eficientemente, evite duplicaciones innecesarias y traiga solo los datos más relevantes a su Base de Conocimiento.
1. Use URLs Semilla Claras y Concisas
Elija URLs que apunten directamente a la sección de un sitio web que desea extraer.- Buen Ejemplo:
https://www.example.com/news(apunta solo a la sección de “noticias”) - Mal Ejemplo:
https://www.example.com?user=1234(Usar parámetros dinámicos puede causar errores o rastreo redundante)
- la URL sea accesible y relevante para los datos que desea extraer.
- use subpáginas cuando desee restringir el rastreo a una sección específica.
2. Restrinja a Dominios y Subdominios
Mantenga su rastreo enfocado para evitar extraer datos innecesarios o no relacionados.- Limit to Root Domain – Rastrear
example.comcaptura solo ese dominio e ignora enlaces externos (por ejemplo, otherwebsite.com). - Limit to Domain – Rastrear
blog.example.comno incluirá otros subdominios comoshop.example.com.
Ejemplo
Rastrearhttps://www.bbc.com, con Limit to Root Domain habilitado garantiza que solo se incluya contenido de BBC–no fuentes de noticias externas enlazadas en el sitio.
3. Use Patrones de Rastreo y Procesamiento
Los patrones le permiten ajustar qué recoge y procesa el rastreador.- Patrones de Rastreo – Defina qué URLs deben ser rastreadas.
- Patrones de Procesamiento – Especifique qué contenido debe extraerse a su Base de Conocimiento. Ambos usan una sintaxis regex simplificada:
- Comodín Implícito – Ingresar
productscoincide con cualquier URL que contenga “products.” - Negación (
!) –!productscoincide con cualquier URL sin “products.” - Comienza con (
^) –^https://example.com/products/coincide con URLs que comienzan con esa ruta. - Termina con (
$) –products/$coincide con URLs que terminan en “products.”
Ejemplo
- Patrón de Rastreo –
https://example.com/products/*> rastrea todas las páginas de productos. - Patrón de Procesamiento –
https://example.com/products/*reviews> extrae solo reseñas de las páginas de productos.
4. Habilite Rastreos Programados (Cuando Sea Necesario)
Para sitios web dinámicos, programe rastreos para mantener su Base de Conocimiento actualizada.Ejemplo
Rastree los precios de acciones enhttps://www.nasdaq.com habilitando rastreos diarios.
5. Use Mapas del Sitio para Eficiencia
Si un sitio ofrece un mapa del sitio (por ejemplo,https://example.com/sitemap.xml), úselo para guiar al rastreador y garantizar cobertura completa.