Uso de Rastreadores Web - Automation Anywhere EKB Docs

Con los Rastreadores Web, puede recopilar información de un sitio web automáticamente usando la URL de dominio del sitio web. Cualquier página descubrible dentro del dominio se agregará automáticamente a la Base de Conocimiento. Para sitios web donde el contenido se actualiza frecuentemente, puede programar rastreos periódicos para agregar la información y el contenido más reciente de cualquier página recién agregada a la Base de Conocimiento. Además, puede especificar ciertas palabras clave o patrones dentro del patrón de rastreo para extraer solo secciones específicas de su sitio web.

Patrones de Rastreo

Los Patrones permiten restricciones rápidas y fáciles en las páginas rastreadas o procesadas basándose en coincidencias simples de cadenas de URL. Por ejemplo, para rastrear solo páginas dentro de la categoría “deportes” en http://www.example.com/sports/heres-a-sports-article.html, puede especificar un patrón de rastreo de /sports/ (incluir barras garantiza precisión y evita coincidir con una cadena “deportes” en otro lugar de la URL). Al usar un patrón de rastreo, puede limitar el rastreo a un subdominio particular. Por ejemplo, en un rastreo que comienza en un dominio específico, puede ingresar un patrón de rastreo para evitar el rastreo de enlaces no deseados. En una configuración de Rastreo Web, puede ingresar múltiples patrones para coincidir con múltiples cadenas colocando cada patrón individual en una nueva línea. Estos son los patrones de rastreo disponibles:

Limitar Coincidencias al Inicio de URLs

Use el carácter de circunflejo (^) para restringir las coincidencias de patrones al inicio de una URL. Por ejemplo, un patrón de procesamiento de ^https://example.com limitará el procesamiento solo a páginas cuyas URLs comiencen con https://example.com.

Patrones de Coincidencia Negativa

Use el signo de exclamación (!) para una “coincidencia negativa” para excluir explícitamente páginas de ser rastreadas o procesadas.

Con múltiples patrones, las coincidencias negativas anularán otros patrones de rastreo (excepto Regex, que tendría prioridad sobre cualquier otro patrón).

Expresiones Regulares de Rastreo y Procesamiento

Para un control preciso sobre sus coincidencias de URL de rastreo o procesamiento, puede crear una expresión regular (regex) para rastrear o procesar exclusivamente URLs que coincidan con su expresión definida. Por ejemplo, para procesar páginas en https://example.com/ bajo la ruta “/crawl” y que contengan el término “regex”, podría usar un regex de procesamiento similar a: \\/crawl.*?regex. El crawlbot utiliza un motor personalizado de expresiones regulares para un rendimiento óptimo al evaluar páginas. En términos de sintaxis de clases de caracteres, comúnmente usada en el análisis de Crawlbot, el crawlbot soporta todos los caracteres ASCII de procesamiento y la mayoría de los accesos directos Perl/Tcl.

El regex de rastreo y procesamiento no puede usarse simultáneamente con otros patrones de rastreo. Si se proporcionan ambos, el regex anulará otros patrones de rastreo.

Patrón de Procesamiento HTML

El rastreo permite limitar las páginas procesadas basándose en patrones de procesamiento HTML, que solo examinarán el código fuente raw y no ejecutarán JavaScript/AJAX durante el tiempo de rastreo. Sin embargo, la desventaja de esta opción es la velocidad de rastreo. Si desea una velocidad de rastreo más rápida, debería usar rastreo y procesamiento con regex.

Cuándo Usar un Rastreador

El rastreador está diseñado para extraer información estructurada y de alto valor de la web. Funciona mejor en escenarios donde los datos están disponibles públicamente y se actualizan regularmente.

Mejores Casos de Uso

Noticias y Medios – Extraiga artículos de sitios como BBC News
Datos Financieros – Recopile información del mercado de sitios de valores como NASDAQ
Comercio Electrónico – Recopile listados de productos, reseñas y precios de mercados en línea
Recursos de Conocimiento – Capture publicaciones de blog, discusiones de foros o contenido de FAQ para enriquecer su Base de Conocimiento.

Cuándo No Usar el Rastreador

Evite el rastreo en estas situaciones para prevenir errores o problemas de cumplimiento:

Se Requiere Autenticación – Sitios web que requieren credenciales de inicio de sesión (por ejemplo, LinkedIn).
Paneles de Control Altamente Dinámicos – Los paneles en tiempo real (como indicadores de valores en vivo) pueden no producir resultados completos.
Carga Excesiva del Sitio – Respete las políticas de uso de cada sitio–revise siempre el archivo robot.txt antes de rastrear.

Crear un Nuevo Rastreador

En su proyecto de EKB, navegue a la Base de Conocimiento.
En la Base de Conocimiento, haga clic en el icono de engranaje en la esquina superior derecha.
Vaya a la pestaña Crawlers.
Haga clic en + Create New.
En la sección Input:
a. Ingrese un nombre para su rastreador.
b. Proporcione la Seed URL, el enlace al sitio web que desea rastrear. Este es el enlace inicial al que accede el rastreador. Desde allí, el rastreador explora las páginas web y enlaces disponibles dentro del sitio web.
En la sección Crawler Settings:
- Limit to Root Domain – Esto configura el rastreador para enfocarse solo en el dominio raíz, facilitando la extracción de información relevante.
- Download Files – Habilite esta opción si desea que el rastreador descargue y procese archivos encontrados durante el rastreo.
- Max Pages to Crawl – Establezca el número máximo de páginas a rastrear, para optimizar el uso de recursos y la eficiencia.
- Max Depth – Establezca la profundidad máxima a rastrear desde la seed URL (es decir, cuántos enlaces de profundidad seguir).
- Crawl Strategy – Elija cómo el rastreador prioriza qué páginas visitar primero.
  - Best First – Si selecciona esta opción, necesita configurar las palabras clave que el rastreador debe usar para encontrar estas páginas y el peso de estas palabras clave.
    - Keywords for Best First – Las páginas que contengan las palabras clave configuradas en esta caja de texto serán rastreadas primero. Ingrese una palabra clave por línea.
    - Keywords Weight – Configure el peso de las palabras clave para la coincidencia de palabras clave; cuanto mayor sea el valor, más prioriza la coincidencia de palabras clave.
  - Breadth First – Este método prioriza visitar todas las páginas directamente enlazadas desde una página actual antes de profundizar.
  - Depth First – Este método prioriza explorar tan profundamente como sea posible a lo largo de una sola ruta de enlaces antes de retroceder y explorar otras rutas.
- Limit to Domains – Restrinja el rastreador a dominios específicos en lugar de rastrear todos los subdominios dentro del dominio raíz. Ingrese un dominio por línea o deje en blanco para rastrear todos los subdominios.
- Limit to Patterns – Ingrese los patrones de rastreo que desea que el rastreador use. Ingrese un patrón de rastreo por línea.
  Si está usando múltiples patrones de rastreo, esta es la jerarquía:
  1. Regex
  2. Coincidencias Negativas
  3. Todos los demás patrones.
En la sección Scheduling, defina la frecuencia y hora para los rastreos programados:
- Crawling Enabled – Habilite esta opción para establecer la programación de rastreo.
- Repeat Every n Days – Establezca el número de días en los que desea que el rastreo se ejecute. Por ejemplo:
  - Diario = 1
  - Semanal = 7
  - Quincenal = 14
  - Mensual = 30
- Next Schedule – Dependiendo del número de días que ingrese, verá la próxima fecha de rastreo.
Una vez que haya terminado de configurar su rastreo web, haga clic en Crawl Now para iniciar el primer rastreo. Será redirigido a la página de configuración del nuevo rastreador con las siguientes pestañas:
- Overview – Aquí puede ver la información y estado de la solicitud de rastreo.
- Settings – Aquí puede editar los ajustes del rastreador. Puede editar estos ajustes incluso después de que se haya ejecutado un rastreo.
- Crawled Report – Esta pestaña proporciona actualizaciones en tiempo real sobre las páginas que están siendo rastreadas.

¡Ahora su rastreador está configurado y ejecutando su primer rastreo!

Mejores Prácticas

Siguiendo estas mejores prácticas se asegura que su rastreador funcione eficientemente, evite duplicaciones innecesarias y traiga solo los datos más relevantes a su Base de Conocimiento.

1. Use URLs Semilla Claras y Concisas

Elija URLs que apunten directamente a la sección de un sitio web que desea extraer.

Buen Ejemplo: https://www.example.com/news (apunta solo a la sección de “noticias”)
Mal Ejemplo: https://www.example.com?user=1234 (Usar parámetros dinámicos puede causar errores o rastreo redundante)

Siempre asegúrese de que:

la URL sea accesible y relevante para los datos que desea extraer.
use subpáginas cuando desee restringir el rastreo a una sección específica.

2. Restrinja a Dominios y Subdominios

Mantenga su rastreo enfocado para evitar extraer datos innecesarios o no relacionados.

Limit to Root Domain – Rastrear example.com captura solo ese dominio e ignora enlaces externos (por ejemplo, otherwebsite.com).
Limit to Domain – Rastrear blog.example.com no incluirá otros subdominios como shop.example.com.

Ejemplo

Rastrear https://www.bbc.com, con Limit to Root Domain habilitado garantiza que solo se incluya contenido de BBC–no fuentes de noticias externas enlazadas en el sitio.

3. Use Patrones de Rastreo y Procesamiento

Los patrones le permiten ajustar qué recoge y procesa el rastreador.

Patrones de Rastreo – Defina qué URLs deben ser rastreadas.
Patrones de Procesamiento – Especifique qué contenido debe extraerse a su Base de Conocimiento. Ambos usan una sintaxis regex simplificada:
Comodín Implícito – Ingresar products coincide con cualquier URL que contenga “products.”
Negación (!) – !products coincide con cualquier URL sin “products.”
Comienza con (^) – ^https://example.com/products/ coincide con URLs que comienzan con esa ruta.
Termina con ($) – products/$ coincide con URLs que terminan en “products.”

Ejemplo

Patrón de Rastreo – https://example.com/products/* > rastrea todas las páginas de productos.
Patrón de Procesamiento – https://example.com/products/*reviews > extrae solo reseñas de las páginas de productos.

4. Habilite Rastreos Programados (Cuando Sea Necesario)

Para sitios web dinámicos, programe rastreos para mantener su Base de Conocimiento actualizada.

Ejemplo

Rastree los precios de acciones en https://www.nasdaq.com habilitando rastreos diarios.

5. Use Mapas del Sitio para Eficiencia

Si un sitio ofrece un mapa del sitio (por ejemplo, https://example.com/sitemap.xml), úselo para guiar al rastreador y garantizar cobertura completa.

Ejemplo

Un sitio web de noticias con un mapa del sitio que lista todos los artículos recientes garantiza que no se pierda ningún artículo.

​Patrones de Rastreo

​Cuándo Usar un Rastreador

​Mejores Casos de Uso

​Cuándo No Usar el Rastreador

​Crear un Nuevo Rastreador

​Mejores Prácticas

​1. Use URLs Semilla Claras y Concisas

​2. Restrinja a Dominios y Subdominios

​Ejemplo

​3. Use Patrones de Rastreo y Procesamiento

​Ejemplo

​4. Habilite Rastreos Programados (Cuando Sea Necesario)

​Ejemplo

​5. Use Mapas del Sitio para Eficiencia

​Ejemplo

Patrones de Rastreo

Cuándo Usar un Rastreador

Mejores Casos de Uso

Cuándo No Usar el Rastreador

Crear un Nuevo Rastreador

Mejores Prácticas

1. Use URLs Semilla Claras y Concisas

2. Restrinja a Dominios y Subdominios

Ejemplo

3. Use Patrones de Rastreo y Procesamiento

Ejemplo

4. Habilite Rastreos Programados (Cuando Sea Necesario)

Ejemplo

5. Use Mapas del Sitio para Eficiencia

Ejemplo