> ## Documentation Index
> Fetch the complete documentation index at: https://ai-kb.automationanywhere.com/llms.txt
> Use this file to discover all available pages before exploring further.

# Uso de Rastreadores Web

> Indexe Páginas Web para Búsqueda IA Inteligente

Con los **Rastreadores Web**, puede recopilar información de un sitio web automáticamente usando la URL de dominio del sitio web. Cualquier página descubrible dentro del dominio se agregará automáticamente a la Base de Conocimiento. Para sitios web donde el contenido se actualiza frecuentemente, puede programar rastreos periódicos para agregar la información y el contenido más reciente de cualquier página recién agregada a la Base de Conocimiento. Además, puede especificar ciertas palabras clave o patrones dentro del patrón de rastreo para extraer solo secciones específicas de su sitio web.

## Patrones de Rastreo

Los **Patrones** permiten restricciones rápidas y fáciles en las páginas rastreadas o procesadas basándose en coincidencias simples de cadenas de URL. Por ejemplo, para rastrear solo páginas dentro de la categoría "deportes" en [http://www.example.com/sports/heres-a-sports-article.html](http://www.example.com/sports/heres-a-sports-article.html), puede especificar un patrón de rastreo de `/sports/` (incluir barras garantiza precisión y evita coincidir con una cadena "deportes" en otro lugar de la URL).

Al usar un patrón de rastreo, puede limitar el rastreo a un subdominio particular. Por ejemplo, en un rastreo que comienza en un dominio específico, puede ingresar un patrón de rastreo para evitar el rastreo de enlaces no deseados.
En una configuración de Rastreo Web, puede ingresar múltiples patrones para coincidir con múltiples cadenas colocando cada patrón individual en una nueva línea.

Estos son los patrones de rastreo disponibles:

<AccordionGroup>
  <Accordion title="Limitar Coincidencias al Inicio de URLs">
    Use el carácter de circunflejo (`^`) para restringir las coincidencias de patrones al inicio de una URL. Por ejemplo, un patrón de procesamiento de `^https://example.com` limitará el procesamiento solo a páginas cuyas URLs comiencen con `https://example.com`.
  </Accordion>

  <Accordion title="Patrones de Coincidencia Negativa">
    Use el signo de exclamación (`!`) para una "coincidencia negativa" para excluir explícitamente páginas de ser rastreadas o procesadas.
    <Warning>Con múltiples patrones, las coincidencias negativas anularán otros patrones de rastreo (excepto Regex, que tendría prioridad sobre cualquier otro patrón).</Warning>
  </Accordion>

  <Accordion title="Expresiones Regulares de Rastreo y Procesamiento">
    Para un control preciso sobre sus coincidencias de URL de rastreo o procesamiento, puede crear una expresión regular (regex) para rastrear o procesar exclusivamente URLs que coincidan con su expresión definida. Por ejemplo, para procesar páginas en `https://example.com/` bajo la ruta "`/crawl`" y que contengan el término "regex", podría usar un regex de procesamiento similar a: `\\/crawl.*?regex`.
    El crawlbot utiliza un motor personalizado de expresiones regulares para un rendimiento óptimo al evaluar páginas. En términos de sintaxis de clases de caracteres, comúnmente usada en el análisis de Crawlbot, el crawlbot soporta todos los caracteres ASCII de procesamiento y la mayoría de los accesos directos Perl/Tcl.
    <Warning>El regex de rastreo y procesamiento no puede usarse simultáneamente con otros patrones de rastreo. Si se proporcionan ambos, el regex anulará otros patrones de rastreo.</Warning>
  </Accordion>

  <Accordion title="Patrón de Procesamiento HTML">
    El rastreo permite limitar las páginas procesadas basándose en patrones de procesamiento HTML, que solo examinarán el código fuente raw y no ejecutarán JavaScript/AJAX durante el tiempo de rastreo. Sin embargo, la desventaja de esta opción es la velocidad de rastreo.
    Si desea una velocidad de rastreo más rápida, debería usar rastreo y procesamiento con regex.
  </Accordion>
</AccordionGroup>

## Cuándo Usar un Rastreador

El rastreador está diseñado para extraer información estructurada y de alto valor de la web. Funciona mejor en escenarios donde los datos están disponibles públicamente y se actualizan regularmente.

### Mejores Casos de Uso

* **Noticias y Medios** – Extraiga artículos de sitios como BBC News
* **Datos Financieros** – Recopile información del mercado de sitios de valores como NASDAQ
* **Comercio Electrónico** – Recopile listados de productos, reseñas y precios de mercados en línea
* **Recursos de Conocimiento** – Capture publicaciones de blog, discusiones de foros o contenido de FAQ para enriquecer su Base de Conocimiento.

### Cuándo No Usar el Rastreador

Evite el rastreo en estas situaciones para prevenir errores o problemas de cumplimiento:

* **Se Requiere Autenticación** – Sitios web que requieren credenciales de inicio de sesión (por ejemplo, LinkedIn).
* **Paneles de Control Altamente Dinámicos** – Los paneles en tiempo real (como indicadores de valores en vivo) pueden no producir resultados completos.
* **Carga Excesiva del Sitio** – Respete las políticas de uso de cada sitio–revise siempre el archivo `robot.txt` antes de rastrear.

## Crear un Nuevo Rastreador

1. En su proyecto de EKB, navegue a la **Base de Conocimiento**.
2. En la Base de Conocimiento, haga clic en el icono de **engranaje** en la esquina superior derecha.
3. Vaya a la pestaña **Crawlers**.
4. Haga clic en **+ Create New**.
5. En la sección **Input**:<br /><img src="https://mintlify.s3.us-west-1.amazonaws.com/automationanywhere/img/knowledge-base/knowledge-base/crawler-input.png" alt="Entrada del Rastreador" />
   **a**. Ingrese un **nombre** para su rastreador.<br />
   **b**. Proporcione la **Seed URL**, el enlace al sitio web que desea rastrear. Este es el enlace inicial al que accede el rastreador. Desde allí, el rastreador explora las páginas web y enlaces disponibles dentro del sitio web.
6. En la sección **Crawler Settings**:<br /><img src="https://mintlify.s3.us-west-1.amazonaws.com/automationanywhere/img/knowledge-base/knowledge-base/crawler-settings.png" alt="Ajustes del Rastreador" />
   * **Limit to Root Domain** – Esto configura el rastreador para enfocarse solo en el dominio raíz, facilitando la extracción de información relevante.
   * **Download Files** – Habilite esta opción si desea que el rastreador descargue y procese archivos encontrados durante el rastreo.
   * **Max Pages to Crawl** – Establezca el número máximo de páginas a rastrear, para optimizar el uso de recursos y la eficiencia.
   * **Max Depth** – Establezca la profundidad máxima a rastrear desde la seed URL (es decir, cuántos enlaces de profundidad seguir).
   * **Crawl Strategy** – Elija cómo el rastreador prioriza qué páginas visitar primero.
     * **Best First** – Si selecciona esta opción, necesita configurar las palabras clave que el rastreador debe usar para encontrar estas páginas y el peso de estas palabras clave.
       * **Keywords for Best First** – Las páginas que contengan las palabras clave configuradas en esta caja de texto serán rastreadas primero. Ingrese una palabra clave por línea.
       * **Keywords Weight** – Configure el peso de las palabras clave para la coincidencia de palabras clave; cuanto mayor sea el valor, más prioriza la coincidencia de palabras clave.
     * **Breadth First** – Este método prioriza visitar todas las páginas directamente enlazadas desde una página actual antes de profundizar.
     * **Depth First** – Este método prioriza explorar tan profundamente como sea posible a lo largo de una sola ruta de enlaces antes de retroceder y explorar otras rutas.
   * **Limit to Domains** – Restrinja el rastreador a dominios específicos en lugar de rastrear todos los subdominios dentro del dominio raíz. Ingrese un dominio por línea o deje en blanco para rastrear todos los subdominios.
   * **Limit to Patterns** – Ingrese los patrones de rastreo que desea que el rastreador use. Ingrese un patrón de rastreo por línea.<br /><Warning>Si está usando múltiples patrones de rastreo, esta es la jerarquía:<br />1. Regex<br />2. Coincidencias Negativas<br />3. Todos los demás patrones.</Warning>
7. En la sección **Scheduling**, defina la frecuencia y hora para los rastreos programados:<br /><img src="https://mintlify.s3.us-west-1.amazonaws.com/automationanywhere/img/knowledge-base/knowledge-base/crawler-scheduling.png" alt="Programación del Rastreador" />
   * **Crawling Enabled** – Habilite esta opción para establecer la programación de rastreo.
   * **Repeat Every n Days** – Establezca el número de días en los que desea que el rastreo se ejecute. Por ejemplo:<br />
     * **Diario** = `1`
     * **Semanal** = `7`
     * **Quincenal** = `14`
     * **Mensual** = `30`
   * **Next Schedule** – Dependiendo del número de días que ingrese, verá la próxima fecha de rastreo.
8. Una vez que haya terminado de configurar su rastreo web, haga clic en **Crawl Now** para iniciar el primer rastreo. Será redirigido a la página de configuración del nuevo rastreador con las siguientes pestañas:<br /><img src="https://mintcdn.com/automationanywhere/-dnDAw8Ty1Kp1N7X/img/knowledge-base/crawler-overview.png?fit=max&auto=format&n=-dnDAw8Ty1Kp1N7X&q=85&s=506fdc74fff101527f421f3fe4985d9f" alt="Descripción General del Rastreador" width="1919" height="945" data-path="img/knowledge-base/crawler-overview.png" />
   * **Overview** – Aquí puede ver la información y estado de la solicitud de rastreo.
   * **Settings** – Aquí puede editar los ajustes del rastreador. Puede editar estos ajustes incluso después de que se haya ejecutado un rastreo.
   * **Crawled Report** – Esta pestaña proporciona actualizaciones en tiempo real sobre las páginas que están siendo rastreadas.

<Check>¡Ahora su rastreador está configurado y ejecutando su primer rastreo!</Check>

## Mejores Prácticas

<Check>Siguiendo estas mejores prácticas se asegura que su rastreador funcione eficientemente, evite duplicaciones innecesarias y traiga solo los datos más relevantes a su Base de Conocimiento.</Check>

### 1. Use URLs Semilla Claras y Concisas

Elija URLs que apunten directamente a la sección de un sitio web que desea extraer.

* **Buen Ejemplo**: `https://www.example.com/news` (apunta solo a la sección de "noticias")
* **Mal Ejemplo**: `https://www.example.com?user=1234` (Usar parámetros dinámicos puede causar errores o rastreo redundante)

Siempre asegúrese de que:

* la URL sea accesible y relevante para los datos que desea extraer.
* use subpáginas cuando desee restringir el rastreo a una sección específica.

### 2. Restrinja a Dominios y Subdominios

Mantenga su rastreo enfocado para evitar extraer datos innecesarios o no relacionados.

* **Limit to Root Domain** – Rastrear `example.com` captura solo ese dominio e ignora enlaces externos (por ejemplo, otherwebsite.com).
* **Limit to Domain** – Rastrear `blog.example.com` no incluirá otros subdominios como `shop.example.com`.

#### Ejemplo

Rastrear `https://www.bbc.com`, con **Limit to Root Domain** habilitado garantiza que solo se incluya contenido de BBC–no fuentes de noticias externas enlazadas en el sitio.

### 3. Use Patrones de Rastreo y Procesamiento

Los patrones le permiten ajustar qué recoge y procesa el rastreador.

* **Patrones de Rastreo** – Defina qué URLs deben ser rastreadas.
* **Patrones de Procesamiento** – Especifique qué contenido debe extraerse a su Base de Conocimiento.
  Ambos usan una sintaxis regex simplificada:
* **Comodín Implícito** – Ingresar `products` coincide con cualquier URL que contenga "products."
* **Negación (`!`)** – `!products` coincide con cualquier URL *sin* "products."
* **Comienza con (`^`)** – `^https://example.com/products/` coincide con URLs que comienzan con esa ruta.
* **Termina con (`$`)** – `products/$` coincide con URLs que terminan en "products."

#### Ejemplo

* **Patrón de Rastreo** – `https://example.com/products/*` > rastrea todas las páginas de productos.
* **Patrón de Procesamiento** – `https://example.com/products/*reviews` > extrae solo reseñas de las páginas de productos.

### 4. Habilite Rastreos Programados (Cuando Sea Necesario)

Para sitios web dinámicos, programe rastreos para mantener su Base de Conocimiento actualizada.

#### Ejemplo

Rastree los precios de acciones en `https://www.nasdaq.com` habilitando rastreos diarios.

### 5. Use Mapas del Sitio para Eficiencia

Si un sitio ofrece un mapa del sitio (por ejemplo, `https://example.com/sitemap.xml`), úselo para guiar al rastreador y garantizar cobertura completa.

#### Ejemplo

Un sitio web de noticias con un mapa del sitio que lista todos los artículos recientes garantiza que no se pierda ningún artículo.