undefined

Step-by-step tutorials for you to get started with web scraping

Download Octoparse

Disparadores

Thursday, April 16, 2020

En la versión 7.2, Octoparse habilita una nueva característica "Triggers". Con el uso de "Trigger", los usuarios pueden definir una o más condiciones para determinar si se deben extraer los datos. Se puede agregar "Disparador" fácilmente en el paso Extraer datos.

 

mceclip0.png

 

 

¿Cuándo deberías usar disparadores?


Por ejemplo, si solo desea scrape una parte de los datos en una página web, digamos, productos con un precio inferior a $100,específicamente, cualquier producto con precio igual / superior $100, puede usar Disparadores para abandonar líneas de datos "inútiles" y solo conserve los que necesita.

Para lograrlo, puede crear un desencadenante como este: si el campo de datos "precio" es igual o mayor que "100", abandone la línea de datos. De esta manera, Octoparse simplemente "juzgará" si los datos cumplen con los criterios definidos antes de extraerlos realmente. Al final, el conjunto de datos solo include los datos deseados.

Otra aplicación útil es cuando necesita extraer datos asociados con una fecha específica, por ejemplo, todos los artículos de noticias publicados hoy (ej. 2019-01-01). Para lograr esto, puede crear un Disparador: si el campo de datos "fecha" no es "2019-01-01", abandone la línea de datos. Como resultado, solo obtendrá el artículo para 2019-01-01.

 

 

Se pueden usar múltiples condiciones juntas. Por ejemplo, si necesita extraer artículos de noticias para 2019-01-01 y solo cuando el título del artículo contiene las palabras "CPI", puede hacerlo usando las dos condiciones siguientes:

Condición 1: Si el campo de datos "fecha" no es "2019-01-01" abandone la línea de datos

[AND]

Condición 2: Si el campo de título "título" no contiene "CPI" abandone la línea de datos

 

 

¿Cómo configurar disparadores?

1. Crear un nuevo disparador

  • Haga clic en "Agregar disparador" para crear un nuevo disparador

 triggers_gif_1.gif

 

 

2. Nombra el gatillo

  • Asigne un nombre al activador escribiendo el nombre directamente

triggers_gif_2.gif

 

3. Defina el disparador

  • Seleccione el campo de datos de destino. En el siguiente ejemplo, se selecciona el campo de datos "título".

 triggers_gif_3.gif

 

  • Establezca la condición para el campo de datos seleccionado. Puede establecer condiciones basadas en "texto", "números" o "tiempo"

     Para textos generales

           Hay cinco opciones (is, is not, contains, does not contain, is not blank) para textos generales.

           Por ejemplo, si selecciona "contains" y escribe la palabra "pen" en el cuadro de texto, la condición será: Si el campo de datos "Title" contiene las palabras "pen".

 

triggers_gif_4.gif

 

Si se selecciona "is not blank", no es necesario llenar el cuadro de texto y la condición será: Si el campo de datos "Title" no está en blanco.

 triggers_gif_5.gif

 

b. Para numerales

Hay cuatro opciones disponibles para los números: mayor que, menor que, mayor o igual que.

Por ejemplo, si selecciona el campo de datos "Precio", "mayor que" y completa el valor "8", la                condición será: Si el campo de datos "Precio" es mayor que 8.

triggers_gif_6.gif

c. Para el tiempo

Hay cuatro opciones disponibles por tiempo: después, antes, ahora o después, ahora o antes.

Por ejemplo, para el campo de datos "Tiempo publicado", si selecciona "después", "00:00 el día de extracción" y hace "Abandonar esta línea de datos", la condición será: si el tiempo publicado es después de las 0:00 AM en el día de extracción, luego descarte la línea de datos. Como resultado, solo se obtienen aquellos artículos con tiempo publicado antes de las 0:00 a.m. del día de extracción.

 

triggers_gif_7.gif

 

 

4. Agregue más condiciones usando [AND] u [OR]

Se pueden agregar múltiples condiciones al mismo disparador. Use la condición [AND] o la condición [OR] para definir las relaciones entre las diversas condiciones.

mceclip0.png

 

Si hace clic en "Agregar [AND] condición" y agrega una condición, la acción se ejecutará si el campo de datos cumple ambas condiciones.

triggers_gif_8.gif

 

Si hace clic en "Agregar [OR] condición" y agrega una condición, la acción se ejecutará si el campo de datos cumple cualquiera de las dos condiciones.

triggers_gif_9.gif

 

 

5. Realice uno de los siguientes pasos

Ahora que tiene las condiciones definidas, Octoparse ejecutará uno de los siguientes pasos cuando se activen las condiciones.

a. Abandonar esta línea de datos

Si se selecciona "Abandonar esta línea de datos", Octoparse abandonará esta línea de datos                  independientemente de si los otros datos de la misma línea se han extraído o no.

Más específicamente, suponga que una tarea tiene dos pasos de "Datos de extracción" y solo el último establece el disparador. Incluso si se han extraído los datos para el primer paso "Datos de extracción",  Octoparse abandonará esta línea de datos una vez que se active el disparado para el último paso.

 

 mceclip1.png

 

b. Fin del buclo

Si se selecciona "Fin del buclo", deberá seleccionar uno de los elementos del buclo de la lista desplegable. El elemento de bucle seleccionado finalizará una vez que se cumpla la condición                correspondiente.

mceclip3.png

c. Terminar la extracción

Si se selecciona "Terminar la extracción", la extracción finalizará una vez que se cumpla la condición correspondiente.

 

mceclip4.png

 

 

¡Consejos!

  • Puede desactivar, copiar, editar o eliminar el disparador existente después de guardar el cambio.

 

mceclip5.png

 

Download Octoparse to start web scraping or contact us for any
question about web scraping!

Contact Us Download
Usamos cookies para mejorar tu experiencia de navegación. Lee sobre cómo usamos las cookies y cómo puedes controlarlas haciendo clic en la configuración de cookies. Si continúas utilizando este sitio, acepta nuestro uso de cookies.
Aceptar Rechazar