Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

¿Qué es "división de tareas" en Cloud Extraction? (Acelerar Cloud Extraction)

Thursday, April 16, 2020

División de tareas para acelerar la extracción de nubes


Hay dos formas de comenzar su extracción: extracción local y extracción en la nube. Para Cloud Extraction, Octoparse ofrece una plataforma Cloud con muchos servidores Cloud para que pueda ejecutar sus tareas 24/7 y hasta 6-20 veces más rápido que la extracción local. Puede ver este tutorial  para obtener más información sobre Cloud Extraction.

Es importante tener en cuenta que para que una tarea se ejecute de manera más eficiente en la nube, la tarea debe ser divisible. Una tarea divisible se puede dividir en múltiples subtareas que se pueden ejecutar en varios servidores simultáneamente, lo que agiliza la extracción.

 

Consejos

La extracción en la nube ahora solo está disponible para suscriptores Premium (plan Estándar/Profesional).

 

 

¿Qué tipo de tareas es divisible?


Cuando crea cualquier tipo de elemento de bucle en Octoparse, Octoparse le asigna automáticamente un modo de bucle modo de bucle  en función de los elementos seleccionados y cómo se relacionan con la estructura general de la página web.

 

En Octoparse, hay 5 tipos de modo de bucle, pero solo 3 tipos son divisibles:

  • Lista de URL
  • Lista de texto
  • Lista fija

 

1. Lista de URL

Un bucle de URL se usa cuando inicia una tarea de extracción usando más de una URL.Si las páginas de datos requeridos tienen la misma estructura. Puede configurar fácilmente un bucle de URL para recorrer cada una de estas páginas. Octoparse cargará las URL una por una y ejecutará el mismo conjunto de acciones de extracción en cada página.

 

 

Un bucle de URL es divisible. Por lo tanto, cuando una tarea creada con una lista de URL está configurada para ejecutarse en la nube, Octoparse la dividiría en múltiples subtareas para una extracción más rápida y efectiva.

Para obtener más información sobre la Lista de URL, consulte Extraer datos de una lista de URL  Entrada de URL de lote entrada de URL de lote.

List_of_URLs_loop.jpg

 

2 Lista de texto de bucle

Un bucle de lista de texto funciona de manera similar al del bucle de lista de URL, pero en lugar de recorrer una lista de URL ahora el bucle funciona para recorrer una lista de valores de texto predefinidos. Un bucle de lista de texto también es divisible.

Para obtener más información sobre el bucle de la lista de texto, consulte Entrada de Text/keyword input.

Text_list_loop.jpg

 

3. Lista fija de bucle

Muchas páginas web, como los sitios web de comercio electrónico, a menudo organizan los contenidos de la página web (es decir, información del producto) como una colección de elementos recurrentes con un patrón HTML compartido (consulte Usar listas para extraer).

 

Al capturar tales elementos, como los títulos de los productos, Octoparse detectaría de manera inteligente todos los elementos que comparten el mismo patrón HTML y generaría una colección de XPath (s) para ubicar todos los elementos del mismo tipo.

 

Fixed_list_loop.jpg

  

Además de estos 3 tipos de modos de bucle divisible, también hay otros 2 tipos / modos de bucle que no son divisibles: bucle de elemento único y bucle de lista variable. Como cada uno de estos dos bucles solo implica una XPath única, no se puede dividir en subtareas.

 

 

1. bucle de elemento único
Se utiliza principalmente para el ciclo de paginación cuando tiene que hacer clic en un botón "Siguiente".

Single_element_.jpg

 

 

2. Bucle de lista variable
Contrariamente a una lista fija, una lista de variables se utiliza para capturar todos los elementos similares con un solo XPath, en función del patrón HTML compartido que tienen.

 

Variable_list_loop.jpg

 

 

Mejor no dividir tareas


De manera predeterminada, Octoparse dividiría la tarea si es divisible. De esta manera, nos aseguraremos de que la extracción sea lo más efectiva posible cuando se ejecute en la nube. Sin embargo, también hay momentos en que es mejor que la tarea no se divida.

  • Deshabilite "división de tareas" si necesita ejecutar varias tareas simultáneamente en la nube
    Esto se debe a que cuando una tarea se divide en muchas subtareas, estas subtareas ocuparán tantos servidores como sea posible, según el tipo de cuenta que tenga. En este momento, todas las demás tareas o subtareas se alinearán hasta que se completen las subtareas en ejecución y se liberen los servidores.
  • Deshabilite la "división de tareas" cuando el sitio web de destino requiere un inicio de sesión para acceder a los datos deseados, especialmente cuando no se permiten múltiples inicios de sesión al mismo tiempo.
  • Deshabilite "división de tareas" si el orden es importante. Cuando
    una tarea se divide en subtareas, las subtareas se ejecutarán tan pronto como se lance un servidor o simultáneamente si hay más servidores disponibles. Por este motivo, es posible que los datos no se extraigan en el mismo orden en que se muestran en el sitio web.

 

 

Para deshabilitar la división de tareas

click "Settings" > check "Disable task split" > click "Save" 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse