Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Lección 7: Ejecutar tareas

Wednesday, March 11, 2020

Ahora que sabe cómo capturar datos de diferentes tipos de páginas web, está listo para comenzar a obtener algunos datos ejecutando su tarea a través de la extracción local o la extracción en Cloud.

 

1) Ejecute tareas con "Extracción local"

Al ejecutar una tarea localmente a través de "Extracción local", está utilizando recursos locales que incluyen el sistema operativo, la capacidad del hardware, la dirección IP y el ancho de banda de la red. Estos son los factores clave que podrían haber influido en extracción, como la rapidez de extracción, si un sitio web en particular se está cargando o si se bloquea el acceso a algún sitio web. Al usar la extracción local, los datos extraídos solo se almacenarán localmente en su propia máquina y serán reemplazados por nuevos datos si la extracción se configura para ejecutarse por segunda vez.

 

La extracción local es muy útil para probar la ejecución de una tarea para ver si la tarea funciona como se esperaba. Después de la tarea se prueba correctamente, puede se ejecute en Cloud para mejorar el rendimiento. 

 

  • Haga clic en "Guardar y ejecutar" en "Consejos de acción" o haga clic en el botón "Iniciar extracción" para comenzar a ejecutar su tarea.                       

 

 

  • Seleccione "Extracción local" para comenzar un trabajo local                        

 

A medida que la extracción comienza a ejecutarse localmente, puede ver cómo Octoparse está interactuando con la página web desde el navegador incorporado, si los paso se ejecutan como se esperaba. Los datos extraídos se agregan al panel "Datos extraídos" justo debajo del navegador de forma dinámica a medida que se capturan más datos.  

 

 

 

Las métricas que incluyen la cantidad de datos extraídos, el tiempo total empleado, así como la velocidad de extracción promedio, se proporcionan justo debajo del panel "Datos extraídos". 

 

 

Puede consultar el panel de control para ver el número total de líneas extraídas. 

 

 

Puede hacer algunas configuraciones adicionales, haciendo clic en el botón "Configuración de extracción" justo en la parte superior de la ventana de extracción:     

      · Mostrar mensaje de error durante el proceso de "Extracción local"

      · Deshabilitar la carga de imágenes en "Extracción local"

      · Memoria de liberación automática

 

¡Consejos!

 

1. ¿Dónde tiene lugar la extracción de tareas mientras se usa "Extracción local"?

Cuando ejecuta su tarea con "Extracción local", la tarea se ejecuta localmente en su máquina utilizando su propia dirección IP local.

 

2. ¿Qué afecta la velocidad de la "extracción local"?

La velocidad de "Extracción local" se ve afectada por el rendimiento de su computadora, la conexión a Internet y la velocidad de carga del sitio web de destino.

 

2) Ejecute tareas con "Cloud Extraction" (para planes premium)

 

Cuando ejecuta una tarea con "Extracción de la nube", la tarea se ejecutará en la plataforma en Cloud de Octoparse. Aunque su computadora o la aplicación apagada, las tareas se ejecuten 24/7, Las características avanzadas como la rotación automática de IP, la programación de tareas, la velocidad de extracción y la API de Octoparse son todas partes del servicio Octoparse Cloud (consulte todos los beneficios del servicio Octoparse Cloud ).

¡Consejos!

 

1. ¿Cuáles son las IP de los servidores en Cloud?

Cuando ejecuta sus tareas en Cloud, las tareas se ejecutarán en nuestros servidores en Cloud, cada uno con una IP única. Cuando una tarea se configura para ejecutarse con "Cloud Extraction", se asignarán de 6 a 20 servidores para ejecutar la tarea simultáneamente, minimizando las posibilidades de que el sitio web de destino lo ponga en la lista negra.

 

2.¿Cómo "Cloud Extraction" acelera el proceso de extracción?

Cuando una tarea se configura como una tarea de tabla dividida, se divide en numerosas subtareas que pueden ejecutarse simultáneamente en Cloud, lo que acelera la extracción (vea qué tipo de tarea es la tabla dividida ).

 

 

  • Haga clic en "Extracción de Cloud" para comenzar a ejecutar una tarea en Cloud.                                                                                                     

Si su tarea está configurada correctamente, los datos se extraerán y almacenarán en la nube donde se puede acceder desde cualquier máquina. 

 


Consulte el panel de control para ver el progreso del trabajo o filtre la lista de tareas para "estado de la tarea".

 

La cantidad de datos extraídos y el tiempo de extracción invertido también están disponibles justo debajo del estado de la tarea en el panel.

 

 

 Lección 8: Exportar datos

 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse