Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Lección 6: Paginación - Captura datos de varias páginas

Wednesday, March 11, 2020

Ahora que ha aprendido cómo capturar una lista de elementos and capturar datos de cada página de elementos  está listo para extender el scraping para capturar datos de varias páginas. En esta lección, le mostraremos cómo haciendo clic en el botón "Siguiente" y extraer de todas las páginas disponibles.

  

 

1) Configure la paginación para extraer datos de la página del elemento individual item page [Descargar archivo de tarea]

Después de haya creado una tarea para extraer campos de datos específicos de la página de elementos individuales, el flujo de trabajo debe tener un paso "Ir a la página web" y un paso de "Elemento de bucle" para hacer clic en el enlace de cada elemento y capturar aún más los campos de datos designados de cada página del artículo.  

 

 

Como el botón "Siguiente" siempre se encuentra en la página de la lista, haga clic en el paso "Ir a la página web" si aún no se encuentra en la página de la lista.

 

 

Utilizaremos la URL: https://www.yelp.com/search?find_desc=Takeout&find_loc=new+york%2C+NY%2C+United+States&ns=1 para el siguiente ejemplo.

 

 

Crea un bucle de paginación

  • Busque el botón "Siguiente" y haga clic en él.
  • En "Consejos de acción", seleccione "Loop haga clic en la página siguiente". Observe un "Haga clic para el paso paginate "se genera automáticamente y se agrega al flujo de trabajo.                                                                     

 

  • Reorganice los pasos del flujo de trabajo arrastrando y soltando el "Elemento del bucle" dentro del bucle "Paginación", colóquelo justo antes del paso "Hacer clic para paginar".                                                               

 

¡Consejos!

 

1. ¿En qué orden ejecuta Octoparse cada paso?

 

Octoparse ejecuta pasos de arriba hacia abajo. Y para los elementos de bucle anidados, Octoparse ejecuta primero el "Elemento de bucle" interno y el "Elemento de bucle" externo. 

 

Veamos el flujo de trabajo de la tarea actual un ejemplo. Aquí está el orden en que Octoparse ejecutaría los pasos en el flujo de trabajo,

 1 - "Ir a la página web" para cargar la página web de destino

 2 - "Haga clic en Elemento" para hacer clic en el primer elemento

 3 - "Extraer datos" para capturar datos en la primera página del elemento

 4 - "Elemento de bucle” para repetir "hacer clic en proyecto" y "extraer datos" para todos los elementos en la primera página de la lista

 5 - "Haga clic para paginar" para hacer clic en el botón "Siguiente" una vez que el scraping se realiza para la primera página

 6 - Bucle "Paginación" para repetir el paso "Hacer clic para paginar"            

Configure el tiempo de espera de AJAX de 2 a 4 segundos para el paso "Haga clic para paginar"

  • Seleccione el paso "Hacer clic para paginar"
  • Seleccione "Cargar la página con AJAX"
  • Seleccione 2-3 segundos de tiempo de espera AJAX
  • Haga clic en "Aceptar" para guardar los cambios                                          

[No configure el tiempo de espera AJAX si no se utiliza una técnica AJAX para el elemento]

 

¡Consejos!

 

¿Cuándo debo configurar el tiempo de espera de AJAX?

La técnica AJAX se usa para elementos en los que se debe hacer clic, como "Hacer clic para ver el correo electrónico", "Siguiente", etc. En este caso, es fundamental configurar el tiempo de espera de AJAX o el flujo de trabajo no se ejecutará correctamente . Para saber si hay AJAX o no, puede intentar observar si la página web actualiza el contenido sin recargar,es decir. sin signos como o, entonces la técnica AJAX se usa muy probablemente en el artículo.

 

 

2) Configure la paginación para extraer una lista de elementos [Descargar archivo de tareaown ]

 

Si su tarea está configurada para capturar una lista de elementos (Vea cómo capturar una lista de elementos en la leccione 4 ), su flujo de trabajo debe ser similar al siguiente, que consiste en un paso "Ir a la página web" y un "Bucle Elemento "para recorrer cada elemento de la lista

 

Ahora, busque el botón "Siguiente" y haga clic en él. En "Consejos de acción", seleccione "Bucle, haga clic en la página siguiente" para crear el bucle de paginación.

 

¡Consejos!

Reorganice los bucles en el flujo de trabajo si el bucle de paginación se crea debajo del bucle de datos de extracción. 

 
Una vez que se crea el ciclo de paginación, el flujo de trabajo correcto debería ser así:

 

 Lección 7: Ejecutar tareas

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse