Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Lidiando con el desplazamiento infinito/cargar más

Thursday, February 27, 2020

En muchos casos, la paginación no es una opción para cargar contenido, deberá
 
 
Este tutorial le mostrará cómo configurar una tarea en Octoparse para tratar estas dos situaciones, asegurándose de que se extraigan todos los datos disponibles. 

 

 

1) Desplazamiento infinitivo

El desplazamiento infinito, también conocido como "desplazamiento sin fin" es una técnica utilizada con mayor frecuencia por sitios web con JavaScript o AJAX para cargar contenido adicional de forma dinámica a medida que el usuario se desplaza hacia abajo hasta la parte inferior de la página web. Twitter es un ejemplo bien conocido que emplea el desplazamiento infinitivo.

Similar a cómo se desplazará manualmente hacia abajo en la página, Octoparse lo hace de la misma manera con la configuración adecuada. Básicamente, todo lo que necesita hacer es decirle a Octoparse qué página debe desplazarse, cuántas veces desplazarse y el intervalo de tiempo entre cada dos desplazamientos.

1) Navegue a la página web que necesita desplazarse
Debe ser una acción "Abrir página web" o una acción "Hacer clic", según cómo esté conectada la página a la acción anterior en el flujo de trabajo.

Scraping With Infinitive Scrolling_Step1
 
 
2) Desde "Opciones avanzadas", busque la opción para "Desplazarse hacia abajo"
3) Marque "Desplácese hacia abajo hasta la parte inferior de la página cuando termine de cargar"
4) Ingrese el número deseado para "Tiempos de desplazamiento" y el número de segundos entre los desplazamientos
5) En el menú desplegable, elija si desea desplazarse hacia abajo hasta la parte inferior de la página o desplazarse hacia abajo para una pantalla.
6) Haga clic en "Aceptar" para guardar la configuración
 
 
 

¡Consejos!

 

Es fácil de configurar para la carga infinitiva, pero para encontrar la configuración más adecuada, es posible que desee probar la ejecución de la tarea para ver si ha asignado suficientes tiempos de desplazamiento y si el voluta infinite funciona con el ritmo correcto.

 

 

 

 

2) Haga clic en el botón "Cargar más"


Además del desplazamiento infinitivo, algunas páginas web requieren hacer clic en el botón "Cargar más" o "Mostrar más" más contenido se puede cargar dinámicamente a través de AJAX.

 
 

Para capturar todos los contenidos disponibles de la página, configuraré Octoparse para que primero haga clic en el botón "Cargar más" repetidamente hasta que se revele toda la información necesaria, luego continúe para capturar toda la información de una vez.

Veamos cómo se hace usando Health.usnews.com como ejemplo [Descargar la tarea de ejemplo]

1) Navegue a la página si aún no está allí. Observe que se carga más contenido cada vez que hace clic en el botón "Cargar más" ubicado en la parte inferior de la página.
2) Desplácese sobre el botón "Cargar más" y haga clic en él (o haga clic con el botón derecho si el clic izquierdo activa el enlace).

 
 
3) Desde el Panel de acciones, se proporciona una variedad de las siguientes acciones posibles. Continúe y seleccione "Loop haga clic en el enlace seleccionado". Esto le indicará a Octoparse que haga clic en el botón varias veces.
 
Scraping with load more
 
4) Ahora, active el interruptor de flujo de trabajo en la parte superior y debería ver el flujo de trabajo generado por Octoparse. Aunque Octoparse reconoce el clic como una operación de paginación, el clic "cargar más" se realiza a través de AJAX.
  • Haga clic en la acción "Haga clic para paginar" del flujo de trabajo
  • Desde "Opciones avanzadas", seleccione "Cargar la página con AJAX" y configure el tiempo de espera como sea necesario (por ejemplo, 1 o 2 segundos por lo general).

 

 
Use Ajax for scraping with load more
 
 

¡Consejos!


Si solo desea hacer clic en el botón "Cargar Más" varias veces, seleccione Pagination Loop en el flujo de trabajo y luego haga clic en"Cuando finaliza el ciclo" desde "Opciones avanzadas" para  establecer el tiempo de ejecución en X.

 

 
5) Ahora, puede crear una lista de las secciones para scrape (ver la lección  4 ).
 
 
6) Y proceda a extraer los campos de datos específicos de cada sección  (ver la lección  4 ).
 
Scraping with Load More button
 
 7) Prueba ejecutando la tarea con "Exracción local". Cada sitio web funciona de manera diferente, por lo que es importante probar siempre ejecutar la tarea y ver si todos los pasos del flujo de trabajo se ejecutan correctamente.
 
 

¡Consejos!

1. Si el bucle de extracción se ha construido dentro del bucle de paginación, arrástrelo manualmente porque queremos completar el primer bucle antes de ejecutar el segundo bucle.

 

2. Si una acción se realizó por error, use "Deshacer acción" para cancelar la acción.

 

 

 

Artículos relacionados:

Tratando con AJAX 

Seleccionar elementos en un menú desplegable 

Usa listas para extraer 

Extraer varias páginas a través de la paginación 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse