Web Scraping con Paginación con el botón "Cargar Más"

Es fácil para un novato sentirse intimidado por la gran cantidad de software automatizado de web scraping que existe. Las características de estas herramientas, la información relacionada y las versiones limitadas de prueba gratuita disponibles en Internet pueden ser difícil de entender.

Para elegir el que mejor se adapte a sus necesidades de raspado web, hemos decidido crear una categoría especializada en compartir algunos problemas típicos de web scraping encontrados por nuestros usuarios de Octoparse.

Para ayudar a que las cosas sean aún más claras y privadas, también incluiremos algunos ejemplos prácticos de cada tema. Toda la información del usuario relacionada con los ejemplos proporcionados en este artículo es anónima.

En este artículo, le diremos cómo scrapear datos de un sitio web con el botón “Cargar más”.

Un ejemplo de la vida real de este tipo de problema de uno de nuestros usuarios cuando no pudo scrapear todos los elementos de datos del sitio web con el botón “Cargar más“. Debajo está la situación.

Nos escribió un correo electrónico y dijo:

“Necesito una ayuda para scrape un sitio web con el botón “Cargar más producto “.
Escriba enlaces para scrapear:

http://dir.indiamart.com/mumbai/industrial-machinery.html
Tipo de datos: 08447563983, Maquinaria y repuestos.

Quiero scrape la página completa, incluido el botón “cargar más producto”. He creado pasos principales. He adjuntado imágenes en el archivo adjunto. Pero esto solo obtuvo 29 datos de la página, quiero que me diga cómo agregar cargar más funciones en este proceso.
Además, cuéntame más sobre cómo configurar la regla de dato extracción. Esperando por tu respuesta.”

Del contenido del correo electrónico podemos resumir dos puntos clave de su problema:

1. Cargar más botón

Debemos asegurarnos de que todos los elementos de las páginas web se muestren después de hacer clic en el botón “Cargar más“ repetidamente.

2. Se obtuvieron solo 29 datos

Necesitamos verificar la extracción mientras la tarea se ejecuta con Extracción local y descubrir cuál es el problema.

Entonces mi respuesta es la siguiente.

Acerca del botón Cargar más

En primer lugar, necesitamos seguir el orden al navegar por el sitio web, todos los elementos de esta página web se muestren desplazándose hacia la parte inferior de la página y haciendo clic en el botón “Cargar más” repetidamente.

A veces el sitio continuará cargando más elementos cuando se desplace hacia abajo hasta la parte inferior antes de que aparezca el botón “Cargar más“, podemos establecer el tiempo y los intervalos de desplazamiento para que la extracción sea más fluida.

Sobre los datos extraídos

Cuando solo se extrajeron 29 registros de datos, debe averiguar los motivos por los que se detiene la extracción. Verifiqué tu tarea en Extracción local y descubrí que:

1. Algunas ventanas aparecerán durante la extracción. En este caso, debe hacer clic en el botón ”Cerrar” en el navegador incorporado manualmente. Y reinicie la tarea.

2. Si la extracción se completa sin ventanas emergentes, debe averiguar el lugar donde se detiene la extracción.

En primer lugar, abra la página web que desea scrape en Firefox. Ubiquemos el elemento de datos número 28 en la página web; podemos ver que es el elemento denominado “Mohnot Instruments” en Firefox. Usaremos la herramienta FirePath para descubrir XPath.
En segundo lugar, regrese a Octoparse y verifique el “Loop Item” (Extraer datos). En la captura de pantalla a continuación, se extrae un elemento llamado DIV. Es obvio que hay algo mal con el XPath original y necesitamos editar el XPath manualmente.

Copiemos el XPath original y péguelo en FireBug. Y descubrirá que el XPath original no pudo extraer los elementos a partir del 29^th. En este caso, necesitamos modificar el XPath que usamos para extraer todos los elementos de la página web.

(¿No sabe acerca de XPath? Podemos configurar la regla por usted. support@octoparse.com)

En tercer lugar, obtenga la XPath de la sección del elemento 29th en la página web.
Cuarto, el XPath correcto debe ser .//*[contains(@id,’LST’)]

Después de modificar el XPath y guardarlo, encontrará que se extraen más de 32 elementos en el bucle. No olvide vigilar el navegador integrado durante la extracción y asegúrese de que el flujo de trabajo funcione bien.

A través de este ejemplo, sabemos cómo extraer datos de un website con el botón Cargar más y modificar el XPath que extrae todos los elementos de datos de la página web.

Si se siente un poco perdido con el elemento XPath of Loop para extraer datos en la regla, ¡ofrecemos el servicio de recopilación de datos y el servicio de modificación XPath para usted!