Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

¿Por qué Octoparse se salta algunas páginas?

Monday, March 02, 2020

 

On the first page, you can see the pagination loop XPath locates the next button perfectly.

Muchos usuarios han encontrado un caso en el que Octoparse se salta algunas páginas al raspar un sitio web. Por ejemplo, después de raspar con éxito las dos primeras páginas, salta directamente a la página 5, luego tal vez a la página 10, pero no va a las páginas en secuencia.

Eso es causado por el XPath generado automáticamente del bucle de paginación que no siempre localiza el botón de la página siguiente en cada página.

Eche un vistazo al siguiente ejemplo: (Example URL)

En la primera página, puede ver que el bucle de paginación XPath localiza el botón siguiente perfectamente.

 

 

Sin embargo, en la segunda página, XPath localiza la página 10.

 

¿Cómo resolver tal problema de página de salto?

Es fácil resolver este problema: simplemente modifique el XPath para asegurarse de que siempre encontrará el siguiente botón.

En primer lugar, puede inspeccionar el siguiente botón en Firefox para verificar el código fuente:

 

 

 

Hay un atributo de título en una etiqueta. Podemos usar este atributo para escribir XPath: // a [@ title = 'Next'] (Vea cómo escribir un XPath aquí )

Ingrese el XPath en Octoparse para verificar si siempre puede ubicar el siguiente botón.

 

 

¡Consejos!

Después de hacer un bucle de paginación en una tarea, será mejor que haga clic manualmente en la acción "Hacer clic para paginar" para ir a varias páginas, como se muestra en este tutorial para verificar si el XPath generado automáticamente podría localizar el siguiente botón con precisión.

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse