undefined

Step-by-step tutorials for you to get started with web scraping

Download Octoparse

¿Por qué Octoparse se salta algunas páginas?

Monday, March 02, 2020

 

On the first page, you can see the pagination loop XPath locates the next button perfectly.

Muchos usuarios han encontrado un caso en el que Octoparse se salta algunas páginas al raspar un sitio web. Por ejemplo, después de raspar con éxito las dos primeras páginas, salta directamente a la página 5, luego tal vez a la página 10, pero no va a las páginas en secuencia.

Eso es causado por el XPath generado automáticamente del bucle de paginación que no siempre localiza el botón de la página siguiente en cada página.

Eche un vistazo al siguiente ejemplo: (Example URL)

En la primera página, puede ver que el bucle de paginación XPath localiza el botón siguiente perfectamente.

 

 

Sin embargo, en la segunda página, XPath localiza la página 10.

 

¿Cómo resolver tal problema de página de salto?

Es fácil resolver este problema: simplemente modifique el XPath para asegurarse de que siempre encontrará el siguiente botón.

En primer lugar, puede inspeccionar el siguiente botón en Firefox para verificar el código fuente:

 

 

 

Hay un atributo de título en una etiqueta. Podemos usar este atributo para escribir XPath: // a [@ title = 'Next'] (Vea cómo escribir un XPath aquí )

Ingrese el XPath en Octoparse para verificar si siempre puede ubicar el siguiente botón.

 

 

¡Consejos!

Después de hacer un bucle de paginación en una tarea, será mejor que haga clic manualmente en la acción "Hacer clic para paginar" para ir a varias páginas, como se muestra en este tutorial para verificar si el XPath generado automáticamente podría localizar el siguiente botón con precisión.

Download Octoparse to start web scraping or contact us for any
question about web scraping!

Contact Us Download
Usamos cookies para mejorar tu experiencia de navegación. Lee sobre cómo usamos las cookies y cómo puedes controlarlas haciendo clic en la configuración de cookies. Si continúas utilizando este sitio, acepta nuestro uso de cookies.
Aceptar Rechazar