Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

¿Por qué mi tarea extrae tantos duplicados?

Sunday, April 26, 2020

Pregunta:

¿Por qué mi tarea obtiene tantos duplicados?

 

 

Responder:


Hay principalmente dos razones para este problema.

 

1) Paginación XPath no siempre localiza el botón de la página siguiente.

En muchos casos, Octoparse es posible que vuelva a las páginas anteriores y volver a scrape las mismas páginas o sigue scraping la última página y nunca se detiene.

Solución: modifique el XPath de la paginación para asegurarse de que ubique el botón de la página siguiente con precisión.

En cuanto a cómo modificar el XPath, puede consultar los tutoriales relacionados a continuación:

Localizar elementos con XPath

¿Por qué Octoparse se salta algunas páginas?

¿Por qué Octoparse sigue scraping la última página y nunca se detiene?

 

 

2) El AJAX timeout para la acción de hacer clic en la paginación es demasiado corto.

Para las páginas con carga AJAX, si el tiempo de espera AJAX no es lo suficientemente largo para que la página se cargue, Octoparse puede volver a raspar la página actual.

Solución: Extienda el tiempo de espera de AJAX para que se cargue la página lo suficiente.

mceclip0.png

 

 

3) La acción “Extract Data" no está asociada con la acción Loop Item action.

Al extraer de un elemento de bucle, Octoparse es posible que siga scraping el primer elemento y duplicarlo. Esto se debe a que Octoparse no raspa del elemento de bucle sino directamente de la página.

Solución: Compruebe cómo resolver este problema

¿Por qué Octoparse solo extrae el primer elemento y lo duplica?

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse
Utilizamos cookies con el fin de mejorar tu experiencia de navegación. Lee sobre cómo utilizamos cookies y cómo puedes administrarlas mediante hacer clic en configuración de cookies. Si continúas navegando en este sitio web, significa que aceptas nuestro uso de cookies.
Aceptar Rechazar