Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Tarea/Depuración de flujo de trabajo

Monday, May 11, 2020

Si que la tarea que creamos con Octoparse no funcione como se esperaba, ¿cómo podemos encontrar el error en nuestra tarea/flujo de trabajo?

Este artículo le muestra cómo depurar su scraping task en Octoparse. Siguiendo estos pasos, podemos depurar la tarea/flujo de trabajo por nuestra cuenta:

 

Paso 1: Haga clic manualmente en cada paso del workflow

Paso 2: Ejecutar la tarea mediante Extracción Local

Paso 3: Depurar en la extracción de la nube (Usuarios Premium)

 

 

 

Paso 1: Haga clic manualmente en cada paso del flujo de trabajo

En términos generales, cuando hacemos clic en un paso en el flujo de trabajo, el proceso correspondiente se muestra en el navegador integrado y los detalles sobre este paso se muestran en "Customize Action"

 

 

Dado que Octoparse ejecuta cada paso de arriba hacia abajo, debemos hacer clic en este paso en el orden de arriba hacia abajo.

El siguiente ejemplo muestra cómo depurar haciendo clic manualmente en cada paso.

 

 

1. Haga clic en "Go To Web Page", la página web de destino se abre en el navegador incorporado. Además, la acción Ir a la página web se puede personalizar en la "Customize Action".

Si la página web tarda mucho en cargarse, es posible que deba extender el tiempo de espera.

 

 

2. Haga clic en el bucle "paginación" para verificar si el botón de la página siguiente está ubicado en el área del loop item con precisión.

La información del elemento de bucle, como el botón de la página siguiente, debe mostrarse en la "Customize Action".

De lo contrario, si el loop item no se ubica con precisión en el botón o número de la página siguiente, tendremos que modificar la XPath del bucle "Paginación". Puede consultar estos dos tutoriales: ¿Cómo manejar la paginación con números de página?  Extraer varias páginas a través de la paginación .

 

 

3. Haga clic en "Click to Pagination" para verificar si la paginación funciona bien.

Si la acción funciona bien, la siguiente página se muestra en el navegador incorporado. De lo contrario, es posible que deba modificar el XPath para la "Paginación".

Además, debemos ser cautelosos acerca de si el sitio web emplea la técnica AJAX. Si es así, es necesario configurar el "AJAX Timeout".

 

4. Haga clic en "Loop Item" para verificar si todos los elementos de la página actual están ubicados con precisión. La información del elemento de bucle estará en "Customize Action".

 

5. Haga clic en "Click Item", para verificar si el proceso correspondiente se muestra en el navegador incorporado en consecuencia.

Al igual que el paso para verificar con "Click to paginate", debemos verificar si el sitio web se actualizó con la técnica AJAX. Si es así, se requiere el "AJAX Timeout " para configurar.

 

 

6. Haga clic en "Extract data" para verificar si los datos de destino se extraen con precisión.

Si tenemos datos extraídos en las "columns" incorrectas o no se extraen en absoluto, puede ser el resultado de la inexacta XPath, que puede resolverse consultando los siguientes tutoriales:

 

Localizar elementos con XPath 

¿Cómo asociar datos con texto cercano? 

Los datos se han extraído en el campo de datos incorrecto 

 

¡Consejos!

  • Antes de hacer clic en el siguiente paso, debemos asegurarnos de que la página esté completamente cargada, es decir, la señal  de carga desaparece.
  • Cuando hacemos clic en el paso "Click Item" o "Extract data" en un bucle, debemos seleccionar una opción en el elemento del bucle además de la primera opción. Al hacer esto, podemos ver si el paso "Click Item" o "Extract data" funciona.

 

 

Paso 2: Ejecutar la tarea mediante extracción local

Después de asegurarnos de que cada paso funciona bien haciendo clic manualmente, podemos ejecutar la tarea mediante extracción local para verificar si hay algún error.

Podemos considerar que hay errores cuando ocurre la siguiente situación:

  • Obtener "no data extracted"

 

 

 

Cuando aparezca el recordatorio, mejor nos referiremos a Por qué se detiene Octoparse y no se extraen datos? .

  • Extraer datos duplicados

 

 

Cuando la tarea sigue produciendo datos duplicados, es probable que haya problemas con su "loop Item". Podemos obtener algunas soluciones del siguiente artículo: ¿Por qué Octoparse solo extrae el primer elemento y produzca duplicados? 

 

 

  • Demasiados datos faltantes al extraer

El "Loop Item" no cubre todos los elementos de la lista de cada página de listado.

¿Cómo lidiar con los elementos faltantes al crear una lista? 

La página web no se carga completamente.

¿Por qué veo que todavía faltan datos/no hay datos en el flujo de trabajo?

 

  • Extraer datos a una velocidad relativamente baja

Si la extracción local es bastante lenta, es probable que sea causada por el entorno local, como el sistema operativo, la capacidad del hardware, la dirección IP, el ancho de banda de la red, etc. Además, el contenido del sitio web también afecta la velocidad de scraping. Por ejemplo, si desea raspar los datos de un sitio web que contiene muchas imágenes, se necesita más tiempo para cargar completamente la página.

Sin embargo, la velocidad lenta también podría ser una señal de error. Por ejemplo, cuando olvidamos configurar AJAX Timeout para algunos pasos, Octoparse esperará 120 segundos de forma predeterminada para continuar con el paso.

 

 

Paso 3: Depurar en Cloud Extraction (opcional)

Antes de avanzar hacia la depuración en cloud extraction, debemos asegurarnos de que la tarea ya haya funcionado bien haciendo clic manualmente en cada paso del flujo de trabajo y ejecutando la extracción local. Ya tenemos algunos tutoriales sobre cómo lidiar con las situaciones ocurridas en la extracción en la nube, que incluyen:

  • Faltan datos al usar la cloud extraction

Si notamos que faltan algunos datos en los resultados de la extracción en la nube, podemos consultar este tutorial: ¿Cómo lidiar con los datos que faltan en la cloud extraction? 

  • No obtener datos extraídos en la nube

A veces podemos hacer que la tarea se ejecute bien localmente. Sin embargo, cuando se ejecuta en la nube, no obtenemos datos.

 

Luego podemos consultar el tutorial: ¿Por qué la cloud extracción no obtiene datos mientras que la extracción local funciona perfectamente?

 
  ¿Te resultó útil este artículo ¡Contáctenos en cualquier momento si necesita nuestra ayuda!

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse