Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

¿Cómo resolver el error "HTTP status code 200"?

Monday, April 27, 2020

Si existe algún error después de comenzar la extracción, descubrirá que el "Extraction error report" se genera junto al campo "Data extracted". "No se pueden extraer datos. Código de estado HTTP: 200" es un mensaje de error común, y este tutorial le mostrará cómo lidiar con el error.

 

 

¿Qué significa "HTTP status code: 200"?


El código de estado HTTP 200 significa OK, que es la respuesta estándar para solicitudes HTTP exitosas. Es decir, Octoparse carga la página web con éxito pero no puede extraer algunos datos.

 

 

¿Como arreglarlo?
En primer lugar, debe verificar que si la página web contiene los datos que desea extraer. Si la página web contiene los datos, debe consultar las siguientes situaciones.

1. Octoparse no carga los datos y Octoparse ha intentado extraer los datos pero falló.
En este caso, puede configurar "Wait before execution" o "wait until element is found" en las "Advanced Options" del paso "Extract data" para permitir que Octoparse cargue los datos antes de la ejecución.

 

HTTP_200_1.jpg

 

A veces debe dejar que Octoparse se desplace automáticamente hacia abajo para cargar los datos por completo. Puede marcar la casilla "Desplazarse hacia abajo" en las "Opciones avanzadas" de "Ir a la página web" y configurar cómo desea que Octoparse se desplace hacia abajo en la página. Por ejemplo, puede configurar "Scroll times" como 1, "Intervalo" como 1 segundo y desplazarse como "Desplazarse hacia abajo para una pantalla".

HTTP_200_2.jpg

 

2. Los datos se pueden encontrar en algunas páginas web pero no en otras páginas después de la paginación. Esto sucede porque el XPath no puede ubicar todos los datos debido al diferente formato de las páginas web, y debe modificar el XPath para ubicar todos los elementos correctamente.

Consejos: si no sabe cómo modificar XPath, puede ver este tutorial: Localice elementos con XPath

 

 

3. Octoparse no reconoce las páginas web. Esta situación ocurre principalmente cuando Octoparse hace clic en los enlaces en un bucle. Se supone que Octoparse reconoce la página web y extrae datos después de hacer clic y abrir la nueva página, pero no puede reconocer la nueva página, y aún puede reconocer la página anterior. Por lo tanto, Octoparse no puede extraer los datos específicos, aunque la nueva página web se abre con éxito.
Puede solucionarlo reparando el flujo de trabajo como el siguiente gif:

HTTP_300_3.gif

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse