Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

¿Por qué recibo errores al extraer de la página de lista?

Tuesday, April 21, 2020

Pregunta:

¿Por qué recibo errores al extraer de la página de lista? El error decía "Falta un campo de datos. Código de estado HTTP 200".

 mceclip3.png

 

Responder:

Al scrape desde la página de la lista, los errores generalmente son causados por “loop item” que localiza algunos elementos no deseados que no contienen el campo de datos que necesita.

 

Tome esta URL como ejemplo:

https://www.cv-library.co.uk/search-jobs?posted=&search=1&fp=1&q=&geo=UK&distance=750&salarymin=&salarymax=&salarytype=annum&tempperm=Any

 

Después de crear un elemento de bucle para scrape la información del trabajo en la página web, encontrará que hay elementos diferentes de esos elementos del trabajo.

Debe haber solo 25 elementos de trabajo en la página, pero el elemento de bucle localiza 33 elementos, lo que significa que se encuentran algunos elementos no deseados.

mceclip3.png

 

Los elementos de trabajo normales son así:

mceclip1.png

 

Pero en el bucle, hay algunos elementos (Featured jobs block) como este:

__1.png

Cuando Octoparse scrape los trabajos destacados, no puede encontrar la información correcta, por lo que da errores para notificar a los usuarios que puede haber algún problema con los elementos.

 

 

¿Cómo podemos resolver este error?

Es fácil de resolver, solo modificando el XPath para asegurarse de que solo los elementos de trabajo deseados se encuentren en el bucle.

En este caso, si inspeccionamos el código HTML de los proyecto del trabajo, encontrará que todos están en las etiquetas div de las cuales la identificación contiene "jobsearchresult".

 

mceclip1.png

 

 

Entonces podemos modificar el XPath como //div[contains(@id,'jobsearchresult')].

Después de guardar el nuevo XPath, verá que el número de elementos se convierte en 25, que es el número correcto.

mceclip2.png


¡Consejos!
Si desea obtener más información sobre XPath y cómo generarlo, aquí hay algunos
tutoriales relacionados que pueda necesitar:Localizar elementos con XPath
Video:
Octoparse: XPath 101

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse
Utilizamos cookies con el fin de mejorar tu experiencia de navegación. Lee sobre cómo utilizamos cookies y cómo puedes administrarlas mediante hacer clic en configuración de cookies. Si continúas navegando en este sitio web, significa que aceptas nuestro uso de cookies.
Aceptar Rechazar