Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

¿Qué hacer con esos campos en blanco que obtuve en el resultado extraído?

Friday, April 03, 2020

¿Por qué tengo campos en blanco?

Una vez que selecciona un elemento en la página web en el navegador incorporado, Octoparse descubre de forma inteligente el elemento específico (a través de XPath) que lo representa en el código fuente de la página. Basado en ese patrón, todos los elementos "similare" en múltiples páginas serán detectados y extraídos.

Por defecto, si Octoparse no puede encontrar un elemento del patrón definido en la página, el campo se dejará en blanco.

 

 

 

¿En qué casos Octoparse no podría encontrar un elemento del patrón definido en la página?

Los casos más comunes incluyen:

- Sus datos deseados en realidad no aparecen en cada página que se extraerá

- Sus datos deseados se pueden encontrar en cada página pero no siempre en la misma ubicación.

- Algunos de sus datos deseados se omiten por accidente.

- Octoparse comienza la extracción antes de que los datos deseados se carguen en la página.

 

 

 

¿Cómo lidiar con los campos en blanco?

Cuando obtiene algunos campos en blanco en el resultado extraído, cada uno de ellos podría ser inducido por una causa diferente. Para localizar la causa exacta, deberá inspeccionar la página específica que contiene los datos que faltan.

Octoparse proporciona un acceso directo para que pueda rastrear las páginas. Al extraer los datos de varias páginas, puede hacer que se extraiga la URL de cada página al mismo tiempo:

Agregar campos predefinidos> Agregar información de la página actual> URL de la página web (Add predefine fields > Add current page information > Web page URL)

 

 

Elija los campos en blanco en el resultado extraído, cargue las URL correspondientes en el navegador y puedes averiguar dónde está el error.

 

 

- Los datos deseados no aparecen en esta página> No hay problema

- Los datos deseados aparecen en una ubicación diferente de sus contrapartes> Necesita modificar el XPath

- Los datos deseados aparecen en la misma ubicación pero no se capturan como sus contrapartes> Es necesario modificar el XPath

- Los datos deseados aparecen en la misma ubicación y se capturan con éxito> Configurar “Wait before execution” / Intentar la segunda ejecución

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse