Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

¿Cómo lidiar con los datos que faltan en cloud extraction?

Wednesday, April 08, 2020

 

Los datos que faltan en Cloud Extraction podrían ocurrir cuando:

1. Las tareas ejecutadas con extracción en la nube son tareas divididas y funcionan demasiado rápido, por lo tanto, algunos elementos pueden omitirse.

Las tareas con el modo de bucle "Lista fija", "Lista de URL" y "Lista de texto" son tablas divididas. Las tareas principales se dividirán en subtareas ejecutadas con múltiples servidores en la nube simultáneamente. Entonces, en este caso, cada paso de la tarea funcionará muy rápido, por lo tanto, es posible que algunas páginas no se carguen completamente antes de pasar al siguiente paso.

 

2. El sitio web que visitar es en realidad multirregional.

Un sitio web multirregional podría tener diferentes estructuras de página para el contenido proporcionado a los visitantes de diferentes países. Cuando una tarea se configura para ejecutarse en la nube, se ejecuta con nuestras IP basadas en América. En este caso, para tareas dirigidas a sitios web fuera de Estados Unidos, se pueden omitir algunos datos ya que no se pueden abrir y encontrar en el sitio web en la nube.

3. Cuando la tarea tiene 1 y 2 situaciones.


Aquí hay soluciones comunes para lidiar con los datos que faltan en la extracción en la nube.

- Para asegurarse de que la página web se cargue completamente en la nube, puede intentar

1. Aumente el tiempo de espera para el paso "Go To Web Page"

Opciones avanzadas> Tiempo de espera

         

2. Configurar Esperar antes de la ejecución

Todos los pasos creados en el flujo de trabajo pueden configurar a waiting time, excepto Ir a la página web.

Opciones Avanzadas > Esperar antes de la ejecución

                                          

 

3. Configure un elemento de anclaje para buscar antes de la ejecución

Este paso garantizará que la extracción solo comience después de que se haya encontrado cierto elemento. Puede elegir la XPath de cualquier elemento de los campos deseados.

En primer lugar, hace clic en el paso 'Extraer datos'. En segundo lugar, llene el elemento con XPath y cambie "Wait before extraction" a "Random".

mceclip0.png

Consejos: Cómo obtener la XPath de un determinado elemento en la página.

Octoparse puede localizar los elementos que desee mediante 'clics' en la página. Una vez que su clic ha generado un determinado campo, puede obtener su XPath. Por ejemplo, si desea obtener la XPath del 'Campo 3' en el siguiente caso.

Seleccione el campo de datos que necesita ser modificado, seleccione  personalizar el campo de datos

Seleccione "Customize XPath:

 

Aquí está el XPath del campo 3. Ahora puede copiarlo y pegarlo para otra cosa.

mceclip1.png

 

 

- Para identificar si el sitio web es multirregional, puede

- Probar la tarea con extracción local. Si no faltan datos como lo hace en la extracción en la nube, entonces el sitio web probablemente sea Interregional. En este caso, dado que el contenido específico solo se puede encontrar al abrir el sitio web con su propia IP, le sugerimos Extracción local para obtener los datos.

- Extrae el HTML externo de toda la página. Al verificar el HTML extraído, puede encontrar lo que ha causado la falta de datos en la solicitud en el código fuente como "Access denied".

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse