Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

¿Por qué la cloud extracción no obtiene datos mientras que la extracción local funciona perfectamente?

Thursday, March 05, 2020

 

A veces, al ejecutar su tarea en la nube después de una ejecución de prueba con extracción local, es posible que no encuentre datos extraídos.

A continuación se presentan algunas de las principales razones por las cuales no se cargando datos:

1) El sitio web de destino no se carga completamente o los datos que se extraerán no se cargan

El tiempo de carga del sitio web depende de la condición de Internet y del sitio web en sí. Cuando prueba el sitio web en una computadora local, el tiempo de carga puede ser más corto que el de la nube.

Por lo tanto, si no encuentra datos extraídos, intente aumentar el tiempo de espera para la acción "Ir a la página web".

 

 

2) Las IP en la nube están restringidas para acceder al sitio web debido a la gran frecuencia de raspado.

Muchos sitios web aplican la técnica anti-raspado para evitar ser raspado. Pueden limitar los tiempos en que las IP pueden acceder durante un tiempo determinado y bloquear cualquier IP que exceda la limitación.

Algunos sitios web pueden incluso bloquear todas las direcciones IP de una ubicación, por ejemplo, un sitio web japonés puede no abrirse en Canadá.

 

El IP en la lista negra debido al raspado demasiado frecuente se puede resolver por ralentizar la extracción al aumentar el tiempo de espera , pero las restricciones actuales sobre las ubicaciones de IP siguen siendo un problema, ya que todas las IP de nube de Octoparse se encuentran en los Estados Unidos.

 

3) El inicio de sesión en el sitio web de destino falla

Si configura pasos de inicio de sesión o guarda cookies en una tarea para raspar un sitio web, la extracción local funcionaría perfectamente, pero la extracción en la nube puede fallar debido a que diferentes IPs rotan durante la ejecución.

Muchos sitios web solicitarían una verificación antes de iniciar sesión. Dicha verificación, como captcha, no se puede resolver en la extracción en la nube.

La cookie guardada siempre tiene un tiempo válido y ya no funcionará cuando caduque. Para resolver esto, deberá seguir los pasos de inicio de sesión una vez más agregando las acciones adecuadas para obtener y guardar la cookie actualizada. (Vea cómo cómo guardar la cookie)

 

 

4) El diseño HTML del sitio web es diferente cuando se abre en la nube

Para Octoparse, extraer los datos web es en realidad recoger contenido del código fuente/archivo HTML. Necesita reconocer el código HTML para saber qué datos extraer.

Existe el caso de que el diseño del sitio web es diferente en la nube causando la falla de extracción.

Por ejemplo, cuando abre Sephora.com con una IP de China, la página se redirigirá a Sephora.cn. El diseño de los sitios para diferentes ubicaciones es totalmente diferente. Por lo tanto, cuando utilice la extracción en la nube de Octopare, asegúrese de extraer un sitio que no se redirigirá de acuerdo con las ubicaciones de IP.

Incluso el sitio web no se redirigiría, el código fuente también se puede cambiar un poco en un navegador diferente en diferentes condiciones de red.

 

 

 

¿Cómo sé qué causa la falla de extracción en la nube?

El proceso de extracción en la nube de Octoparse no puede aparecer a nuestra vista como la extracción local. Hay una manera simple de probar lo que sucede en la nube: extraer el código HTML externo de toda la página del sitio web.

Puede seguir los siguientes pasos para extraer el código HTML:

Paso 1. Después de abrir la página del sitio web, haga clic en cualquier lugar para activar los "Consejos de acción"

 

 

 

Paso 2. Haz clic en la etiqueta HTML en la parte inferior de los "Action Tips"

 

 

Paso 3. Ejecute la tarea en la nube y obtenga el código HTML

Paso 4. Copie los datos extraídos en un archivo de texto y guárdelos como HTML

Paso 5. Abra el archivo HTML con Chrome o Firefox para ver qué carga la página del sitio web en la nube

 

 

Paso 6. Revise la página web para ver cuál es la razón del error de extracción.

Por ejemplo, si la página muestra "Acceso denegado", significa que la IP de la nube está bloqueada.

Si la página se ve igual, puede inspeccionar el código HTML cuidadosamente para obtener el right XPath para la extracción.

 

Desde: https://www.octoparse.com/tutorial-7/cloud-extraction-gets-no-data

 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse