Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Tratar con AJAX

Thursday, February 27, 2020

En este tutorial, aprenderá cómo lidiar con AJAX con Octoparse en el raspado de datos.

AJAX significa JavaScript asíncrono y XML. Es un conjunto de técnicas de desarrollo web que permite que una página web actualice partes de contenido sin tener que actualizar la página. Cuando actualiza una página web que aplica AJAX haciendo clic, no se mostrará ningún signo de recarga como.

1) ¿Por qué necesito tratar con AJAX cuando uso Octoparse?

Mientras raspa datos de la web, Octoparse toma la recarga como señal para ejecutar la acción, como "Haga clic en el elemento" y "Haga clic para paginar". Para la página web que usa AJAX, actualiza nuevos contenidos sin recargar. Como no recarga de la página,Octoparse no recibe la señal para actuar y se quedaría estancado en el último paso. Como resultado, podemos obtener cero o mucho menos datos extraídos de lo que esperamos.

Por lo tanto, cuando desee extraer datos de una página web con AJAX, debe configurar el tiempo de espera de AJAX para evitar que Octoparse se atasque. Por ejemplo, si configura un tiempo de espera de AJAX de 2 segundos para la acción "Hacer clic para paginar", Octoparse esperará 2 segundos y luego ejecutará la acción. En este caso, Octoparse no necesita esperar a que actúe la señal de recargar.


2) ¿Cuándo y cómo configurar el tiempo de espera AJAX en Octoparse?

Debido a que los sitios web generalmente aplican la técnica AJAX en elementos que requieren hacer clic, como "Cargar más" y "Ver reseñas", la configuración del tiempo de espera de AJAX es muy necesaria para pasos como "Hacer clic para paginar" o "Hacer clic en el elemento".

Primero, necesitamos identificar si hay AJAX o no. Si encuentra que no hay señal de recarga, como después de hacer clic en un elemento para actualizar la página, puede estar seguro de que el elemento está usando AJAX.

Para configurar el tiempo de espera de AJAX, puede ir a "Cargar AJAX" y seleccionar "Cargar la página con AJAX" en Personalizar acción.

 

Después de marcar la casilla "Cargar la página con AJAX", puede configurar el tiempo de espera de AJAX. Por lo general, le recomendamos que seleccione de 2 a 4 segundos.

 

3) No configure el tiempo de espera de AJAX cuando no haya AJAX.

Cuando salga de una página web que necesita recargar después de la actualización, no configure el tiempo de espera de AJAX. De lo contrario, Octoparse dejará de recargar la página web por el tiempo de espera de AJAX que configuró, lo que puede provocar una carga de página incompleta. Si la página web no se carga completamente, Octoparse puede tener problemas para raspar datos o ejecutar el siguiente paso en el flujo de trabajo.

 

[La versión en video de este tutorial está disponible aquí]

 

Artículos relacionados:

Lección 6: Paginación: captura datos de varias páginas 

Lidiando con el Desplazamiento Infinitivo / Cargar más 

Extraer varias páginas a través de la paginación 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse