Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Autodetección AJAX

Thursday, April 16, 2020

En la versión 7.2, Octoparse ahora puede detectar automáticamente para AJAX y configurar "Carga AJAX" y "Tiempo de espera AJAX" automáticamente. Anteriormente, los usuarios deben reconocer y configurar el paso para "carga AJAX" manualmente. Pero ahora, Octoparse 7.2 lo tiene todas estas funciones.

 

 

¿Qué es el AJAX?


AJAX significa JavaScript asíncrono y XML. Es un conjunto de técnicas de desarrollo web que permite que una página web actualice partes de contenido sin tener que actualizar la página. Cuando hace clic y actualiza una página web a la que se utiliza AJAX, no se muestran símbolos de recarga similares.

  • Cuando hay AJAX involucrado:
walmart_page_loading.gif
  • Cuando no hay AJAX involucrado:
blog_page_loading.gif
 
En este caso, walmart.com aplica técnicas AJAX mientras que octoparse.com no.
 
mceclip0.png
mceclip1.png
 
En resumen, verificar si el signo de recarga está allí al cargar la página es una buena manera de saber si se usa o no la técnica AJAX.
 

 ¡Consejos!

  Lea más sobre AJAX:

 

 

¿Cómo funciona la detección automática de AJAX?

En el caso de Walmart.com, sabemos que AJAX se está utilizando para la paginación ya que no hay señal de recarga cuando se hace clic en el botón de la página siguiente. Aparentemente, la página web solo actualiza parte del contenido (por ejemplo, información del producto) y el resto de la página web permanece igual sin actualizarse.

Veamos cómo Octoparse detecta AJAX y configura el paso correspondiente para "AJAX load 'automáticamente. Si carga la página de listado de Walmart (https://www.walmart.com/search/?cat_id=0&query=pens) en Octoparse, haga clic en el botón de la página siguiente y seleccione "Loop haga clic en la página siguiente" en "Consejos de acción", encontrará que Octoparse configura automáticamente "Carga AJAX" a medida que se detecta la técnica AJAX.

autoajax_gif_1.gif

 

"AJAX Timeout" se usa junto con "AJAX Load". La configuración predeterminada es 1 o 3 segundo (s). .

También puede configurar "AJAX Timeout" manualmente. Dependiendo del entorno de red real, es posible configurarlo en 5 segundos o más, lo que le da más tiempo para que se cargue la página.

mceclip0.png

 

 

 ¡Consejos!

 Cuando una página se carga con AJAX, es fundamental asegurarse de que AJAX Timeout esté configurado correctamente o que el scraping no funcionará correctamente.

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse