Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

¿Se ha configurado Infinite Scroll pero no se agregaron elementos nuevos a la lista?

Wednesday, April 22, 2020

Cuando está scraping un website que aplica el botón de scroll-down/mostrar más para cargar más contenido, puede encontrar este escenario:

Incluso si ha configurado el desplazamiento(scroll-way) con Octoparse, aún no encuentra nuevos elementos agregados a la lista de elementos del bucle.

 

Aquí está la razón:

 

Octoparse generará automáticamente un modo de bucle basado en la estructura del sitio web. Si el modo de bucle de generación automática no puede detectar nuevos elementos cuando se desplaza hacia abajo y carga más elementos, la razón sería la lista fija de generación automática.

Puede seguir este tutorial para verificar y resolver el problema. Tome la siguiente imagen como ejemplo:

_____20190815142242.png

Puede notar que el "Loop mode" actual está bajo el modo de "Fixed list".

A diferencia de la "Lista de variables", la "Fixed list" solo incluirá elementos de acuerdo con la lista fija de XPath que ingrese en el cuadro de texto. Por lo tanto, cuando se trata de elementos dinámicos, o cuando el número de proyectos varía en diferentes páginas, debe cambiar el modo de bucle a la "Variable list" porque puede detectar automáticamente y hacer coincidir todos los elementos correspondientes a un determinado XPath.

 

¡Consejos!

En realidad, hay 5 modos de bucle en Octoparse: Lista de variables, Elemento único, Lista fija, Lista de URL y Lista de texto.

Si desea saber más sobre estos modos de bucle, puede ir a los siguientes artículos:

 

Para resolver este problema, también debe modificar XPath. Consulte este tutorial Localice elementos con XPath para saber más sobre XPath.

Si no sabe mucho sobre XPath, aún puede generar el XPath observando las similitudes entre el XPath en la "Fixed list".

Tomando la siguiente imagen como ejemplo, todos los XPath en la "Fixed list" comparten la misma etiqueta "H4".

H4.png

 

Luego puede ingresar el nuevo XPath "//H4" en el cuadro de texto de la "Variable list" para ver si es viable o no. Si se desplaza hacia abajo para cargar nuevo contenido y encuentra nuevos elementos agregados a la lista de elementos de bucle, entonces la nueva XPath que ingrese es viable.

H42.png

 

Este método se aplica a la mayoría de los casos simples. Si es difícil, es posible que aún necesite aprender a escribir XPath para resolver el problema o conmunicarse con nosotrosexternal-link-symbol-1.png en cualquier momento para obtener ayuda.

 

¡Consejos!

Para mejorar la precisión, se recomienda modificar XPath en Octoparse. Aquí hay algunos tutoriales relacionados que puede necesitar:

Localizar elementos con XPathexternal-link-symbol-1.png
Video: Octoparse: XPath 101external-link-symbol-1.png

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse
Utilizamos cookies con el fin de mejorar tu experiencia de navegación. Lee sobre cómo utilizamos cookies y cómo puedes administrarlas mediante hacer clic en configuración de cookies. Si continúas navegando en este sitio web, significa que aceptas nuestro uso de cookies.
Aceptar Rechazar