Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Lección 5: Obtener datos - Haga clic en una lista y capture datos de cada página de elementos

Wednesday, March 11, 2020

Creemos que ha dominado la extracción de texto simple ( ver la lección 3) y el texto contenido en una lista (ver la lección 4 ). A continuación, combinaremos las técnicas y le mostraremos cómo puede hacer clic fácilmente en los enlaces contenidos en una lista y capturar información detallada en cada página de elementos. Hacer clic en los enlaces para extraer es muy útil al extraer información de sitios de comercio electrónico y sitios de directorio.

web scraping with octoparse - extract from item page

Veamos cómo se hace con un ejemplo. Utilizaremos la URL: https://www.ebay.com/sch/Vehicle-Electronics-GPS-/3270/i.html para el siguiente ejemplo. [Descargue el archivo de tareas en esta lección]

 

1) Seleccione los enlaces para hacer clic en la página del elemento individual

      Crearemos un "Elemento de bucle" para hacer clic en cada enlace de producto en la página de resultados.

  • Haga clic en el primer título del producto que contiene la URL para acceder a la página. El elemento seleccionado se resaltará en verde, mientras que los elementos con el mismo diseño se resaltarán en rojo.
  • Haga clic en el segundo título del producto que contiene la URL
  • Seleccione "Hacer clic en cada URL" en "Consejos de acción". Observe que un "Elemento de bucle" se genera automáticamente y se agrega al flujo de trabajo.                             

 

 

 

 

 

¡Consejos!

 

Para hacer clic en los elementos de la lista, es importante que seleccione los textos de anclaje. Octoparse identifica automáticamente las etiquetas de los elementos seleccionados. Entonces, cuando selecciona un elemento con URL, la etiqueta seleccionada sería "A", que significa ancla que generalmente vincula una página con otra.

 

 2) Seleccione los detalles en la página del elemento para extraer

     Despuése de completa el "Elemento de bucle", Octoparse cargará la primera página del       elemento en el navegador incorporado. 

 

Ahora, configure una plantilla de extracción designando los campos de datos específicos para capturar desde la página; Octoparse aplicará esta plantilla a las otras páginas de elementos.

 

  • Haga clic en los campos de datos de destino, como título, revisión, precio, etc.
  • Seleccione "Extraer datos" de "Consejos de acción" para completar la acción de extracción. Observe que el paso "Extraer datos" se genera automáticamente y se agrega al flujo de trabajo. Los campos de datos extraídos se mostrarán en el panel "Campo de datos" junto al diseñador de flujo de trabajo

 

 

¡Consejos!

 

En "Opciones avanzadas" , configurar un tiempo de espera como "Hacer clic en elemento" o "Extraer datos" puede evitar de manera efectiva la omisión de datos y hacer que el proceso de rastreo sea más humano. (Por lo general, 2-5 segundos funcionarían bien). 

 

 

¡Hecho! ¡Aprenda cómo configurar la paginación en la lección 6 para completar su proyecto de raspado!

 

 

Lección 6: Paginación - captura datos de varias páginas

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse