Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Scraping productos detalles de Wayfair

Tuesday, June 30, 2020

En este tutorial, le mostraremos cómo scrape los detalles del producto de Wayfair, una empresa estadounidense de comercio minorista de mejoras para el hogar que vende artículos para el hogar.

Para este ejemplo, usaremos la URL a continuación para extraer datos como el título del producto, la descripción y el precio de cada página de detalles del producto.

https://www.wayfair.com/lighting/sb1/table-lamp-night-lights-c416395-a76645~280587.html

 

Estos son los pasos principales de este tutorial: [Descargue el demo archivo de tarea aquí ]

  1. "Ir a la página web" - abra la página web de destino
  2. Cree un ciclo de paginación - scrape los resultados de búsqueda de todas las páginas
  3. Cree un "Loop Item" - scrape todos los elementos de cada página
  4. Extraer dato - seleccione los datos para la extracción
  5. Iniciar extracción - ejecute la tarea y obtenga datos

 

 

1. "Ir a la página web" - abra la página web de destino

  • Haga clic en "+ Tarea" para comenzar una nueva tarea con el Modo Avanzado
  • Pegue la URL en el cuadro "Website" y haga clic en "Guardar URL" para continuar

1.gif

 

Consejos

Se recomienda extraer datos de una lista de URL para grandes proyectos de data scraping. Este enfoque es considerablemente más eficiente y manejable. En momentos en que la lista de URL es grande, Octoparse admite Batch URL input desde archivos locales (texto u hoja de cálculo), desde otra tarea o incluso genera las URL en función de algunos patrones predefinidos.


2. Cree un ciclo de paginación - scrape los resultados de búsqueda de todas las páginas
  • Desplácese hasta la parte inferior de la página, haga clic en el botón "Siguiente"
  • Haga clic en "Loop click next page" en el panel "Action Tips"
  • Configure un tiempo de espera AJAX para 5s (opcional según su condición de red local)
  • Haga clic en "OK" para guardar

2.gif

 ¡Consejos!

AJAX timeout a menudo se puede usar como un web page timeout para Acción de clic. Por ejemplo, cuando tiene una página que tarda una eternidad en finalizar la carga, mucho después de que se carguen los datos que necesita, puede usar convenientemente el tiempo de espera de AJAX para indicarle a Octoparse que pase a la siguiente acción cuando se alcance el tiempo establecido. Mira este video si quieres saber más sobre AJAX.

 
3. Cree un "Loop Item" - scrape todos los elementos de cada página
  • Haga clic en cualquier título de producto en la página
  • Haga clic en "Seleccionar todo" en el panel "Action Tips"
  • Haga clic en "Loop haga clic en cada elemento"

Octoparse detecta cualquier elemento similar en la misma página cuando se selecciona un elemento. Los enlaces seleccionados se resaltan en verde, mientras que todos los otros enlaces similares detectados se resaltan en rojo. Cuando se agrega una acción de Loop clic Octoparse hará clic en cada enlace capturado en Loop Item y abrirá la página de detalles del producto una por una.

  • Desmarque "Reintentar cuando la página permanezca sin cambios (use discretamente para cargar AJAX)"
  • Clic en "Save"

 

3.gif

 

 

4. Extraer dato - seleccione los datos para la extracción

Después de hacer clic en "Loop click each element", Octoparse abrirá la página de detalles del primer producto.

  • Haga clic en los datos que necesita en la página.
  • Seleccione "Extraer texto del elemento seleccionado" de los "Action Tips"
  • Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta

004.gif

 

 

5. Guarde e inicie la extracción - ejecute la tarea y obtenga datos
  • Clic en "Save"
  • Haga clic en "Iniciar extracción" en el lado superior izquierdo
  • Seleccione "Local Extraction external-link-symbol-1.png" para ejecutar la tarea en su computadora, o seleccione "Cloud Extraction external-link-symbol-1.png" para ejecutar la tarea en la nube (solo para usuarios premium)

 

5.gif

 

Aquí están los datos que extrajimos.

6.png

 

¡Feliz data hunting!

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse