Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Scrape la información del producto de bukalapak

Thursday, July 02, 2020

En este tutorial, le mostraremos cómo recopilar detalles del producto en bukalapak.com con Octoparse.

Puede visitar nuestra "Task Template" fácil de usar en la pantalla principal de Octoparse. Todo lo que necesita es escribir varios parámetros y la tarea está lista para comenzar. Para más detalles, puede consultarlo aquí: Task Templatesexternal-link-symbol-1.png

Rasparemos la URL de cada página de productos de Huawei con la Tarea 1 y extraeremos el título del producto, el precio y la información del vendedor de cada página de productos con la Tarea 2. Al dividir una tarea en dos, la velocidad de extracción podría mejorarse en cierto grado, especialmente cuando usamos Octoparse Cloud Extraction.

Para seguir, puede usar esta URL en el tutorial:

https://www.bukalapak.com/products?utf8=%E2%9C%93&source=navbar&from=omnisearch&search_source=omnisearch_organic&search%5Bhashtag%5D=&search%5Bkeywords%5D=huawei

 

Estos son los pasos principales de este tutorial [Descargar el demo tareas archivo aquí ]

Tarea 1: Extraer todas las URL de las páginas de detalles en las páginas de resultados de búsqueda

  1. "Ir a la página web" - para abrir la página web de destino
  2. Cree un ciclo de paginación - para scrape todos los resultados de varias páginas
  3. Bucle extraer URL de página de detalles en cada lista - para seleccionar todas las URL de producto
  4. Guardar e iniciar extracción - para ejecutar la tarea y obtener datos

Tarea 2: Recopilar la información del producto a partir de URL de raspado

  1. Ingrese un lote de las URL scraped - para loop open las páginas de detalles
  2. Extraer datos - para seleccionar los datos para la extracción
  3. Guarde e inicie la extracción - para ejecutar la tarea y obtener datos

 

Tarea 1:Extraer todas las URL de las páginas de detalles en las páginas de resultados de búsqueda

1. "Ingrese un lote de las URL scraped - para loop open las páginas de detalles

  • Haga clic en "+ Tarea" para comenzar una nueva tarea con el Modo avanzado
  • Pegue la URL en el cuadro "Website"
  • Haga clic en "Guardar URL" para continuar

inputurl.gif

 

2. Cree un ciclo de paginación - para scrape todos los resultados de varias páginas

  • Desplácese hacia abajo y haga clic en el botón "Página siguiente" en la página web
  • Haga clic en "Bucle haga clic en la página siguiente" en ""Action Tips"
  • Desmarca la opción "Reintento automático"
  • Establecer "AJAX Timeout" como 5s
  • Haga clic en "OK" para guardar el paso

pagination1.gif

¡Consejos!

AJAX timeout a menudo se puede usar como web page timeout for Click Action. Por ejemplo, cuando tiene una página que se tarda mucho tiempo en cargar los datos completo, puede usar convenientemente el tiempo de espera de AJAX para indicarle a Octoparse que pase a la siguiente acción cuando se alcance el tiempo establecido.

Si desea obtener más información sobre AJAX, puede ver del video tutorial aquí.

 

3.Bucle extraer URL de página de detalles en cada lista - para seleccionar todas las URL de producto

  • Haga clic en el título de cualquier producto en la primera página.

    Los primeros 10 productos son "productos promocionados" que no son los productos que queremos.       Evítalos y haz clic en el producto número 11.

  • Haga clic en "Seleccionar todo" en los "Action Tips"
  • Haga clic en "Extraer URL del enlace seleccionado"
  • Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta

select_url.gif

 

4. Guardar e iniciar extracción - para ejecutar la tarea y obtener datos

  • Haga clic en "Iniciar Extracción" en el lado superior izquierdo
  • Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Cloud Extraction" para ejecutar la tarea en la nube (solo para usuarios premium)

Exporte el resultado después de que se haya completado la extracción de datos. La lista de URL se utilizará en la Tarea 2.

extract.gif

 

Tarea 2: Recopilar la información del producto de URL scraped

1. Ingrese un lote de las URL scraped - para loop open las páginas de detalles

  • Haga clic en "+ Task" para comenzar una tarea usando el "Modo Avanzado“ para construir la Tarea 2
  • Ingresar URL por lotes

Hay cuatro formas de ingresar URL a una tarea/rastreador. En este caso, ingresaremos las URL directamente pegando. Debe ingresar menos de 10K URL.

Si desea ingresar más URL, consulte la Batch URLs input  para verificar las otras tres formas que permiten ingresar hasta un millón de URL. 

88.gif

 

2. Extraer datos - para seleccionar los datos para la extracción

  • Haga clic en los datos que necesita en la página.
  • Seleccione "Extraer texto del elemento seleccionado" en los "Action Tips"
  • Renombrar los campos

extract_2.gif

 

3. Guarde e inicie la extracción - para ejecutar la tarea y obtener datos

  • Haga clic en "Iniciar extracción" en el lado superior izquierdo
  • Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Cloud Extracción" para ejecutar la tarea en la nube (solo para usuarios premium)

Extract_result.gif

 

Artículos relacionados:

Scraping de detalles de productos de Wayfair 

Scraping la información del producto de BestBuy 

Scraping los precios de eBay 

Tratar con AJAX 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse