undefined

Step-by-step tutorials for you to get started with web scraping

Download Octoparse

Scrape los datos del producto de Tokopedia

Monday, March 09, 2020

 

 

En este tutorial, le mostraremos cómo recopilar información del producto en Tokopedia (un sitio de comercio electrónico de Indonesia) con Octoparse.

Además, puede ir a "Task Templates" en la pantalla principal de la herramienta de raspado Octoparse, y comenzar directamente con la Plantilla de Tokopedia lista para usar para ahorrar tiempo. Con esta característica, no hay necesidad de configurar tareas de raspado. Para más detalles, puede consultarlo aquí: Task Templatesexternal-link-symbol-1.png

Display-task-templates-02.PNG

 

 

Si desea saber cómo construir la tarea desde cero, puede continuar leyendo el siguiente tutorial.

Recogeremos datos como el título del producto, el precio, la URL de la imagen y más de la página de detalles del producto con Octoparse.

Para continuar, es posible que desee utilizar la URL en este tutorial:

https://www.tokopedia.com/search?st=product&q=usb

 

Este tutorial también cubrirá:

  •   Modifique XPath para localizar con precisión los datos de precios deseados
     

Estos son los pasos principales de este tutorial 

 

  1. "Ir a la página web" - abra la página web de destino
  2. Cree un ciclo de paginación - raspe todos los datos de varias páginas
  3. Cree un "elemento de bucle"- haga clic en cada elemento de cada lista
  4. Extraer datos - seleccione los datos para la extracción
  5. Personalice el campo de datos modificando XPath - mejore la precisión de un determinado campo de datos (Optional)
  6. Inicie la extracción - ejecute la tarea y obtenga los datos

 

 

1. "Ir a la página web" - abra la página web de destino

  Crea la tarea con el "Modo avanzado"
  Pegue la URL en el cuadro "URL de extracción" y haga clic en "Guardar URL" para continuar

open.gif

 

 

2. Cree un ciclo de paginación - raspe todos los datos de varias páginas

  • Desplácese hacia abajo y haga clic en el botón ">" en la página web
  • Haga clic en "Bucle, haga clic en la página siguiente" en "Consejos de acción"

Tokopedia aplica la técnica AJAX al botón de paginación. Por lo tanto, debemos configurar AJAX Load en el paso "Hacer clic para paginar".

  • Desmarque "Reintento automático"
  • Marque "Cargar la página con AJAX"
  • Configure "AJAX Timeout" (para demostración, configuramos "3s")

pagination.gif

¡Consejos!

Si desea obtener más información sobre AJAX, aquí hay tutoriales relacionados que puede necesitar:

 

 

3. Cree un "elemento de bucle"- haga clic en cada elemento de cada lista

  • Haga clic en "Ir a la página web" en el flujo de trabajo

Ahora estamos en la segunda página. Al crear un "Elemento de bucle", siempre debemos comenzar con el primer elemento en la primera página. Por lo tanto, será mejor que volvamos a la primera página.

  • Seleccione el ciclo de paginación en el flujo de trabajo.

Al hacer esto, podemos ayudar a Octoparse a decidir el orden de ejecución y generar el elemento de bucle en la posición adecuada en el flujo de trabajo.

Cuando crea una lista de elementos para raspar un sitio web, a veces la lista puede incluir varios elementos de "Anuncios". Para excluir los productos de promoción en este caso, podemos comenzar la creación de elementos de bucle desde la tercera fila de esta página.

 

  • Haga clic en el título del primer elemento en la tercera fila.
  • Haga clic en "Seleccionar todo" en el panel "Consejos de acción"
  • Seleccione "Loop haga clic en cada elemento"

create_a_loop.gif

 

¡Consejos!

En este caso, excluimos los elementos "Anuncios" omitiendo las dos primeras filas. Sin embargo, cuando los elementos de "anuncios" existen en la lista de productos, hay otra forma de excluirlos.

 

 

4. Extraer datos - seleccione los datos para la extracción

  • Haga clic en la información que necesita en la página.
  • Seleccione "Extraer texto del elemento seleccionado" en el panel "Consejos de acción"
  • Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta

extract_data.gif

 

5. Personalice el campo de datos modificando XPath - mejore la precisión de un determinado campo de datos (Opcional)

En este caso, el elemento de precio no siempre se encuentra en el mismo lugar en diferentes páginas de detalles. Por lo tanto, para evitar la falta de datos provocada por este problema de ubicación irregular, debemos modificar XPath en Octoparse para garantizar que el elemento de precio en cada página se detecte con precisión.

  • Haga clic en "Personalizar campo de datos"
  • Seleccione "Personalizar XPath"
  • Pegue la XPath revisada en el cuadro de texto "XPath coincidente"
    • //span[text()='Rp']/following-sibling::span
  • Haga clic en "Aceptar" para guardarxpath.gif

¡Consejos!

Para mejorar la precisión de un determinado campo de datos, se recomienda modificar XPath en Octoparse. Aquí hay algunos tutoriales relacionados que puede necesitar:

 

 

 

6. Inicie la extracción - ejecute la tarea y obtenga los datos

  • Clic en Guardar"
  • Haga clic en "Iniciar extracción" en el lado superior izquierdo
  • Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Extracción en la nube" para ejecutar la tarea en la nube (solo para usuarios premium)

Para un usuario premium, Cloud Extraction es muy recomendable.

 

start_extraction.gif     

Así que ahora hemos pasado por todos los pasos para extraer datos de Tokopedia. Aquí está la salida de muestra.sample_output.PNG

 

Related articles:

Raspado de detalles del producto de Wayfairexternal-link-symbol-1.png

Scrape la información del producto de Gumtreeexternal-link-symbol-1.png

Revisiones de Scrape de BestBuyexternal-link-symbol-1.png

Scrape la información del producto de Houzzexternal-link-symbol-1.png

 

 

¿Te resultó útil este artículo ¡Póngase en contactoexternal-link-symbol-1.png  con use en cualquier momento si necesita nuestra ayuda!

 

 

Download Octoparse to start web scraping or contact us for any
question about web scraping!

Contact Us Download
Usamos cookies para mejorar tu experiencia de navegación. Lee sobre cómo usamos las cookies y cómo puedes controlarlas haciendo clic en la configuración de cookies. Si continúas utilizando este sitio, acepta nuestro uso de cookies.
Aceptar Rechazar