undefined

Step-by-step tutorials for you to get started with web scraping

Download Octoparse

Scrape Datos del Producto de Amazon con ASIN/UPC

Friday, March 13, 2020

 
Usar ASIN/UPC para capturar la información que necesita para su negocio es bueno para vender en Amazon. Raspar los datos de los productos de Amazon con ASIN/UPC podría ser una ayuda para aprender productos de homogeneidad y tratar con la estrategia de precios.

 

Para Amazon, puede visitar nuestra "Plantilla de tareas" fácil de usar en la pantalla principal de la herramienta de raspado Octoparse. Todo lo que necesita es escribir varios parámetros y la tarea está lista para comenzar. Para más detalles, puede consultarlo aquí:  Task Templates

Display-task-templates-02.PNG

En este tutorial, le mostraré cómo recuperar los datos del producto de Amazon utilizando la herramienta de web scraping con Octoparse.

 

Antes de comenzar, deberá tener una lista de ASIN preparada de antemano. Aquí hay una lista de ejemplos de ASIN.

 

B07JJK7J3K
B00LB01FNO
B003EM8008
B07THVNSCV
B07VCWM8QD
B07VC5M21C
B07TX7PCFH
B0753GRNQZ
B07V9S26D2
B01E4A6JDI

 

Para seguirlo, es posible que desee utilizar la URL en este tutorial:

https://www.amazon.com/

 

Estos son los pasos principales de este tutorial.

1) "Ir a la página web" - abrir la página web de destino

2) Cree un "elemento de bucle" - buscar en bucle cada ASIN de la lista

3) Extraer datos - seleccionar los datos para la extracción

4) Personalice los campos de datos refinando los dato - mejore la precisión de un determinado campo de datos(Opcional)

5) Ejecutar extracción - para ejecutar su tarea y obtener datos

 

 

  

1) "Ir a la página web" - para abrir la página web de destino

   · Crea la tarea con el "+ Task".

  • Pegue la URL en el cuadro "Sitio web"
  • Haga clic en "Guardar URL" para continuarr.

 1.gif

  

 

2) Cree un "elemento de bucle" - buscar en bucle cada ASIN de la lista

Al pegar la lista ASIN en "Lista de texto", podríamos crear una acción de búsqueda de bucle, con la cual Octoparse ingresará automáticamente cada ASIN de la lista en el cuadro de búsqueda, un código por vez.

· Coloque una acción "Elemento de bucle" en el diseñador de flujo de trabajo

· Haga clic en "Lista de texto" en el "Modo de bucle"

· Haga clic en la barra "A"

· Pegue la lista ASIN en el cuadro de texto

· Haga clic en "OK" para guardar

 2.gif

  

Ahora, podemos ver que la lista ASIN se presenta en el cuadro Elemento de bucle. Comencemos a crear la acción de búsqueda de bucle.

· Haga clic en el cuadro de búsqueda en la página web

· Haga clic en "Introducir texto" en los "Consejos de acción"

· Ingrese el primer ASIN en el cuadro de texto

· Haga clic en "OK" para guardar

Necesitamos ajustar la posición de la acción "Introducir texto" en el flujo de trabajo para generar una orden de ejecución correcta para Octoparse.

· Arrastre la acción "Introducir texto" al "Elemento de bucle"

· Marque "Usar el texto en Elemento de bucle para completar el cuadro de texto"

· Haga clic en "OK" para guardar

 3.gif

 

 

Luego, debemos ubicar dónde se debe escribir el texto.

  • Haga clic en "Ingresar texto"
  • Haga clic en "Personalizar" y luego modifique XPath como"//input[@id='twotabsearchtextbox']" 

4.gif

 
Después de configurar la acción "Elemento de bucle" e "Introducir texto", necesitaremos agregar una acción "Hacer clic en elemento" para activar la acción de búsqueda.
  • Haga clic en el botón "Buscar" en la página web.
  •  Haga clic en "Botón de clic" en los "Consejos de acción"

Dado que Amazon carga los resultados de búsqueda con AJAX, necesitamos configurar "AJAX Load"   para evitar que el software se atasque.

  • Desmarque "Reintento automático"
  • Marque "AJAX Load" y configure el tiempo como 5s
  • Haga clic en "Guardar" para continuar

 

 

 

¡Consejos!

El tiempo de espera de AJAX a menudo se puede usar como tiempo de espera de página web para Acción de clic. Por ejemplo, Cuando tiene una página que tarda mucho en terminar de cargar, mucho después de que se carguen los datos que necesita, puede usar convenientemente el tiempo de espera de AJAX para indicarle a Octoparse que pase a la siguiente acción cuando se alcance el tiempo establecido.

Si desea obtener más información sobre AJAX, aquí hay dos enlaces relacionados que puede necesitar:

 

  

3) Extraer datos - seleccionar los datos para la extracción

· Haga clic en la información que necesita en la página

· Seleccione "Extraer datos" en los "Consejos de acción"

6.gif

 

  •  Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta

sample_field.png

 

 

 

4) Personalice los campos de datos refinando los dato - mejore la precisión de un determinado campo de datos (opcional)

En este caso, el elemento "Precio" no es un número único que queremos. Entonces, para limpiar los datos, necesitamos usar la expresión regular para refinarlos.

 

· Seleccione el campo de datos "Precio"

· Haga clic en "Personalizar campo de datos"

· Seleccione ""Refinar datos extraídos"

· Pegue la expresión regular en "XPath coincidente"

La regular expression para el "Price" field is "[0-9.]{5}"

· Haga clic en "OK"

 8.gif

 

 

 

 

¡Consejos!

La modificación de XPath en Octoparse funciona muy bien con más flexibilidad y precisión que la XPath generada automáticamente.

Aquí hay algunos tutoriales relacionados que puede necesitar:

· Datos obtenidos a los campos de datos incorrectos

 · Localizar elementos con XPath

 · ¿Cómo asociar datos con texto cercano?

 

 

 

  

5) Ejecutar extracción - para ejecutar su tarea y obtener datos

· Clic en Guardar"

· Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Extracción en la nube" para ejecutar la tarea en la nube (solo para usuarios premium)

9.gif

 

 

A continuación se muestra la muestra de salida.

 sample_output.png

 

¿Te resultó útil este artículo ¡Contáctenos en cualquier momento si necesita nuestra ayuda!

 

 

Download Octoparse to start web scraping or contact us for any
question about web scraping!

Contact Us Download
Usamos cookies para mejorar tu experiencia de navegación. Lee sobre cómo usamos las cookies y cómo puedes controlarlas haciendo clic en la configuración de cookies. Si continúas utilizando este sitio, acepta nuestro uso de cookies.
Aceptar Rechazar