Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

¿Cómo scrape las URL de imágenes completas en lugar de las miniaturas?

Friday, April 24, 2020

 A veces necesitamos scrape la URL de la imagen de un sitio web, pero todo lo que obtenemos es solo la URL de una imagen en miniatura en lugar de una imagen de tamaño normal.

Aquí hay una foto scraped de Amazon. Como puede ver, la imagen es demasiado pequeña para ver.

mceclip3.png

Para obtener imágenes de tamaño normal, todo lo que debemos hacer es modificar la URL de la imagen que ya tenemos con los siguientes pasos:

1. Observe la diferencia entre la URL de imagen completa y la URL de miniatura.

En la mayoría de los casos, las URL de diferentes tamaños solo tienen una ligera diferencia. Lo que debemos hacer es descubrir la diferencia y utilizar la función "Refine extracted data" de Octoparse para volver a formatear la URL en miniatura en la URL completa.

Por ejemplo, la miniatura en Amazon es así

https://images-na.ssl-images-amazon.com/images/I/51Icrvma7ZL._SR38,50_.jpg

Y la URL de la imagen completa es

https://images-na.ssl-images-amazon.com/images/I/51Icrvma7ZL.__.jpg

Puede ver que la miniatura tiene 'SR38,50' en su URL. Entonces solo necesitamos eliminar eso en la URL.

 

2. Seleccione el campo de datos con la URL de la imagen y haga clic en "Customize data field"

0190815162533.png
​​

3. Hace click en "Refine extracted data"

mceclip2.png
​​

4. Hace click en "Add step" y luego click "Replace"

190815162825.png
​​

5. Ingrese lo que está entre "._" y "_." en la casilla "Replace".


Para este ejemplo, la URL es 'https://images-na.ssl-images-amazon.com/images/I/51Icrvma7ZL._SR38,50_.jpg'. Escriba SR38,50 en el cuadro Reemplazar y haga clic en "ok" para guardar.

 

20190815163007.png
​​

Luego puede obtener la URL de imagen completa que necesita.

mceclip1.png

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse