Resource
Tutoriales paso a paso para ayudarlo a comenzar con el web scraping
Descargar Octoparse
Target.com, uno de los minoristas en línea más grandes de los Estados Unidos. En este tutorial, le mostraremos cómo raspar la información del producto de Target.com.
Si desea saber cómo construir la tarea desde cero, puede leer el siguiente tutorial.
Debido a la estructura del sitio web, necesitamos usar 2 tareas para lograr el objetivo. Rasparemos la URL de cada página de elementos en la Tarea 1 y luego rascaremos la información detallada del producto, como el título del producto, el precio y la descripción de la página de detalles del producto en la Tarea 2. Al dividir una tarea en dos, la velocidad de extracción podría mejorarse hasta cierto punto, especialmente cuando usamos la extracción de nube de Octoparse.
Para continuar, es posible que desee utilizar esta URL en el tutorial:
https://www.target.com/c/milk-substitutes-dairy-grocery/-/N-5xszh?lnk=MilkMilkSubstit
Este tutorial también cubrirá:
Estos son los pasos principales de este tutorial: [Descargar el archivo de tarea aquí ]
Tarea 1: Extraer todas las URL de las páginas de detalles en las páginas de resultados de búsqueda
Tarea 2: Recopilar la información del producto de URL raspadas
Tarea 1: Extraer todas las URL de las páginas de detalles en las páginas de resultados de búsqueda
1. "Ir a la página web" - abre la página web de destino
El modo avanzado es un modo de web scraping altamente flexible y potente. Para las personas que desean rascarse de sitios web con estructuras complejas, como Target.com, recomendamos el Modo avanzado para comenzar su proyecto de extracción de datos.
2. Cree un ciclo de paginación - scrape todos los resultados de varias páginas
Target.com aplica la técnica AJAX al botón de paginación. Por lo tanto, debemos configurar AJAX Load para la acción "Hacer clic para paginar".
Cuando haya configurado la carga AJAX, recuerde desmarcar "Reintento automático".
Puede configurar un tiempo de espera más largo para asegurarse de que la página se cargue bien.
¡Consejos! Si desea obtener más información sobre AJAX, estos son los tutoriales relacionados que puede necesitar: |
3. Cree un "elemento de bucle" - Extraiga en bucle cada URL en las páginas de resultados de búsqueda
Al extraer datos a través de varias páginas, siempre debe comenzar la creación de tareas en la primera página.
Puede observar que no todos los elementos de la lista se seleccionan correctamente. En este caso, necesitamos revisar la XPath predeterminada del elemento de bucle para ubicar todos los elementos.
También puede agregar un tiempo de espera a este paso para que el sitio web tenga suficiente tiempo para cargar.
Además, algunos elementos en el elemento de bucle no pueden encontrar una URL correspondiente. En este caso, necesitamos personalizar la XPath del campo de datos.
¡Consejos! 1. "Lista de variables" es un modo de bucle en Octoparse. Para obtener más información sobre los modos de bucle en Octoparse: 2. Si desea obtener más información sobre XPath y cómo generarlo, estos son los tutoriales relacionados que puede necesitar:
|
4. Iniciar extracción - Ejecute la tarea y obtenga datos
Aquí está la salida de muestra para la Tarea 1.
¡Consejos! Cuando el contenido de la página ya se ha mostrado, pero todavía se está cargando, puede hacer clic en el botón "X" en el extremo derecho de la barra de navegación para detener la carga.
|
Tarea 2: Recopilar la información del producto de URL raspadas
1. Ingrese un lote de las URL raspadas: abra las páginas de detalles
En la Tarea 1, ya tenemos un lote de URL.
Hay tres formas de importar URL por lotes a cualquier tarea/rastreador (hasta un millón de URL). En este caso, le mostraremos cómo importar por lotes URL de un archivo local.
También puede copiar las URL del archivo de salida de extracción de la Tarea 1 y luego pegarlas en el cuadro de texto "Sitio web".
Para un estudio más detallado, consulte Batch Import URLs
2. Extraer datos - seleccione los datos para la extracción
Como podemos ver, ahora estamos en la página de detalles.
En este paso, podemos cambiar el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta.
3. Iniciar extracción - ejecute la tarea y obtenga datos
Para un usuario premium, Cloud Extraction es muy recomendable.
Ahora tiene los datos que desea. Hay algunos campos en blanco en la salida porque no hay valores de calificación para algunos artículos del producto.
Una tarea de división puede ayudar a mejorar la eficiencia de la extracción de datos, así como a minimizar algunos problemas causados por pequeños cambios ocurridos en los sitios web.
¡Consejos! Por defecto, si Octoparse no puede encontrar el elemento del patrón definido en la página, el campo se dejará en blanco. Sin embargo, Octoparse puede no encontrar el elemento del patrón definido, incluso si el elemento necesario se muestra en el sitio web. Si encuentra este problema, aquí hay un tutorial relacionado que puede necesitar
|
¡Feliz búsqueda de datos!
¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!
Company
Producto
Recurso
Company
Product
Recurso