Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Extracción de información del producto de Target.com

Friday, March 13, 2020

 

Target.com, uno de los minoristas en línea más grandes de los Estados Unidos. En este tutorial, le mostraremos cómo raspar la información del producto de Target.com.

Si desea saber cómo construir la tarea desde cero, puede leer el siguiente tutorial.

 

Debido a la estructura del sitio web, necesitamos usar 2 tareas para lograr el objetivo. Rasparemos la URL de cada página de elementos en la Tarea 1 y luego rascaremos la información detallada del producto, como el título del producto, el precio y la descripción de la página de detalles del producto en la Tarea 2. Al dividir una tarea en dos, la velocidad de extracción podría mejorarse hasta cierto punto, especialmente cuando usamos la extracción de nube de Octoparse.

 

Para continuar, es posible que desee utilizar esta URL en el tutorial:

https://www.target.com/c/milk-substitutes-dairy-grocery/-/N-5xszh?lnk=MilkMilkSubstit

 

Este tutorial también cubrirá:

  • Tratar con AJAX para paginación

Estos son los pasos principales de este tutorial: [Descargar el archivo de tarea aquíexternal-link-symbol-1.png ]

 

Tarea 1: Extraer todas las URL de las páginas de detalles en las páginas de resultados de búsqueda

  1. "Go to Web Page" - open the target web page
  2. Create a pagination loop - scrape all the results from multiple search results pages
  3. Build a "Loop Item"- loop extract each URL on the search results pages
  4. Start extraction - run the task and get data

 

Tarea 2: Recopilar la información del producto de URL raspadas

  1. Input a batch of the scraped URLs - loop open the detail pages
  2. Extract data - select the data for extraction
  3. Start extraction - run the task and get data

 

 

Tarea 1: Extraer todas las URL de las páginas de detalles en las páginas de resultados de búsqueda

1. "Ir a la página web" - abre la página web de destino

  • Haga clic en "+ Tarea" para comenzar una nueva tarea con el Modo Avanzado

 

El modo avanzado es un modo de web scraping altamente flexible y potente. Para las personas que desean rascarse de sitios web con estructuras complejas, como Target.com, recomendamos el Modo avanzado para comenzar su proyecto de extracción de datos.

  • Pegue la URL en el cuadro "Sitio web" y haga clic en "Guardar URL" para continuar

 

save_url.gif

 

2. Cree un ciclo de paginación - scrape todos los resultados de varias páginas

  • Desplácese hacia abajo y haga clic en el botón ">"
  • Haga clic en "Bucle, haga clic en el enlace seleccionado" en el panel "Consejos de acción"

 

pagination.gif

  • Configure la carga AJAX para la acción "Hacer clic para paginar"

Target.com aplica la técnica AJAX al botón de paginación. Por lo tanto, debemos configurar AJAX Load para la acción "Hacer clic para paginar".

  • Desmarque la casilla "Reintentar cuando la página no cambie (úsela discretamente para cargar AJAX)"

 

Cuando haya configurado la carga AJAX, recuerde desmarcar "Reintento automático".

  • Marque la casilla "Cargar la página con AJAX" y configure el tiempo de espera de AJAX como "3" segundos

Puede configurar un tiempo de espera más largo para asegurarse de que la página se cargue bien.

  • Haga clic en "OK" para guardar

 

mceclip0.png

¡Consejos!

Si desea obtener más información sobre AJAX, estos son los tutoriales relacionados que puede necesitar:

 

3. Cree un "elemento de bucle" - Extraiga en bucle cada URL en las páginas de resultados de búsqueda

  • Haga clic en "Ir a la página web" para volver a la primera página y luego haga clic en el cuadro "Paginación"

Al extraer datos a través de varias páginas, siempre debe comenzar la creación de tareas en la primera página.

 

go-to-the-first-page.png

  • Seleccione el título del primer elemento de la lista
  • Haga clic en "Seleccionar todo"
  • Haga clic en "Extraer las URL de los elementos seleccionados"

 

task1_loop.gif

Puede observar que no todos los elementos de la lista se seleccionan correctamente. En este caso, necesitamos revisar la XPath predeterminada del elemento de bucle para ubicar todos los elementos.

  • Seleccione "Elemento de bucle" en el flujo de trabajo
  • Seleccione "Lista de variables" y luego ingrese la XPath revisada a continuación:
  • //li[contains(@class,'h-padding-a-none')]
  • Haha "OK" para guardar

mceclip0.png

 

También puede agregar un tiempo de espera a este paso para que el sitio web tenga suficiente tiempo para cargar.

  • Vaya a "Esperar antes de la ejecución" y seleccione una hora del drop-down menú según su condición de Internet. Para la demostración, establecemos "10" segundos.

Además, algunos elementos en el elemento de bucle no pueden encontrar una URL correspondiente. En este caso, necesitamos personalizar la XPath del campo de datos.

  • Haga clic  mceclip0.png icon, and  luego seleccione "Customize XPath"
  • Ingrese la XPath revisada a continuación en el cuadro de texto de "XPath relativa":
  • //A[1]
  • Haha clic "OK" para guardar

 

task1_extract_data.gif

¡Consejos!

1. "Lista de variables" es un modo de bucle en Octoparse. Para obtener más información sobre los modos de bucle en Octoparse:

2. Si desea obtener más información sobre XPath y cómo generarlo, estos son los tutoriales relacionados que puede necesitar:

 

 

4. Iniciar extracción - Ejecute la tarea y obtenga datos

  • Clic en "Save"
  • Haga clic en "Start Extraction" en el lado superior izquierdo
  • Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Extracción en la nube" para ejecutar la tarea en la nube (solo para usuarios premium)

 task1_start_extraction.gif

Aquí está la salida de muestra para la Tarea 1.

 mceclip0.png

¡Consejos!

Cuando el contenido de la página ya se ha mostrado, pero todavía se está cargando, puede hacer clic en el botón "X" en el extremo derecho de la barra de navegación para detener la carga

 


 

Tarea 2: Recopilar la información del producto de URL raspadas

1. Ingrese un lote de las URL raspadas: abra las páginas de detalles

En la Tarea 1, ya tenemos un lote de URL.

  • Haga clic en "+ Tarea" para comenzar una tarea usando el Modo avanzado para construir la Tarea 2
  • Input batch URLexternal-link-symbol-1.png

Hay tres formas de importar URL por lotes a cualquier tarea/rastreador (hasta un millón de URL). En este caso, le mostraremos cómo importar por lotes URL de un archivo local.

 

 

También puede copiar las URL del archivo de salida de extracción de la Tarea 1 y luego pegarlas en el cuadro de texto "Sitio web".

Para un estudio más detallado, consulte Batch Import URLsexternal-link-symbol-1.png

  • Seleccione "Entrada del archivo" y luego seleccione el archivo de salida de las URL de raspado
  • Haga clic en "Guardar URL"

 

task2_input_url.gif

 

2. Extraer datos - seleccione los datos para la extracción

Como podemos ver, ahora estamos en la página de detalles.

  • Haga clic en la información que necesita en la página.
  • Seleccione "Extraer texto del elemento seleccionado" en el panel "Consejos de acción"

 

 task2_extract_data.gif

 

En este paso, podemos cambiar el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta.

task2_name.gif

 

3. Iniciar extracción - ejecute la tarea y obtenga datos

  • Click en "Save"
  • Haga clic en "Iniciar extracción" en el lado superior izquierdo
  • Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Extracción en la nube" para ejecutar la tarea en la nube (solo para usuarios premium)

Para un usuario premium, Cloud Extractionexternal-link-symbol-1.png es muy recomendable.

 

 

task2_start_extraction.gif

Ahora tiene los datos que desea. Hay algunos campos en blanco en la salida porque no hay valores de calificación para algunos artículos del producto.

mceclip0.png

Una tarea de división puede ayudar a mejorar la eficiencia de la extracción de datos, así como a minimizar algunos problemas causados por pequeños cambios ocurridos en los sitios web.

¡Consejos!

Por defecto, si Octoparse no puede encontrar el elemento del patrón definido en la página, el campo se dejará en blanco. Sin embargo, Octoparse puede no encontrar el elemento del patrón definido, incluso si el elemento necesario se muestra en el sitio web. Si encuentra este problema, aquí hay un tutorial relacionado que puede necesitar

 

 

¡Feliz búsqueda de datos!

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse