Blog > Poste

Scrapear detalles profesionales de Houzz

Thursday, June 04, 2020

En este tutorial, le mostraremos cómo recopilar detalles profesionales en Houzz.com con Octoparse.

Para Houzz, puede visitar nuestra "Task Template" fácil de usar en la pantalla principal de la herramienta de scraping Octoparse. Todo lo que necesita es escribir varios parámetros y la tarea está lista para comenzar. Para más detalles, puede consultarlo aquí: Task Templates external-link-symbol-1.png

 

Rasparemos la URL de cada página de detalles en la Tarea 1 y extraeremos los detalles de los profesionales, como el título, el número de revisiones y la descripción con la Tarea 2. Al dividir una tarea en dos, la velocidad de extracción podría mejorarse en cierto grado, especialmente cuando usamos Octoparse Cloud Extraction.

Para continuar, es posible que desee utilizar esta URL en el tutorial:

https://www.houzz.com/professionals/architects-and-building-designers/

 

 

Estos son los pasos principales de este tutorial: [Descargue el archivo de tarea de demostración aquí ]

Tarea 1: Extraer todas las URL de las páginas de detalles en las páginas de resultados de búsqueda

  1. "Ir a la página web" - para abrir la página web de destino
  2. Cree un ciclo de paginación - para scrape varias páginas de listado
  3. Extraer datos - para scrape ciertos elementos en cada página
  4. Iniciar extracción - para ejecutar la tarea y obtener datos

 

Tarea 2: Recopilar la información del producto de URL raspadas

  1. Ingrese un lote de las URL scraped - para abrir en bucle las páginas de detalles
  2. Extraer datos - para seleccionar los datos para la extracción
  3. Iniciar extracción - para ejecutar la tarea y obtener datos

 

 

Tarea 1: Extraiga las URL de la página de detalles en las páginas de resultados de búsqueda

1. "Ir a la página web" - para abrir la página web de destino
  • Haga clic en "+ Tarea" para comenzar una nueva tarea con el Modo Avanzado

Advanced Mode es un modo de web scraping altamente flexible y potente. Para las personas que desean scrape de sitios web con estructuras complejas, como houzz.com, recomendamos el Modo Avanzado para comenzar su proyecto de extracción de datos.

  • Pegue la URL en el cuadro "Extraction URL" y haga clic en "Save URL" para continuar

 

1.gif

 

2. Cree un ciclo de paginación - para scrape varias páginas de listado

  • Desplácese hacia abajo y haga clic en el botón "Next Page" en la página web
  • Haga clic en "Loop click next page" en "Action Tips"

2.gif

 

3. Extraer datos - para scrape ciertos elementos en cada página
  • Haga clic en los títulos de dos profesionales
  • Haga clic en "Extraer texto de los elementos seleccionados" en el panel "Action Tips" para crear un bucle
  • Haga clic en cualquier título de la página.
  • Haga clic en "Extraer URL del enlace seleccionado" en el panel "Action Tips" para extraer la URL de la página de detalles
  • Renombrar los campos

 

3.gif

 
4. Iniciar extracción - para ejecutar la tarea y obtener datos
  • Haga clic en "Iniciar extracción" en el lado superior izquierdo
  • Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Cloud Extraction" para ejecutar la tarea en la nube (solo para usuarios premium)

 

4.gif

Una vez completada la extracción de datos, exporte el resultado de la URL para la Tarea 2.

 

Tarea 2: Recopilar los detalles profesionales de las URL

1. Ingrese un lote de las URL raspadas - para abrir en bucle las páginas de detalles

Con la Tarea 1, podemos obtener un lote de URL list

  • Haga clic en "+ Tarea" para iniciar una tarea usando el Modo Avanzado para construir la Tarea 2
  • Input batch URL

Hay tres formas de importar batch URL a cualquier tarea/crawler (hasta un millón de URL). En este caso, importaremos por batch URLde archivos locales. Para un estudio más detallado, consulte Batch Import URLs

 

5.gif

 

 

2. Extraer datos - para seleccionar los datos para la extracción

Como podemos ver, ahora estamos en la página de detalles.

  • Haga clic en la información que necesita en la página.
  • Seleccione "Extraer datos" en los "Action Tips"
  • Renombrar los campos

En este paso, podemos cambiar el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta. Aquí seleccionamos tres campos: Título; Number_of_Reviews; Descripción.

extract_info.gif

Para extraer el número de teléfono:

  • Haga clic en "Click to call" y seleccione "Click element" en el "Action Panel"
  • Desmarque "New Tab" y "Auto Retry"
  • Establecer "Ajax Timeout" como 5s
  • Haga clic en el número de teléfono y seleccione "Extraer texto del elemento seleccionado"
  • Cambie el nombre del campo según lo necesite.
  • Haga clic en "Save para continuar

 

NEW.gif

 

3. Iniciar extracción - para ejecutar la tarea y obtener datos

  • Clic en Guardar"
  • Haga clic en "Iniciar extracción" en el lado superior izquierdo
  • Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Cloud Extraction" para ejecutar la tarea en la nube (solo para usuarios premium)

Para un usuario premium, Cloud Extraction es muy recomendable.

 

 

6.gif

 

Ahora tiene los datos que necesita. Con dos tareas, podemos evitar algunos problemas causados por pequeños cambios ocurridos en los sitios web.ow you have the data you need. With two tasks, we can avoid some problems caused by small changes happened on websites.

7.gif

Pero si solo quiere scrape los datos por una vez, también puede combinar estas dos tareas en una sola, lo que facilita todo el proceso.

  • Siga el paso1 y paso2 en la Tarea 1
  • Haga clic en "Leer más" del primer profesional
  • Haga clic en "Seleccionar todo" en el panel "Action Tips" y luego haga clic en "Loop click each element"
  • Sigue el paso2 y paso3 en la Tarea 2

 

task__loop.gif

¡Feliz búsqueda de datos!

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier pregunta sobre el extracción de datos!

Contáctenos Descargarse