En este tutorial, le mostraremos cómo recopilar detalles profesionales en Houzz.com con Octoparse.
Para Houzz, puede visitar nuestra "Task Template" fácil de usar en la pantalla principal de la herramienta de scraping Octoparse. Todo lo que necesita es escribir varios parámetros y la tarea está lista para comenzar. Para más detalles, puede consultarlo aquí: Task Templates
Rasparemos la URL de cada página de detalles en la Tarea 1 y extraeremos los detalles de los profesionales, como el título, el número de revisiones y la descripción con la Tarea 2. Al dividir una tarea en dos, la velocidad de extracción podría mejorarse en cierto grado, especialmente cuando usamos Octoparse Cloud Extraction.
Para continuar, es posible que desee utilizar esta URL en el tutorial:
Estos son los pasos principales de este tutorial: [Descargue el archivo de tarea de demostración aquí ]
Tarea 1: Extraer todas las URL de las páginas de detalles en las páginas de resultados de búsqueda
Tarea 2: Recopilar la información del producto de URL raspadas
Tarea 1: Extraiga las URL de la página de detalles en las páginas de resultados de búsqueda
1. "Ir a la página web" - para abrir la página web de destino
Haga clic en "+ Tarea" para comenzar una nueva tarea con el Modo Avanzado
Advanced Mode es un modo de web scraping altamente flexible y potente. Para las personas que desean scrape de sitios web con estructuras complejas, como houzz.com, recomendamos el Modo Avanzado para comenzar su proyecto de extracción de datos.
Pegue la URL en el cuadro "Extraction URL" y haga clic en "Save URL" para continuar
2. Cree un ciclo de paginación - para scrape varias páginas de listado
Desplácese hacia abajo y haga clic en el botón "Next Page" en la página web
Haga clic en "Loop click next page" en "Action Tips"
3. Extraer datos - para scrape ciertos elementos en cada página
Haga clic en los títulos de dos profesionales
Haga clic en "Extraer texto de los elementos seleccionados" en el panel "Action Tips" para crear un bucle
Haga clic en cualquier título de la página.
Haga clic en "Extraer URL del enlace seleccionado" en el panel "Action Tips" para extraer la URL de la página de detalles
Renombrar los campos
4. Iniciar extracción - para ejecutar la tarea y obtener datos
Haga clic en "Iniciar extracción" en el lado superior izquierdo
Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Cloud Extraction" para ejecutar la tarea en la nube (solo para usuarios premium)
Una vez completada la extracción de datos, exporte el resultado de la URL para la Tarea 2.
Tarea 2: Recopilar los detalles profesionales de las URL
1. Ingrese un lote de las URL raspadas - para abrir en bucle las páginas de detalles
Con la Tarea 1, podemos obtener un lote de URL list
Haga clic en "+ Tarea" para iniciar una tarea usando el Modo Avanzado para construir la Tarea 2
Input batch URL
Hay tres formas de importar batch URL a cualquier tarea/crawler (hasta un millón de URL). En este caso, importaremos por batch URLde archivos locales. Para un estudio más detallado, consulte Batch Import URLs
2. Extraer datos - para seleccionar los datos para la extracción
Como podemos ver, ahora estamos en la página de detalles.
Haga clic en la información que necesita en la página.
Seleccione "Extraer datos" en los "Action Tips"
Renombrar los campos
En este paso, podemos cambiar el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta. Aquí seleccionamos tres campos: Título; Number_of_Reviews; Descripción.
Para extraer el número de teléfono:
Haga clic en "Click to call" y seleccione "Click element" en el "Action Panel"
Desmarque "New Tab" y "Auto Retry"
Establecer "Ajax Timeout" como 5s
Haga clic en el número de teléfono y seleccione "Extraer texto del elemento seleccionado"
Cambie el nombre del campo según lo necesite.
Haga clic en "Save para continuar
3. Iniciar extracción - para ejecutar la tarea y obtener datos
Clic en Guardar"
Haga clic en "Iniciar extracción" en el lado superior izquierdo
Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Cloud Extraction" para ejecutar la tarea en la nube (solo para usuarios premium)
Para un usuario premium, Cloud Extraction es muy recomendable.
Ahora tiene los datos que necesita. Con dos tareas, podemos evitar algunos problemas causados por pequeños cambios ocurridos en los sitios web.ow you have the data you need. With two tasks, we can avoid some problems caused by small changes happened on websites.
Pero si solo quiere scrape los datos por una vez, también puede combinar estas dos tareas en una sola, lo que facilita todo el proceso.
Haga clic en "Leer más" del primer profesional
Haga clic en "Seleccionar todo" en el panel "Action Tips" y luego haga clic en "Loop click each element"
¡Feliz búsqueda de datos!