Todas las colecciones
Tutorial de Casos
Viaje
Scrape los detalles del hotel de Airbnb
Scrape los detalles del hotel de Airbnb
Actualizado hace más de una semana

Airbnb es un buen sitio web para encontrar un hotel de vacaciones perfecto. En este tutorial, te ayudaremos a aprender cómo usar Octoparse para obtener información del hotel de Airbnb.

La forma más sencilla es utilizar plantillas de tareas prediseñadas de Airbnb. No es necesario configurar las tareas de extracción, solo ingresa palabras clave / URL y obtendrás los datos. Para más detalles, puedes consultar aquí: Plantillas de Tareas

0.png

Estos son los pasos principales de este tutorial. [Descargar archivo de tarea aquí

]

1) "Ir a la página web" - abrir el sitio web de destino

  • Ingresa la URL en la página de inicio y haz clic en "Iniciar"

1.png

2) Detectar automáticamente la página web - crear el flujo de trabajo

  • Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección.

2.1.gif
  • Cambia el nombre o elimina los campos en la vista previa de datos

2.2.png
  • Haz clic en "Crear flujo de trabajo".

2.3.png

Octoparse generaría automáticamente un flujo de trabajo como este:

mceclip0.png

3) Modificar la configuración de la "Paginación"

El XPath auto-generado no siempre funciona bien. En este caso, necesitaremos modificar el XPath de la paginación.

  • Haz clic para abrir la configuración de "Paginación"

  • Ingresa el XPath: //a[@aria-label="Next"]

3.1.gif

Tips!

XPath juega un papel importante en localizar correctamente el elemento en Octoparse. Si quieres obtener más información al respecto, consulta el siguiente tutorial:

La siguiente página se carga con AJAX, por lo que debemos agregar el tiempo de espera de AJAX a la acción "Hacer clic para paginar".

  • Haz clic en abrir la configuración de "Hacer clic para paginar"

  • Marca "Cargar con AJAX"

  • Configura el tiempo de espera de AJAX como 7-10 s

3.2.gif

Si todos los datos que necesitas se pueden extraer de la página de la lista, puede detenertw aquí y saltar a Ejecutar tu tarea - obtener los datos que quieres . Si quieres ir a la página de detalles de cada producto para obtener más información, sigue los pasos a continuación.

4) Hacer clic en cada enlace para obtener más información

  • Elige "Hacer clic en los enlaces para scrapear las páginas vinculadas" en el panel de Tips.

  • Selecciona "Hacer clic en un campo de datos extraídos" y selecciona el campo en el que quieres hacer clic en el menú desplegable (puedes confirmar si es el enlace correcto en la Vista previa de datos)

  • Haz clic en "Confirmar"

4.1.gif

Octoparse abriría la primera página de detalles automáticamente.

5) Extraer datos de la página de detalles

  • Seleccionar información en la página web

  • Elige "Extraer texto del elemento seleccionado"

  • Repite los pasos anteriores para extraer todos los datos que necesitas

4.2.gif
  • Cambia el nombre de los campos si es necesario

    4.3.png
  • Haz clic para abrir la configuración de "Extraer Datos1"

  • Marca "Esperar antes de la acción"

  • Configura el tiempo de espera en 7-10 s

5.2.gif

6) Modificar el XPath de "Hacer clic en las URLs de la lista"

En este caso, el auto-generado "Hacer clic en las URLs de la lista" no funcionan bien. Podemos modificar el XPath para que funcione.

  • Haz clic para abrir la configuración de "Hacer clic en las URLs de la lista".

  • Haz clic en

    mceclip2.png
  • Ingresa el XPath: /descendant-or-self::A[contains(@class,"_gjfol0")]

  • Haz clic en "Aceptar" para confirmar

    5.1.gif

7) Ejecutar tu tarea - obtener los datos que quieres

4.4.png

Aquí tienes una muestra de datos.

mceclip1.png
¿Ha quedado contestada tu pregunta?