Airbnb es un buen sitio web para encontrar un hotel de vacaciones perfecto. En este tutorial, te ayudaremos a aprender cómo usar Octoparse para obtener información del hotel de Airbnb.
La forma más sencilla es utilizar plantillas de tareas prediseñadas de Airbnb. No es necesario configurar las tareas de extracción, solo ingresa palabras clave / URL y obtendrás los datos. Para más detalles, puedes consultar aquí: Plantillas de Tareas
Si quieres crear la tarea desde cero, puedes continuar leyendo este tutorial. Aquí tenemos un enlace de Airbnb y lo usaremos como ejemplo.
https://www.airbnb.com/s/New-York--NY--United-States/homes?adults=2&search_type=pagination&s_tag=A2EV74MC&tab_id=home_tab&refinement_paths%5B%5D=%2Fhomes&children=1&place_id=ChIJOwg_06VPwokRYv534QaPC8g&federated_search_session_id=2e7da092-4a51-48db-ba26-9746f41ac068
Estos son los pasos principales de este tutorial. [Descargar archivo de tarea aquí
]
1) "Ir a la página web" - abrir el sitio web de destino
Ingresa la URL en la página de inicio y haz clic en "Iniciar"
2) Detectar automáticamente la página web - crear el flujo de trabajo
Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección.
Cambia el nombre o elimina los campos en la vista previa de datos
Haz clic en "Crear flujo de trabajo".
Octoparse generaría automáticamente un flujo de trabajo como este:
3) Modificar la configuración de la "Paginación"
El XPath auto-generado no siempre funciona bien. En este caso, necesitaremos modificar el XPath de la paginación.
Haz clic para abrir la configuración de "Paginación"
Ingresa el XPath: //a[@aria-label="Next"]
Tips!
XPath juega un papel importante en localizar correctamente el elemento en Octoparse. Si quieres obtener más información al respecto, consulta el siguiente tutorial:
|
La siguiente página se carga con AJAX, por lo que debemos agregar el tiempo de espera de AJAX a la acción "Hacer clic para paginar".
Haz clic en abrir la configuración de "Hacer clic para paginar"
Marca "Cargar con AJAX"
Configura el tiempo de espera de AJAX como 7-10 s
Si todos los datos que necesitas se pueden extraer de la página de la lista, puede detenertw aquí y saltar a Ejecutar tu tarea - obtener los datos que quieres . Si quieres ir a la página de detalles de cada producto para obtener más información, sigue los pasos a continuación.
4) Hacer clic en cada enlace para obtener más información
Elige "Hacer clic en los enlaces para scrapear las páginas vinculadas" en el panel de Tips.
Selecciona "Hacer clic en un campo de datos extraídos" y selecciona el campo en el que quieres hacer clic en el menú desplegable (puedes confirmar si es el enlace correcto en la Vista previa de datos)
Haz clic en "Confirmar"
Octoparse abriría la primera página de detalles automáticamente.
5) Extraer datos de la página de detalles
Seleccionar información en la página web
Elige "Extraer texto del elemento seleccionado"
Repite los pasos anteriores para extraer todos los datos que necesitas
Cambia el nombre de los campos si es necesario
Haz clic para abrir la configuración de "Extraer Datos1"
Marca "Esperar antes de la acción"
Configura el tiempo de espera en 7-10 s
6) Modificar el XPath de "Hacer clic en las URLs de la lista"
En este caso, el auto-generado "Hacer clic en las URLs de la lista" no funcionan bien. Podemos modificar el XPath para que funcione.
Haz clic para abrir la configuración de "Hacer clic en las URLs de la lista".
Haz clic en
Ingresa el XPath: /descendant-or-self::A[contains(@class,"_gjfol0")]
Haz clic en "Aceptar" para confirmar
7) Ejecutar tu tarea - obtener los datos que quieres
Haz clic en "Guardar"
Haz clic en "Ejecutar" en la parte superior izquierda
Selecciona "Ejecutar tarea en tu dispositivo
" para ejecutar la tarea en tu computadora, o selecciona "Ejecutar tarea en la nube
" para ejecutar la tarea en la nube (solo para usuarios del plan premium)
Aquí tienes una muestra de datos.