Resource
Tutoriales paso a paso para ayudarlo a comenzar con el web scraping
Descargar OctoparseEn este tutorial, le mostraremos cómo obtener información del hotel en Booking.com.
Además, puede ir a "Task Templates" en la pantalla principal de la herramienta de Octoparse web scraping y comenzar directamente con la ready-to-use Plantilla de Booking para usar para ahorrar tiempo. Con esta característica, no hay necesidad de configurar tareas de scraping. Para más detalles, puede consultarlo aquí: Plantillas de Tareas
Si desea saber cómo construir la tarea desde cero, puede continuar leyendo el siguiente tutorial.
Para continuar, es posible que desee utilizar esta URL en el tutorial:
Recopilaremos datos tales como el nombre del hotel, la calificación, la dirección, una foto y las instalaciones de la habitación usando Octoparse.
¡Consejos! 1. Se recomienda que utilice la URL de la página de resultados de búsqueda directamente siempre que sea posible. Agregar palabras clave/filtros dentro de Octoparse puede complicar la tarea y conducir a un scraping menos eficiente. 2. La estructura y la visualización de Booking.com pueden variar según su IP e idioma preferido. |
Estos son los pasos principales de este tutorial: [Descargue el demo archivo de tarea aquí]
1. "Ir a la página web" - abre la página web de destino
Advanced Mode es un modo de web scraping altamente flexible y potente. Para las personas que desean scrape de sitios web con estructuras complejas, como Airbnb.com, recomendamos el Advanced Mode para comenzar su proyecto de extracción de datos.
2. Cree un ciclo de paginación - scrape todos los resultados de varias páginas
3. Crear un “Elemento de bucle" - haga clic en cada elemento de cada lista
Al extraer datos en varias páginas, siempre debe comenzar su tarea de construcción desde la primera página.
Octoparse seleccionará automáticamente todos los enlaces a las páginas de detalles en la página actual. Los enlaces seleccionados se resaltarán en verde, mientras que otros enlaces a las páginas de detalles se resaltarán en rojo.
Octoparse hará clic en cada enlace capturado en el "Loop Item" y abrirá la página de detalles.
Cuando vaya a otras páginas para ver si el flujo de trabajo es correcto, puede encontrar este mensaje "No se puede encontrar ningún elemento usando este XPath". En este caso, para mejorar la precisión de los elementos de posicionamiento en la lista, se sugiere modificar el XPath.
¡Consejos! 1. "Fixed list" y "Variable list" son modos de bucle en Octoparse. Para más información sobre los modos de bucle en Octoparse: 2. Si desea obtener más información sobre XPath y cómo generarlo, aquí hay algunos tutoriales relacionados que puede necesitar: |
4. Extraer datos - seleccione los datos para la extracción
Después de hacer clic en "Loop click each element", Octoparse abrirá la página de detalles del primer hotel.
5. Iniciar extracción - ejecute la tarea y obtenga datos
Para un usuario premium, Cloud Extraction es muy recomendable.
Aquí está la salida de muestra.
Puede ver algunos campos en blanco en la columna "Hotel_Image_1" y en la columna "All_Rooms_Include". Esto se debe a que algunas páginas de detalles no contienen ninguna imagen del hotel and/or la información sobre las instalaciones de las habitaciones.
¡Consejos! Por defecto, si Octoparse no puede encontrar el elemento del patrón definido en la página, el campo se dejará en blanco. Sin embargo, Octoparse puede no encontrar el elemento del patrón definido, incluso si el elemento necesario se muestra en el sitio web. Si encuentra este problema, aquí hay un tutorial relacionado que puede necesitar: |
Artículos Relacionados:
Scrape hotel data from Tripadvisor
Video-Scrape Hospitality Information from Booking.com
Scrape hotel information from Trip.com
¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!
Company
Producto
Recurso
Company
Product
Recurso