Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Extraer los hotel datos de Booking

Thursday, July 23, 2020

En este tutorial, le mostraremos cómo obtener información del hotel en Booking.com.

Además, puede ir a "Task Templates" en la pantalla principal de la herramienta de Octoparse web scraping y comenzar directamente con la ready-to-use Plantilla de Booking para usar para ahorrar tiempo. Con esta característica, no hay necesidad de configurar tareas de scraping. Para más detalles, puede consultarlo aquí: Plantillas de Tareas external-link-symbol-1.png

Display-task-templates.PNG

 

Si desea saber cómo construir la tarea desde cero, puede continuar leyendo el siguiente tutorial.

Para continuar, es posible que desee utilizar esta URL en el tutorial:

https://www.booking.com/searchresults.en-gb.html?label=gen173nr-1FCAEoggJCAlhYSDNYBGgxiAEBmAEuwgEDYWJuyAEO2AEB6AEB-AELkgIBeagCBA&sid=1964712b1d001062109ae5baf669fd26&checkin_month=12&checkin_monthday=1&checkin_year=2018&checkout_month=12&checkout_monthday=2&checkout_year=2018&class_interval=1&dest_id=20088325&dest_type=city&dtdisc=0&from_sf=1&group_adults=1&group_children=0&inac=0&index_postcard=0&label_click=undef&no_rooms=1&offset=0&postcard=0&raw_dest_type=city&room1=A&sb_price_type=total&src=index&src_elem=sb&ss=New%20York&ss_all=0&ssb=empty&sshis=0&ssne=New%20York&ssne_untouched=New%20York&selected_currency=USD&changed_currency=1&top_currency=1&nflt= 

 

Recopilaremos datos tales como el nombre del hotel, la calificación, la dirección, una foto y las instalaciones de la habitación usando Octoparse.

 

¡Consejos!

1. Se recomienda que utilice la URL de la página de resultados de búsqueda directamente siempre que sea posible. Agregar palabras clave/filtros dentro de Octoparse puede complicar la tarea y conducir a un scraping menos eficiente.

2. La estructura y la visualización de Booking.com pueden variar según su IP e idioma preferido.

 

Estos son los pasos principales de este tutorial: [Descargue el demo archivo de tarea aquíexternal-link-symbol-1.png]

  1. "Ir a la página web" - abre la página web de destino
  2. Cree un ciclo de paginación - scrape todos los resultados de varias páginas
  3. Crear un “Elemento de bucle" - haga clic en cada elemento de cada lista
  4. Extraer datos - seleccione los datos para la extracción
  5. Iniciar extracción - ejecute la tarea y obtenga datos

 

 

1. "Ir a la página web" - abre la página web de destino

  • Haga clic en "+ Tarea" para comenzar una tarea usando Advanced Mode

Advanced Mode es un modo de web scraping altamente flexible y potente. Para las personas que desean scrape de sitios web con estructuras complejas, como Airbnb.com, recomendamos el Advanced Mode para comenzar su proyecto de extracción de datos.

  • Pegue la URL en el cuadro "Website" y haga clic en "Guardar URL" para continuar

 

  input_url.gif

 

2. Cree un ciclo de paginación - scrape todos los resultados de varias páginas

  • Desplácese hacia abajo en la página y haga clic en el botón de página siguiente ">"
  • Haga clic en "Loop click the selected link" en "Action Tips"

 

 

 

3. Crear un “Elemento de bucle" - haga clic en cada elemento de cada lista

  • Haga clic en "Go To Web Page" para ir a la primera página

Al extraer datos en varias páginas, siempre debe comenzar su tarea de construcción desde la primera página.

  • Haga clic en el título del primer elemento de la lista
  • Haga clic en "Select all" en el panel "Action Tips" si Octoparse detecta todos los elementos que desea
  • De lo contrario, haga clic en el título del segundo elemento de la lista.

Octoparse seleccionará automáticamente todos los enlaces a las páginas de detalles en la página actual. Los enlaces seleccionados se resaltarán en verde, mientras que otros enlaces a las páginas de detalles se resaltarán en rojo.

  • Haga clic en "Loop click each element" para crear un "Loop Item"

     Octoparse hará clic en cada enlace capturado en el "Loop Item" y abrirá la página de detalles.

 

 

Cuando vaya a otras páginas para ver si el flujo de trabajo es correcto, puede encontrar este mensaje "No se puede encontrar ningún elemento usando este XPath". En este caso, para mejorar la precisión de los elementos de posicionamiento en la lista, se sugiere modificar el XPath.

  • Haga clic en el cuadro "Elemento de Bucle"
  • Vaya a "Modo de bucle" y haga clic en "Lista de variables"
  • Ingrese la XPath modificada a continuación en el cuadro de texto de "Lista de Variables":
    • //a[@class='hotel_name_link url'] 
  • Haga clic en "OK" para guardar

 

 variable_list_xpath.gif

 

¡Consejos!

1. "Fixed list" y "Variable list" son modos de bucle en Octoparse. Para más información sobre los modos de bucle en Octoparse:

2. Si desea obtener más información sobre XPath y cómo generarlo, aquí hay algunos tutoriales relacionados que puede necesitar:

 

4. Extraer datos - seleccione los datos para la extracción

Después de hacer clic en "Loop click each element", Octoparse abrirá la página de detalles del primer hotel.

  • Haga clic en los datos que necesita en la página.
  • Extraer los datos seleccionados.
    • Para extraer el texto, seleccione "Extraer texto del elemento seleccionado" en el panel "Action Tips"
    • Para extraer la URL de la imagen, seleccione "Extraer la URL del enlace seleccionado" en el panel "Action Tips"

h1.gif

 

  • Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta

h2.gif 

 

5. Iniciar extracción - ejecute la tarea y obtenga datos

  • Clic en "Save"
  • Haga clic en "Iniciar Extracción" en el lado superior izquierdo
  • Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Cloud Extraction" para ejecutar la tarea en la nube (solo para usuarios premium)

Para un usuario premium, Cloud Extraction external-link-symbol-1.png es muy recomendable.

 

h3.gif

 

 

Aquí está la salida de muestra.

Puede ver algunos campos en blanco en la columna "Hotel_Image_1" y en la columna "All_Rooms_Include". Esto se debe a que algunas páginas de detalles no contienen ninguna imagen del hotel and/or la información sobre las instalaciones de las habitaciones.

mceclip0.png

 

¡Consejos!

Por defecto, si Octoparse no puede encontrar el elemento del patrón definido en la página, el campo se dejará en blanco. Sin embargo, Octoparse puede no encontrar el elemento del patrón definido, incluso si el elemento necesario se muestra en el sitio web. Si encuentra este problema, aquí hay un tutorial relacionado que puede necesitar:

 

Artículos Relacionados:

Scrape hotel data from Tripadvisor external-link-symbol-1.png

Video-Scrape Hospitality Information from Booking.com external-link-symbol-1.png

Scrape hotel information from Trip.com external-link-symbol-1.png

 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse