Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Scraping la información del hotel de Trip.com

Thursday, July 23, 2020

En este tutorial, le mostraremos cómo recopilar información del hotel en Trip.com con Octoparse.

Recogeremos datos que incluyen el nombre del hotel, la ubicación y la distancia desde el metro desde la página de detalles del hotel con Octoparse.

 

Para continuar, es posible que desee utilizar esta URL en el tutorial:

https://www.trip.com/hotels/List?city=58&checkin=07-04-2019&checkout=07-05-2019&hotelname=&searchboxArg=t&optionId=58&optionType=Js_City&display=Hong%20Kong&markland=&adult=1&children=0&ages=&label=BWX_hfD1GketyZWr7yv7Yg

 

Este tutorial también cubrirá:

  • Maneje la paginación potenciada al tratar con el infinite scrolling en Octoparse
  • Localice los elementos correctamente modificando XPath en Octoparse

 

Estos son los pasos principales de este tutorial: [Descargue el archivo de demo task aquí ]

  1. "Ir a la página web" - abre la página web de destino
  2. Lidia con el desplazamiento infinito - carga todos los elementos desde una página
  3. Cree un "Loop Item" - extracto de bucle cada elemento de la lista
  4. Extraer datos - seleccione los datos para la extracción
  5. Iniciar extracción - ejecute la tarea y obtenga datos

 

 

1. "Ir a la página web" - abre la página web de destino

  • Haga clic en "+ Tarea" para comenzar una nueva tarea con el Modo Avanzado

El Modo Avanzado es un modo de web scraping altamente flexible y potente. Para las personas que desean scrape de sitios web con estructuras complejas, como Trip.com, recomendamos encarecidamente el "Modo Avanzado" para comenzar su proyecto de extracción de datos.

  • Pegue la URL en el cuadro "Website" y haga clic en "Save URL" para continuar
  • Haga clic en "Save URL” vaya al sitio web de destino.

 

step_1.gif

 

2. Lidia con el desplazamiento infinito - carga todos los elementos desde una página

Para algunos sitios web como Trip.com, hacer clic en el botón de página siguiente para "paginación" no es una opción para cargar todo contenido. Para cargar completamente los listados, necesitamos desplazar la página hacia abajo de forma continua.

 

  • Marque la casilla "Desplácese hacia abajo hasta la parte inferior de la página cuando termine de cargar", configure "Scroll times" como 3 e "Intervalo" como 2 segundos. Para "Modo de desplazamiento", seleccione "Desplazarse hacia abajo hasta la parte inferior de la página"
    "Intervalo" es el intervalo de tiempo entre cada dos pergaminos.
  • Clic en "Save"

 

scroll_down_go_to_web_page.gif

  • Sigue desplazándote hacia abajo hasta que aparezca el botón "Buscar Más Hoteles", luego haz clic en el botón
  • Haga clic en "Loop click single element" en el panel "Action Tips"
  • Establezca "Esperar antes de la ejecución" como 4 segundos (opcional)
  • Haga clic en "Cargar la página con AJAX" y establezca "Tiempo de espera AJAX" como 15 segundos
  • Marque la casilla "Desplácese hacia abajo hasta la parte inferior de la página cuando termine de cargar", configure "Scroll times" como 3 e "Intervalo" como 2 segundos. Para "Modo de desplazamiento", seleccione "Desplazarse hacia abajo hasta la parte inferior de la página"
    "Interval" is the time interval between every two scrolls.
  • Haga clic en "OK" para guardar el paso

 

pagination.gif

pagination.png

¡Consejos!

Si desea obtener más información sobre AJAX e Infinite Scrolling, aquí hay algunos tutoriales relacionados que puede necesitar:

 

 

3. Cree un "Loop Item" - extracto de bucle cada elemento de la lista

  • Scroll up hasta el primer elemento de la lista y haga clic en el título del elemento.
  • Haga clic en "Seleccionar todo" en el panel "Action Tips"

Octoparse detectará automáticamente otros elementos similares una vez que haga clic en el título del primer elemento de la lista.

  • Haga clic en "Loop haga clic en cada URL"
  • Desmarque la casilla de "Reintento automático" y "Cargue la página con AJAX"
  • Clic en "Save"

 

En este caso, necesitamos modificar XPath para ubicar todos los hoteles correctamente.

  • Seleccione el cuadro "Elemento de Bucle"
  • Copie y pegue la expresión XPath "//div[@class="list-card-title"]//span" en el cuadro de texto de "Lista de variables"
  • Haga clic en "OK" para guardar

 

loopclickwithXPath.gif

loop_item.png

¡Consejos!

1. "Variable list" es un modo de bucle en Octoparse. Para obtener más información sobre los modos de bucle en Octoparse:

2. Si desea obtener más información sobre XPath y cómo generarlo, aquí hay un tutorial relacionado que puede necesitar:

 

 

4. Extraer datos - seleccione los datos para la extracción

  • Haga clic en los datos que desea extraer en la página.
  • Select "Extract text of the selected element" on the "Action Tips" panel

En este caso, seleccionamos el nombre del hotel, la dirección y la calificación.

  • Haga clic "OK" para guardar el paso

 

extraction.gif

  • Edite el nombre seleccionando el nombre de la lista predefinida o cree nombres por su cuenta

Step_4_rename.gif

 

5  Iniciar extracción - ejecute la tarea y obtenga datos

  • Click "Save"
  • Haga clic en "Iniciar extracción" en el lado superior izquierdo
  • Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Extracción en la nube" para ejecutar la tarea en la nube (solo para usuarios premium)

Para un usuario premium, Cloud Extraction  es muy recomendable.

 

Aquí está la salida de muestra.

 

mceclip0.png

 

Artículos Relacionados:

Scrape hotel datos de Booking

Scrape los detalles del hotel de Airbnb 

Scrape hotel datos de Tripadvisor

 

 

¿Te resultó útil este artículo ¡Contáctenos  en cualquier momento si necesita nuestra ayuda!

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse