Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Scrape los datos del hotel de Tripadvisor

Tuesday, March 10, 2020

 En este tutorial, vamos a presentar cómo extraer información de TripAdvisor.com.

Además, puede ir a "Plantillas de Tareas" en la pantalla principal de la herramienta de raspado Octoparse y comenzar directamente con las Plantillas de TripAdvisor listas para usar para ahorrar tiempo. Con esta característica, no hay necesidad de configurar tareas de raspado. Para más detalles, puede consultarlo aquí: Plantillas de tareasexternal-link-symbol-1.png

 

Display-task-templates-02.PNG

 

Si desea saber cómo construir la tarea desde cero, puede continuar leyendo el siguiente tutorial.

Para continuar, es posible que desee utilizar la URL en este tutorial:

https://www.tripadvisor.com/Hotels-g186338-London_England-Hotels.html.

Scrape el título, la ubicación, el precio y la calificación del hotel de la página del hotel con Octoparse.

 

 

Pasos principales en el tutorial:

  1. "Ir a la página web" - abre la página web de destino
  2. Cree un ciclo de paginación - scrape todos los resultados de varias páginas
  3. Cree un "Elemento de bucle" - haga clic en cada elemento de cada lista
  4. Extraer datos - seleccione los datos para la extracción
  5. Personalice el campo de datos modificando XPath - mejore la precisión de la lista de elementos (Opcional)
  6. Inicie la extracción - ejecute la tarea y obtenga datos

 

 

 

1. "Ir a la página web" - abre la página web de destino

  • Haga clic en "+ Tarea" para iniciar una tarea usando el Modo avanzado


El modo avanzado es un modo de raspado web altamente flexible y potente. Para las personas que desean rascarse de sitios web con estructuras complejas, como Airbnb.com, recomendamos el Modo avanzado para comenzar su proyecto de extracción de datos.

 

  • Pegue la URL en el cuadro "Sitio web" y haga clic en "Guardar URL" para continuar


Debido a la configuración de cookies de TripAdvisor, necesitamos configurar los filtros en Octoparse.

 

  • Seleccione una fecha de "Registro" en el navegador incorporado y haga clic en "Hacer clic en Elemento" en los "Consejos de acción"
  • Repita las acciones para configurar la fecha de "Salida" y la "Información del huésped"


Ahora, podemos tener la página de resultados que necesitamos.

 1goto.gif

 

 

2. Cree un ciclo de paginación - scrape todos los resultados de varias páginas

  • Desplácese hacia abajo y haga clic en el botón "Página siguiente" en la página web
  • Haga clic en "Bucle, haga clic en la página siguiente" en el panel "Consejos de acción"


A medida que TripAdvisor carga el contenido con AJAX, debemos configurar AJAX Load para la acción "Hacer clic para paginar".

 

  • Desmarque "Reintento automático cuando no hay respuesta"
  • Marque "Cargar la página con AJAX"
  • Configure "AJAX Timeout", y en este caso, establecemos "5" segundos
  • Clic en Guardar"

2pagination-2.gif

 

Consejos!

Si desea obtener más información sobre AJAX, aquí hay tutoriales relacionados que puede necesitar:

 

 

 

3. Cree un "Elemento de bucle" - haga clic en cada elemento de cada lista

Ahora estamos en la segunda página. Al crear un "Elemento de bucle", siempre debemos comenzar con el primer elemento en la primera página. Por lo tanto, mejor regresemos a la primera página.

  • Haga clic en "Ir a la página web" en el flujo de trabajo
  • Eliminar las tres acciones "Hacer clic en elemento"

Octoparse enviará la cookie guardada al sitio web al cargar, para que podamos abrir la página de resultados directamente. Como TripAdvisor ya nos ha "recordado", ahora no hay necesidad de mantener estas acciones.

  • Seleccione el buclo de paginación en el flujo de trabajo.
    Al hacer esto, podemos ayudar a Octoparse a decidir el orden de ejecución y generar el "Elemento de bucle" en la posición adecuada en el flujo de trabajo.

Ahora, construyamos el elemento del bucle.

  • Haga clic en el título del primer elemento en la página de listado, excepto los elementos "Patrocinados"
  • Haga clic en "Seleccionar todo" en el panel "Consejos de acción"
  • Seleccione "Loop haga clic en cada URL"


Octoparse generará automáticamente el bucle y abrirá la página de detalles del primer elemento.

3loop-item.gif

 

 

4. Extraer datos - seleccione los datos para la extracción

  • Haga clic en la información que necesita en la página.
  • Seleccione "Extraer datos" en el panel "Consejos de acción"
  • Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta

t1.gif

 

¡Consejos!

Cuando haga clic en la calificación de la lista, elija "Extraer HTML externo del elemento seleccionado". Los datos extraídos deben procesarse aún más con Expresión regular. Vea cómo se hace en el Paso 5.

 

 

 

5. Personalice el campo de datos modificando XPath - mejore la precisión de la lista de elementos (Opcional)

En este caso, el elemento "Dirección" no siempre se encuentra en el mismo lugar en diferentes páginas de detalles. Por lo tanto, para evitar la falta de datos provocada por este problema de ubicación irregular, debemos modificar XPath en Octoparse para garantizar que el elemento "Dirección" en cada página se detecte con precisión.

Revisemos la XPath del campo de datos "Dirección":

  • Haga clic en la fila del campo "Dirección"
  • Haga clic en el icono de "Personalizar campo de datos"
  • Seleccione "Pers.onalizar XPath"
  • Pegue el XPath revisado en el cuadro de texto "XPath coincidente"
  • Revised XPath: //div[contains(@class,'address')]//span[contains(@class,'Contact')]//span
  • Haga clic en "Aceptar" para guardar el resultado

t2.gif

 

¡Consejos!

Para mejorar la precisión de un determinado campo de datos, se recomienda modificar XPath en Octoparse. Aquí hay algunos tutoriales relacionados que puede necesitar:

  

 

 

 

6. Inicie la extracción - ejecute la tarea y obtenga datos

  • Clic en Guardar"
  • Haga clic en "Iniciar extracción" en el lado superior izquierdo
  • Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Extracción en la nube" para ejecutar la tarea en la nube (solo para usuarios premium)


Para un usuario premium, Cloud Extractionexternal-link-symbol-1.png es muy recomendable.

 

6run-extraction.gif

 

Aquí está la salida de muestra. Puede encontrar algunos campos en blanco y eso es porque no tienen el valor.

sample_output.PNG

 

Artículos relacionados:

Scrape los datos del hotel de Bookingexternal-link-symbol-1.png

Scrape los datos inmobiliarios en Realtor.comexternal-link-symbol-1.png

Scrape listados de Airbnbexternal-link-symbol-1.png

 

 

 ¿Te resultó útil este artículo ¡Contáctenos external-link-symbol-1.png en cualquier momento si necesita nuestra ayuda!

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse