Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Scraping de la propiedad info de Daft.ie

Tuesday, June 09, 2020

En este tutorial, le mostraremos cómo scrape información de propiedades de Daft.ie.

Para continuar, es posible que desee utilizar esta URL en el tutorial:

https://www.daft.ie/waterford-city/property-for-sale/waterford-city/?s[mxp]=850000

Con Octoparse, scrape datos como el precio, la dirección, la descripción general de la propiedad y la descripción de cada página de detalles de la propiedad.

Este tutorial también cubrirá:

  • Localice los elementos correctamente modificando XPath en Octoparse

 

¡Consejos!

Se recomienda que use la URL de la página de resultados de búsqueda directamente siempre que sea posible. Agregar palabras clave/filtros dentro de Octoparse puede complicar la tarea y conducir a un scraping menos eficiente.

 

Estos son los pasos principales de este tutorial: [Download task file hereexternal-link-symbol-1.png

  1. Ir a la página web - abra la página web de destino
  2. Cree un ciclo de paginación - scrape los listados de todas las páginas
  3. Cree un "Loop Item" - scrape todos los elementos de cada página
  4. Extraer datos - seleccione los datos para la extracción
  5. Personalice el campo de datos modificando XPath - mejore la precisión de los datos extraídos (Opcional)
  6. Inicie la extracción - ejecute la tarea y obtenga datos

 

1. Ir a la página web - abra la página web de destino

  • Haga clic en "+ Tarea" para comenzar una nueva tarea con el Modo Avanzadoc

El Modo Avanzado es un modo de web scraping altamente flexible y potente. Para las personas que desean scrape de sitios web con estructuras complejas, como Daft.ie, recomendamos el Modo Avanzado para comenzar su proyecto de extracción de datos.

  • Pegue la URL en el cuadro "Website" y haga clic en "Guardar URL" para continuar

 

 

go_to_web_page.gif 

2. Cree un ciclo de paginación - scrape los listados de todas las páginas

  • Desplácese hacia abajo en la página en el navegador incorporado, haga clic en el botón "Siguiente"
  • Haga clic en "Loop click next page" en el panel "Action Tips"
  • Clic en “Guardar"

 pagination.gif

 

3. Cree un "Loop Item" - scrape todos los elementos de cada página

Ahora estás en la segunda página. Siempre debe comenzar en la primera página.

  • Haga clic en "Ir a la página web" en el workflow y luego seleccione el bucle "Paginación"

Con esta acción, puede ayudar a Octoparse a decidir el orden de ejecución. Luego, puede comenzar a hacer un "Loop Item".

  • Haga clic en el precio del primer elemento de la lista.
  • Haga clic en la etiqueta "A" en la parte inferior del panel "Action Tips"
  • Haga clic en "Seleccionar todo" en el panel "Action Tips"
  • Haga clic en "Loop haga clic en cada URL"
  • Establezca "Esperar antes de la ejecución" como "5" segundos (opcional, depende de la condición de su red local)
  • Clic en Guardar"

 loop_item.gif

 

4. Extraer datos - seleccione los datos para la extracción

  • Haga clic en los datos que necesita en la página.
  • Seleccione "Extraer texto del elemento seleccionado" en el panel "Action Tips"

 extract_data1.gif

  • Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta
  • Haga clic en "OK" para guardar

 fieldname.gif

 

5. Personalice el campo de datos modificando XPath - mejore la precisión de los datos extraídos (Opcional)

Cuando ejecuta la tarea, puede encontrar datos faltantes en algunos campos aunque estén en la página web. En este caso, debe revisar el XPath para ubicar el elemento correctamente.

  • Seleccione el campo "Property Description"
  • Haga clic en el icono de "Customize data field" y seleccione "Customize XPath"
  • Ingrese la XPath modificada en el cuadro de texto "Matching XPath" 
    • //section[@class='Section__container']/p[contains(@class,'PropertyDescription')]
  • Haga clic en "OK" para guardar

     

 

xpath_des.gif

Es posible que el "Loop Item" no pueda incluir todos los elementos que desee, por lo que también debe revisar la XPath para "Loop Item".

  • Seleccione el "Loop Item"
  • Vaya a "Loop Mode" y seleccione "Lista de variables"
  • Ingrese la XPath modificada a continuación en el cuadro de texto para "Lista de variables"
    • //a[@class='PropertyInformationCommonStyles__propertyPrice--link']
  • Haga clic en "OK" para guardar

 xpath_loop.gif

 

¡Consejos!

Si desea obtener más información sobre XPath y cómo generarlo, aquí hay algunos tutoriales relacionados que puede necesitar:

 

6. Inicie la extracción - ejecute la tarea y obtenga datos

  • Clic en "Save"
  • Haga clic en "Iniciar extracción" en el lado superior izquierdo
  • Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Cloud
  • Extraction" para ejecutar la tarea en la nube (solo para usuarios premium)

Para un usuario premium, Cloud Extraction es muy recomendable.


Aquí hay una muestra de salida de datos para su referencia.

data_output_sample.PNG

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse