Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Scraping la información de bienes raíces de Kijiji

Thursday, July 23, 2020

En este tutorial, le mostraremos cómo scrape datos de bienes raíces de Kijiji como ejemplo.

Además, puede ir a "Task Templates" en la pantalla principal de la herramienta de scraping Octoparse, y comenzar con la ready-to-use Plantilla inmobiliaria Kijiji para usar directamente para ahorrar tiempo. Con esta característica, no hay necesidad de configurar tareas de raspado. Solo necesita ingresar la URL de la página de resultados de búsqueda. Para más detalles, puede consultarlo aquí: Task Templates external-link-symbol-1.png

Display-task-templates.PNG

 

Para continuar, es posible que desee utilizar esta URL en el tutorial:

https://www.kijiji.ca/b-real-estate/guelph/c34l1700242

Recogeremos datos como Ad-ID, título y precio de cada página de propiedades con Octoparse.

 

Este tutorial también cubrirá:

  • Tratar con AJAX para paginación
  • Localice los elementos correctamente modificando XPath en Octoparse

¡Consejos!

Se recomienda que use la URL de la página de resultados de búsqueda directamente siempre que sea posible. Agregar palabras clave/filtros dentro de Octoparse puede complicar la tarea y conducir a un raspado menos eficiente.

 

Estos son los pasos principales de este tutorial: [Descargue el archivo de tarea aquí external-link-symbol-1.png]

  1. Ir a la página web - abra la página web de destino
  2. Cree un ciclo de paginación - scrape todos los detalles de varias páginas
  3. Crear un "Loop Item" - haga clic en cada elemento de cada lista
  4. Extraer datos - seleccione los datos para la extracción
  5. Personalice el campo de datos modificando XPath - mejore la precisión de los datos extraídos (Opcional)
  6. Inicie la extracción - ejecute la tarea y obtenga datos

 

1. Ir a la página web - abra la página web de destino

  • Haga clic en "+ Tarea" para comenzar una tarea usando el Modo Avanzado

Advanced Mode es un modo de web scraping altamente flexible y potente. Para las personas que desean scrape de sitios web con estructuras complejas, como kijiji.com, recomendamos el Modo Avanzado para comenzar su proyecto de extracción de datos.

  • Pegue la URL en el cuadro "Website" y haga clic en "Save URL" para continuar

 

1.gif

 

2. Cree un ciclo de paginación - scrape todos los detalles de varias páginas

  • Apague el "Workflow Mode" cambiando el botón "Workflow" en la esquina superior derecha en Octoparse para una mejor vista (opcional)
  • Desplácese hacia abajo de la página y haga clic en el botón de página siguiente ">"
  • Haga clic en "Loop click the selected link" en el panel "Action Tips"
  • Active el "Workflow Mode" cambiando el botón "Workflow" en la esquina superior derecha de Octoparse
  • Establezca "Esperar antes de la ejecución" durante 5 segundos (opcional según su condición de red local)
  • Deshacer el "Reintentar cuando la página permanece sin cambios"
  • Haga clic en "Cargar la página con AJAX" y configure el "AJAX Timeout" como 30 segundos (opcional según la condición de su red local)
  • Configurar "Desplazarse hacia abajo"

 

Para permitir que Octoparse cargue esta página web por completo, necesitamos configurar "Scroll Down" para que Octoparse se desplace automáticamente hacia abajo después de la paginación.

"Intervalo" es el intervalo de tiempo entre cada dos pergaminos. En este caso, vamos a establecer "Intervalo" como "2" segundos.

En este caso, configuramos "Scroll Down" por "12" veces y seleccionamos "Scroll down for one screen" como ejemplo.

  • Click “Guardar"

 

2.gif

Puede encontrar que "Click to paginate" no siempre puede ubicar el botón "Next" correctamente. En este caso, debe revisar la XPath del botón "Next".

  • Seleccione el bucle "Paginación" en el workflow.
  • Pegue la XPath modificada en el cuadro de texto de "Single element"
    • //div[@class='pagination']/a[@title='Next']
  • Haga clic en "OK" para guardar

 

xpath_pagination.PNG

¡Consejos!

Si desea obtener más información sobre AJAX, aquí hay algunos tutoriales relacionados que puede necesitar:

 

3. Crear un "Loop Item" - haga clic en cada elemento de cada lista

  • Haga clic en el título del primer elemento en la página actual
  • Haga clic en "Select All" en el panel "Action Tips"
  • Haga clic en "Loop haga clic en cada URL"
  • Establezca "Esperar antes de la ejecución" como "5" segundos (opcional)
  • Deshacer el "Reintentar cuando la página permanece sin cambios"
  • Haga clic en "Cargar la página con AJAX" y configure el tiempo de espera de AJAX como "30" segundos (opcional según su red)
  • Click "Guardar"

 

3loop.gif

 

4. Extraer datos - seleccione los datos para la extracción

  • Haga clic en los datos que necesita en la página.
  • Seleccione "Extraer texto del elemento seleccionado" en el panel "Consejos de Acción"
  • Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta

 

4data.gif

 

5. Personalice el campo de datos modificando XPath - mejore la precisión de los datos extraídos (Opcional)

  • Seleccione el campo "Precio"
  • Haga clic en el icono de "Customize data field" y seleccione "Customize XPath"
  • Ingrese la XPath modificada en el cuadro de texto "Matching XPath" text box
    • Para Ad ID, the XPath es //ul[contains(@class,'crumbList')]/li[contains(@class,'currentCrumb')]
    • Para Price, the XPath es //div[contains(@class,'mainColumn')]//div[contains(@class,'priceContainer')]

 

En este caso, debemos modificar XPath para ubicar correctamente los elementos "Price" e "Ad ID".

  • Haga clic en "OK" para guardar

 

K1-XPathsteps.gif

¡Consejos!

Si desea obtener más información sobre XPath y cómo generarlo, aquí hay algunos tutoriales relacionados que puede necesitar:

 

6. Inicie la extracción - ejecute la tarea y obtenga datos

  • Clic en "Save"
  • Haga clic en "Start Extraction" en el lado superior izquierdo
  • Seleccione "Local Extraction" para ejecutar la tarea en su computadora, o seleccione "Cloud Extraction" para ejecutar la tarea en la nube (solo para usuarios premium)

Para un usuario premium, Cloud Extractionexternal-link-symbol-1.png es muy recomendable.

 

5run.gif

 

Aquí está la muestra para su información.

mceclip0.png

 

Artículos Relacionados:

Recopilar información de la propiedad de Daft.ieexternal-link-symbol-1.png

Scrape los datos inmobiliarios en Realtor.comexternal-link-symbol-1.png

 

 

¿Te resultó útil este artículo ¡Contáctenos en cualquier momento si necesita nuestra ayuda!

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse