Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Scraping información de bienes raíces de Realtor.com

Friday, April 17, 2020

 

En este tutorial, vamos a presentar cómo extraer información de realtor.com.

Scrape los datos de la página de detalles de la casa y rasparemos el título, la ubicación, el precio y la calificación con Octoparse.

Para seguir, puede usar la URL en el tutorial:

https://www.realtor.com/realestateandhomes-search/Tallassee_AL

 

 Este tutorial también cubrirá:

  • Tratar con AJAX para paginación
  • Localice los elementos correctamente modificando XPath en Octoparse

 

Estos son los pasos principales de este tutorial: 

  1. "Ir a la página web" - abra la página web de destino
  2. Cree un ciclo de paginación - scrape todos los resultados de varias páginas
  3. Cree un "Elemento de bucle" - haga clic en cada elemento de cada lista
  4. Extraer datos - seleccione los datos para la extracción
  5. Inicie la extracción - ejecute la tarea y obtenga datos

  

 

 

1. "Ir a la página web" - abra la página web de destino

  • Haga clic en "+ Tarea" para iniciar una tarea usando el Modo avanzado

El modo avanzado es un modo de raspado web altamente flexible y potente. Para las personas que desean rascarse de sitios web con estructuras complejas, como Realtor, recomendamos el Modo avanzado para comenzar su proyecto de extracción de datos.

  • Pegue la URL en el cuadro "Sitio web" y haga clic en "Guardar URL" para continuar

 

 

2. Cree un ciclo de paginación - scrape todos los resultados de varias páginas

  • Desplácese hacia abajo y haga clic en el botón ">" en la página web
  • Haga clic en "Loop click single element" en el panel "Action Tips"


A medida que Realtor carga el contenido con AJAX, debemos configurar AJAX Load para la acción "Paginación".

  • Desmarque "Reintento automático cuando no hay respuesta"
  • Marque "Cargar la página con AJAX"
  • Configure "AJAX Timeout" como "5" segundos

¡Consejos!

Si desea obtener más información sobre AJAX, aquí hay algunos tutoriales relacionados que puede necesitar:

 

 

3. Cree un "Elemento de bucle" - haga clic en cada elemento de cada lista

Ahora estamos en la segunda página. Al crear un "Elemento de bucle", siempre debemos comenzar con el primer elemento en la primera página. Por lo tanto, será mejor que volvamos a la primera página.

  • Haga clic en "Ir a la página web" en el flujo de trabajo
  • Seleccione el buclo de paginación


Al hacer esto, podemos ayudar a Octoparse a decidir la orden de ejecución y generar el elemento de bucle en la posición adecuada en el flujo de trabajo.

 

Ahora, construyamos el elemento del bucle:

  • Haga clic en el primer elemento de imagen en la página web
  • Haga clic en "Seleccionar todo" en el panel "Consejos de acción"
  • Seleccione "Loop haga clic en cada elemento"


Necesitamos configurar "AJAX Load" para este paso también, ya que carga el contenido con AJAX.

  • Desmarque "Reintento automático cuando no hay respuesta"
  • Desmarca "Abrir el enlace en la nueva pestaña"
  • Marque "Cargar la página con AJAX"
  • Configure "AJAX Timeout" como "5" segundos

 

 

 

4. Extraer datos - seleccione los datos para la extracción

Haga clic en la información que necesita en la página.
Seleccione "Extraer texto del elemento seleccionado" en el panel "Consejos de acción"
Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta

 

 

¡Consejos!

Si desea que los datos se extraigan correctamente en los campos de datos correspondientes, es mejor que escriba un nuevo XPath que siempre identifique los datos correctos en todas las páginas. Los tutoriales relacionados que puede necesitar se enumeran a continuación.

 

  

 

 

5. Inicie la extracción - ejecute la tarea y obtenga datos

  • Clic en Guardar"
  • Haga clic en "Iniciar extracción" en el lado superior izquierdo
  • Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Extracción en la nube" para ejecutar la tarea en la nube (solo para usuarios premium)
    Para un usuario premium, Cloud Extractionexternal-link-symbol-1.png es muy recomendable.

 

Para un usuario premium, Cloud Extractionexternal-link-symbol-1.png es muy recomendable.

 

Aquí está la salida de muestra.

 

Artículos relacionados:

Extracción de información de propiedad de Daft.ieexternal-link-symbol-1.png

Scrape la información de bienes raíces de Kijijiexternal-link-symbol-1.png

 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse
Utilizamos cookies con el fin de mejorar tu experiencia de navegación. Lee sobre cómo utilizamos cookies y cómo puedes administrarlas mediante hacer clic en configuración de cookies. Si continúas navegando en este sitio web, significa que aceptas nuestro uso de cookies.
Aceptar Rechazar