Resource
Tutoriales paso a paso para ayudarlo a comenzar con el web scraping
Descargar OctoparseEn este tutorial, le mostraremos cómo scrape datos de bienes raíces de Kijiji como ejemplo.
Además, puede ir a "Task Templates" en la pantalla principal de la herramienta de scraping Octoparse, y comenzar con la ready-to-use Plantilla inmobiliaria Kijiji para usar directamente para ahorrar tiempo. Con esta característica, no hay necesidad de configurar tareas de raspado. Solo necesita ingresar la URL de la página de resultados de búsqueda. Para más detalles, puede consultarlo aquí: Task Templates
Para continuar, es posible que desee utilizar esta URL en el tutorial:
https://www.kijiji.ca/b-real-estate/guelph/c34l1700242
Recogeremos datos como Ad-ID, título y precio de cada página de propiedades con Octoparse.
Este tutorial también cubrirá:
¡Consejos! Se recomienda que use la URL de la página de resultados de búsqueda directamente siempre que sea posible. Agregar palabras clave/filtros dentro de Octoparse puede complicar la tarea y conducir a un raspado menos eficiente. |
Estos son los pasos principales de este tutorial: [Descargue el archivo de tarea aquí ]
1. Ir a la página web - abra la página web de destino
Advanced Mode es un modo de web scraping altamente flexible y potente. Para las personas que desean scrape de sitios web con estructuras complejas, como kijiji.com, recomendamos el Modo Avanzado para comenzar su proyecto de extracción de datos.
2. Cree un ciclo de paginación - scrape todos los detalles de varias páginas
Para permitir que Octoparse cargue esta página web por completo, necesitamos configurar "Scroll Down" para que Octoparse se desplace automáticamente hacia abajo después de la paginación.
"Intervalo" es el intervalo de tiempo entre cada dos pergaminos. En este caso, vamos a establecer "Intervalo" como "2" segundos.
En este caso, configuramos "Scroll Down" por "12" veces y seleccionamos "Scroll down for one screen" como ejemplo.
Puede encontrar que "Click to paginate" no siempre puede ubicar el botón "Next" correctamente. En este caso, debe revisar la XPath del botón "Next".
¡Consejos! Si desea obtener más información sobre AJAX, aquí hay algunos tutoriales relacionados que puede necesitar: |
3. Crear un "Loop Item" - haga clic en cada elemento de cada lista
4. Extraer datos - seleccione los datos para la extracción
5. Personalice el campo de datos modificando XPath - mejore la precisión de los datos extraídos (Opcional)
En este caso, debemos modificar XPath para ubicar correctamente los elementos "Price" e "Ad ID".
¡Consejos! Si desea obtener más información sobre XPath y cómo generarlo, aquí hay algunos tutoriales relacionados que puede necesitar: |
6. Inicie la extracción - ejecute la tarea y obtenga datos
Para un usuario premium, Cloud Extraction es muy recomendable.
Aquí está la muestra para su información.
Artículos Relacionados:
Recopilar información de la propiedad de Daft.ie
Scrape los datos inmobiliarios en Realtor.com
¿Te resultó útil este artículo ¡Contáctenos en cualquier momento si necesita nuestra ayuda!
¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!
Company
Producto
Recurso
Company
Product
Recurso