Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Scraping post de LinkedIn

Thursday, July 23, 2020

En este tutorial, le mostraremos cómo scrape las publicaciones de LinkedIn.com.

Para continuar, es posible que desee utilizar esta URL en el tutorial:

https://www.linkedin.com/search/results/content/?keywords=octoparse&origin=SWITCH_SEARCH_VERTICAL

 

 

Estos son los pasos principales de este tutorial: [Descargue el task file aquí ]

  1. "Ir a la página web " - abre la página web de destino
  2. Lidiando con el desplazamiento infinitivo
  3. Crear un "Loop Item" - bucle extraer cada publicación
  4. Extract data – select the data you need to scrape
  5. Start data extraction – run your task and get data

 

 

1. "Ir a la página web " - abre la página web de destino

  • Haga clic en "+ Tarea" para comenzar una nueva tarea con "Modo Avanzado"
  • Pegue la URL en el cuadro "Input URL"
  • Haga clic en "Guardar URL" para continuar

Este sitio web requiere que iniciemos sesión primero, por lo que debemos ingresar nuestro nombre de usuario y contraseña para iniciar sesión antes de acceder a los datos que queremos. Consulte los detalles en este tutorial: Extraiga datos detrás de un inicio de sesiónexternal-link-symbol-1.png

¡Consejos!

Modo Avanzado es un modo de web scraping altamente flexible y potente. Para las personas que desean scrape de sitios web con estructuras complejas, como Amazon.com, recomendamos el Modo avanzado para comenzar su proyecto de extracción de datos.

 

2. Lidiando con el desplazamiento infinitivo

En este caso, la paginación no es una opción para cargar contenido, necesitaremos desplazarnos hacia la parte inferior de la página continuamente para cargar completamente todo el contenido.

  • Seleccione "Desplazarse hacia abajo hasta la parte inferior de la página cuando termine de cargar" en "Opciones Avanzadas"
  • Establezca "Scroll times" e "Internal" que necesita
  • Seleccione "Desplazarse hacia abajo hasta la parte inferior de la página" como "Modo de desplazamiento"
  • Haga clic en "OK" para guardar

¡Consejos!

1. Asegúrese de ingresar "Scroll times", de lo contrario, Octoparse no realizaría la acción de "scroll down". Sugerimos que sea mejor establecer un valor relativamente más alto de "Scroll times" si necesita más datos.

2. La mayoría de los sitios web de redes sociales usan desplazamiento hacia abajo para actualizar para ver más datos, haga clic aquí para obtener más información sobre cómo lidiar con el desplazamiento infinito.

 

 

3. Crear un "Loop Item" - bucle extraer cada publicación

  • Scroll down y seleccione la 1st publicación en el navegador incorporado

Necesitamos asegurarnos de que todo el bloque de la primera publicación esté cubierto de azul cuando clic tu mouse. Solo de esta manera, podríamos ver que todo el bloque de publicaciones se resalta en verde después de hacer clic, cubriendo toda otra información como autor, título, contenido ... etc.

  • Haz clic en la segunda publicación completa

Octoparse reconocerá automáticamente los otros bloques similares y los resaltará en verde

  • Haga clic en "Extraer texto del elemento seleccionado" en el panel "Action Tips"

 

¡Consejos!

Normalmente podemos hacer clic en "Seleccionar todos los subelementos" en el panel "Consejos de Acción", pero en ciertas circunstancias (como este caso), Octoparse no puede generar la opción. Por lo tanto, podemos crear un bucle al principio y seleccionar los datos de cada publicación para extraerlos manualmente en el siguiente paso.

 

4. Extraer datos - seleccione los datos que necesita scrape

  • Seleccione los campos de datos no deseados.
  • Haga clic en el icono de "Eliminar campo de datos"
  • Haga clic en "Sí"
  • Haga clic en los datos que necesita en el primer bloque de elementos para scrape.
  • Seleccione "Extraer texto del elemento seleccionado" en el panel "Consejos de acción"
  • Cambie el nombre de la columna "Field name" de la lista de nombres predefinidos

 

¡Consejos!

¿Cómo podemos verificar si el xpath of Loop item es correcto?

Octoparse generará automáticamente la XPath del elemento del bucle. Dado que el diseño de esta página web es bastante simple, el XPath debe ser correcto. Pero aún así, podemos confirmarlo desplazándonos hacia abajo en la página para cargar más contenido, y luego verificar si los números de elementos en el ciclo están aumentando.

Como podemos ver, cuando nos desplazamos hacia abajo en la página manualmente, las publicaciones recién cargadas se pueden ubicar con éxito en el bucle.

Si desea obtener más información sobre XPath y cómo generarlo, aquí hay algunos tutoriales relacionados que puede necesitar

 

5. Inicie la extracción - ejecute su tarea y obtenga datos

  • Clic en Guardar"
  • Haga clic en "Iniciar Extracción" en el lado superior izquierdo
  • Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Cloud Extracción" para ejecutar la tarea en la nube (solo para usuarios premium)

Para un usuario premium, Cloud Extraction  es muy recomendable.

 

A continuación se muestra la muestra de salida

 

 

 

Artículos elacionados:

Scrape los datos del trabajo de Glassdoorexternal-link-symbol-1.png

Scrape la información del trabajo de indeedexternal-link-symbol-1.png

Scrape La Información de Craigslistexternal-link-symbol-1.png

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse