Scrapear post de LinkedIn
Actualizado hace más de una semana

LinkedIn es un buen recurso para obtener información de diferentes empresas. En este tutorial, te mostraremos cómo scrapear las publicaciones de LinkedIn.com.

Para continuar, necesitarás utilizar esta URL en el tutorial:

Antes de eso, asegúrate de haber descargado nuestra última versión 8.1 (consulta esta guía para descargar News: Octoparse 8.1 Beta Released! ). LinkedIn ya no es compatible con Octoparse 7.3.0.

Estos son los pasos principales de este tutorial: [Descargar archivo de tareas here]

1. Ir a la página web" - abrir la página web de destino

  • Ingresa la URL en la barra de búsqueda

  • Haz clic en "Inicio" para abrir una nueva tarea.

mceclip0.png

2. Iniciar sesión en el sitio web

LinkedIn requiere que las personas inicien sesión antes de acceder a los datos que queremos. En este caso tutorial, usaremos la forma "guardar cookies" para la demostración.

  • Habilita "Detectar datos de páginas web automáticamente" para ayudarte a configurar la tarea.

mceclip2.png
  • Después de la detección, elige "¿No es la página web correcta?"

  • Luego, elige "Iniciar sesión en el sitio web"

mceclip5.png

Después de hacer clic en "Iniciar sesión en el sitio web", ahora te encuentras en el "Modo de navegación". Puedes navegar por la página como en tu navegador habitual. Las acciones que realices no se generarán en los pasos del flujo de trabajo de la tarea.

Dado que la página es una página de registro, debes hacer clic en "Iniciar sesión" para ir a la página de inicio de sesión (puedes omitirla si ya estás en la página de inicio de sesión).

mceclip6.png
mceclip8.png

Verás un aviso en la parte superior que dice "Cookies guardadas".

mceclip10.png

Luego, puedes continuar para scrapear los datos que necesitas.

Tips!

Octoparse tiene diferentes formas de tratar los datos detrás del inicio de sesión. Puedes explorar más en este tutorial para agregar pasos de inicio de sesión al flujo de trabajo: Extraer datos después del inicio de sesión

.

3. Detectar automáticamente los datos de la página web - crear un flujo de trabajo de tareas básico

Puedes continuar con la función "Detectar automáticamente datos de páginas web" en el panel de Tips.

  • Haz clic en "Detectar automáticamente datos de páginas web".

  • Espera hasta que se complete la detección automática (puede tardar un poco más ya que esta página aplica un desplazamiento infinitivo hacia abajo para cargar)

mceclip11.png
  • Haz clic en "Editar" debajo de "Agregar un desplazamiento de página" para ver si necesitas ajustar los tiempos de desplazamiento de la página.

2.png
  • Ve a "Vista previa de datos" para ver si estás de acuerdo con la muestra de datos actual

    • Puedes eliminar los campos de datos innecesarios directamente haciendo clic en el icono

      mceclip13.png
    • También puedes modificar los nombres de los campos de datos aquí directamente haciendo clic en el icono

      mceclip14.png
2.3.png
  • Si estás de acuerdo con la vista previa de datos actual, haz clic en "Crear flujo de trabajo"

2.4.png

Luego, verás un flujo de trabajo generado como se muestra a continuación.

mceclip15.png

Tips!

El desplazamiento de página se ha aplicado ampliamente en diferentes sitios web. Para tratar con este tipo de sitios web, puedes utilizar la función "Detectar automáticamente" para ayudar o configurar el desplazamiento de la página por tu cuenta haciendo doble clic en el paso "Ir a la página web" en el flujo de trabajo.

Consulta los detalles en los siguientes tutoriales:

4. Extraer datos - selecciona los datos que necesitas scrapear (opcional)

Ahora, el flujo de trabajo está casi terminado. Podemos comprobar los datos que hemos extraído con "Detectar automáticamente" y ver si necesitas agregar algunos otros campos.

  • Haz doble clic en "Extraer datos" en el flujo de trabajo para verificar los detalles

    • Si quieres modificar los nombres de los campos, simplemente haz clic en los nombres de los campos para editar

3.1.png
    • Si quieres capturar otros datos en la página web, puedes hacer clic en los elementos dentro del área resaltada en rojo y luego elegir "Extraer el texto del elemento seleccionado".

mceclip2x2.png

Si necesitas agregar algunos campos como "Hora actual" o "Página_URL actual", haz clic en el icono "+" para agregar desde la lista

mceclip3.png

Tips!

Para saber más sobre cómo tratar con "Extraer datos", consulta las siguientes guías:

5. Ejecutar la tarea para obtener los datos que necesitas

  • Haz clic en el botón "Guardar"

  • Haz clic en el botón "Ejecutar" y luego selecciona "Ejecutar tarea en tu dispositivo"

mceclip4.png

Aquí tienes una muestra de datos.

mceclip5x2.png

Nota:

Para LinkedIn, solo se puede ejecutar en tu dispositivo local. No se puede ejecutar en la nube debido a la configuración anti-raspado de LinkedIn.

¿Ha quedado contestada tu pregunta?