Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Scrape datos en Instagram

Tuesday, February 18, 2020

En este tutorial, vamos a extraer datos de Instagram, incluido el contenido de la publicación, la fecha, la URL de la imagen, el número de me gusta y la ubicación.

 

Para continuar, es posible que desee utilizar esta URL en el tutorial:

https://www.instagram.com/izkiz/

También disponible:

 

Estos son los pasos principales de este tutorial:[Descargue el archivo de tarea de demostración aquí ]

1)"Ir a la página web" - para abrir la página web objetivo

2) Crear un ciclo de paginación - para scrape datos de múltiples publicaciones

3) Extraer datos - para seleccionar los datos de extracción

4) Personalice el campo de datos usando la herramienta RegEx - para revisar el nombre del campo (Opcional)

5) Guardar e iniciar extracción: para ejecutar la tarea y obtener datos 

 

 

 

1) "Ir a la página web" - para abrir la página web objetivo

· Crea la tarea con el "Modo avanzado".

· Pegue la URL en el cuadro "URL de extracción" y haga clic en "Guardar URL" para continuar

· Cambiar el navegador incorporado predeterminado

 

 

El navegador integrado predeterminado de Octoparse 7 es incompatible con Instagram. Para que nuestra página de destino se cargue normalmente, necesitamos modificar la configuración del navegador.

· Haga clic en "Configuración"

 

 

Si usa Octoparse 7.0.2, guarde la tarea antes de modificar la configuración

· Cambie el navegador incorporado predeterminado a Firefox 45.0.

· Haga clic en "Guardar" para aplicar la configuración modificada

  

 

 

 

2)  Crear un bucle de paginación - para scrape datos de múltiples publicaciones

Podemos usar el botón ">" como el botón "Página siguiente" para ir a la siguiente artículo. Antes de crear el ciclo de paginación, debemos volver a la primera publicación.

 

· Haga clic en la primera artículo y haga clic en la etiqueta "A" en la parte inferior de "Consejos de acción"

Cuando selecciona un elemento con URL, la etiqueta seleccionada sería "A". Normalmente no hay necesidad de modificar, ya que Octoparse identifica automáticamente las etiquetas de los elementos seleccionados. Pero para este caso, necesitamos revisar la etiqueta en la parte inferior de "Consejos de acción".

 

· Seleccione "Haga clic en el enlace"

 

Tenemos la primera artículo abierta ahora. Sin embargo, a medida que Instagram carga el contenido con AJAX, debemos configurar AJAX Load para la acción "Hacer clic en elemento".

· Desmarque "Reintento automático cuando no hay respuesta"

· Marque "Cargar la página con AJAX"

· Configurar "AJAX Timeout”

 

 

Ahora, podemos crear la "Paginación”

· Haga clic en el botón ">"

· Haga clic en "Bucle haga clic en la página siguiente" en los "Consejos de acción"

 

 

Instagram usa AJAX en el botón ">", por lo que también necesitamos configurar AJAX Load para la acción "Hacer clic para paginar".

· Haga clic en "Cargar la página con AJAX" en la "Acción personalizada"

· Configurar "Tiempo de espera AJAX"

 

¡Consejos!

Para obtener más información sobre cómo tratar con AJAX en Octoparse por favor refiérase a Deal with AJAX .

 

 

 

3)  Extraer datos - para seleccionar los datos para la extracción

Ahora estamos en la segunda artículo. Al crear un "Elemento de bucle", siempre debemos comenzar con el primer elemento en la primera página. En este caso, deberíamos volver a la primera artículo.

· Haga clic en "Ir a la página web" en el flujo de trabajo

· Haga clic en "Hacer clic en elemento"

 

 

Octoparse abriría el primer artículo .

· Haga clic en el bucle de paginación en el flujo de trabajo

Al hacer esto, podemos ayudar a Octoparse a decidir el orden de ejecución y generar el paso "Extraer datos" en la posición adecuada en el flujo de trabajo.

 

 

Ahora, comencemos a extraer datos.

· Seleccione los datos que desea

· Haga clic en "extraer datos" en los "Consejos de acción"

 

¡Consejos!

Para obtener más información sobre cómo ajustar el flujo de trabajo, consulte Conocer Octoparse .

 

 

 

4) Personalizar el campo de datos - para revisar el nombre del campo (Opcional)

· Revisar el nombre del campo

Escribir o seleccionar entre las opciones predefinidas. 

 

 

 

 

 

 

 

5) Guardar e iniciar extracción: para ejecutar la tarea y obtener datos

· Haga clic en "Iniciar extracción"

· Seleccione "Extracción local" para comenzar la ejecución.

 

A continuación se muestra la salida:

 

 

¿Te resultó útil este artículo? Contact us  en cualquier momento si necesita nuestra ayuda!

 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse