Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Scrape los tweets de Twitter

Friday, February 28, 2020

Con Octoparse, puede extraer fácilmente cualquier dato de los sitios web de redes sociales, las principales noticias, los temas de actualidad, las tendencias mundiales y mucho más. En este tutorial, te mostraré cómo extraer datos de Twitter. Puede raspar cualquier dato que sea visible en la página web sin codificación. Si está interesado en adquirir datos de estos sitios web de redes sociales como Twitter, consulte este web

 

También disponible:


 

 Comencemos con los pasos principales de este tutorial. [Descargar archivo de tarea de ejemplo ]

 

1) "Ir a la página web" - para abrir el sitio web de destino

2) Use el desplazamiento hacia abajo - para obtener más datos de la página listada

3) Crear un "elemento de bucle" - para extraer en bucle cada tweet 

4) Establecer expresión regular - para limpiar y reformatear datos si es necesario (Opcional)

5) Inicie la extracción de datos - ejecutar su tarea y exportar dato

 

 

 

1) "Ir a la página web" - para abrir el sitio web de destino

      · Pegue la URL de destino(https://twitter.com/search?q=news&src=typd&lang=en) en el cuadro "Extracción de URL" y guárdela.

 

 

¡Consejos!

 

     Tenga en cuenta que este sitio web es la página de noticias de Twitter sin iniciar sesión. Si desea extraer datos detrás de un inicio de sesión, consulte el tutorial correspondiente. 

 

 

 

2) Use el desplazamiento hacia abajo - para obtener más datos de la página lista

 

      · Seleccione las opciones "Desplazarse hacia abajo" en "Opciones avanzadas".

      · Establezca ""Scroll times" e "Intervalo" que necesita.

      · Seleccione "Desplazarse hacia abajo para una pantalla" como "Modo de desplazamiento" y haga clic en el botón "OK".

 

¡Consejos!

 

      · La mayoría de los sitios web de redes sociales usan desplazamiento hacia abajo para actualizar para ver más datos. Aprenda detalles sobre cómo lidiar con el voluta infinite. 

      · Sugerimos establecer un valor relativamente más alto de "Scroll Times" si necesita más datos.

 

 

 

3) Crear un "elemento de bucle" - para extraer en bucle cada tweet

 

      · Haga clic en los datos que desee en la página web, luego el área seleccionada se resaltará en verde.

      · Haga clic en "Seleccionar todo" y seleccione "Extraer texto de los elementos seleccionados" en el panel "Consejos de acción".

      · Cambie el nombre de la columna "Nombre del campo" si es necesario.

 

 

 

 

4) Use Expresión regular - para limpiar y reformatear datos si es necesario

 

Regular Expression tiene como objetivo reformatear los datos después de la extracción de datos en Octoparse. Por ejemplo, si desea eliminar palabras como "Responder", "Retweet" y "Me gusta" en este caso, puede usar Expresión regular para obtener el valor de dígito específico recortando las cadenas. Si el resultado ya satisface sus necesidades, puede omitir este paso.

 

      · Seleccione la fila "Responder", haga clic "Personalizar campo de datos", seleccione la opción "Refinar datos extraídos" y haga clic en el botón "Agregar paso".

      · Haga clic en "Reemplazar" y pegue la "Reply ***" con todos los valores de espacio de los datos de extracción "Reply 856" en el cuadro "Reemplazar".

      · Haga clic en el botón "OK".

 

¡Consejos!

 

      · El valor que ingrese en el cuadro "Reemplazar" debe copiarse con todos los valores de espacio originales. En este paso, *** solo representa el valor espacial.

      · También puede reformatear valores en filas "Retweet" y "Like" como este paso si es necesario.

        Lea más sobre 8 opciones de reformateo de datos   

 

 

5) Inicie la extracción de datos - para ejecutar su tarea y obtener datos

      · Seleccione "Iniciar extracción" y "Extracción local".

      ·Seleccione "Exportar" para obtener todos los datos que desee.

 

 


Artículos relacionados:

Extraer detrás de un inicio de sesión 

Carga con voluta infinite 

Formatear datos extraídos 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse