undefined
Blog > Colleccíon de datos > Post

Comparación de Python y Herramienta de Web Scraping

Sunday, March 22, 2020

El web scraping se ha convertido en una técnica muy utilizada para recopilar y extraer datos de sitios web. Las personas comienzan a desarrollar o usar una variedad de software diferente para lograr su objetivo. En general, se dividen en 2 facciones: codificación y herramientas. En este artículo, presentaremos una demostración de raspado de Tweets usando Python y Octoparse.

 

Tabla de Contenidos

Scrapear Twitter con Python

Scrapear Twitter con Octoparse: una herramienta gratuita de web scraping

Los pros y los contras de la codificación con Python y Octoparse

 Python vs Herramienta de Web Scraping

 

Scrapear Twitter con Python

Para scrape Twitter con Python, primero tendremos que solicitar una API de Twitter a través de este enlace. Después de solicitar la API, podríamos obtener 4 líneas de código, que son clave API, clave secreta API, token de acceso y secreto de token de acceso (API key, API secret key, Access token, and Access token secre

The results we got after applying for Twitter API

 

Ahora que tenemos la API, podríamos comenzar a construir nuestro rastreador de Twitter. Usaremos dos bibliotecas para construir el rastreador, json y tweepy.


JSON es un paquete integrado que podría aplicarse para manipular datos JSON. Tweepy es un paquete de código abierto para acceder a la API de Twitter. Contiene muchas funciones y clases útiles para manejar diversos detalles de implementación.

Using libraries JASON and tweepy to build the crawler.  

Este flujo de información podría ayudarnos a ejecutar y extraer los tweets. OAuthHandler podría ayudarnos a enviar nuestras claves y secretos a Twitter. StreamListener podría ayudarnos a modificar los campos que necesitamos de cada tweet.

Luego, complete las claves y los secretos que aplicó a través del enlace anterior.

Fill in the keys and secrets we applied through the previous link.

Aquí crearemos una clase heredada de StreamListener para modificar qué tipo de campos necesitamos scrape de Twitter. Podríamos scrape información como tweets, ubicación, nombre de usuario, identificación de usuario, conteo de seguidores, conteo de amigos, conteo de favoritos y zona horaria. parte de la información, como tweets, nombre de usuario, zona horaria, habría palabras en otros idiomas, por lo tanto, deberíamos considerar usar otra codificación de caracteres como UTF-8 en lugar de la codificación de caracteres Unicode predeterminada.

Modify what kind of fields we need to scrape from Twitter.

Luego, podríamos enviar nuestra clave y secreto usando OAuthHandler que llamamos desde Tweepy.

Submit our key and secret using OAuthHandler

Ahora solo necesitamos unos pocos pasos más para ejecutar y extraer la información. Aquí buscaremos todos los tweets relacionados con la palabra clave "Big data" y comenzaremos nuestra extracción con Stream.

datos de tweets

Cada línea de datos es información de un tweet. Los diferentes campos están separados por dos punto y coma ";". El primer campo es el nombre de usuario, el segundo campo es la ubicación y el último campo es el tweet. Podríamos escribir los datos en una hoja de cálculo y establecer el delimitador como ";;" para separar los campos O podríamos aplicar otras bibliotecas como pandasnumpy y re para organizar aún más los datos.

 

Scrapear Twitter con Octoparse: una herramienta gratuita de web scraping

A diferencia del raspado con Python, no necesitamos comenzar a solicitar la API, simplemente ingresando la URL en Octoparse servirá.

  • Haga clic en "+ Tarea" para iniciar una tarea usando el Advanced Mode (Modo avanzado)
  • Pegue la URL en el cuadro "Sitio web" y haga clic en "Guardar URL" para continuar

Open the target website in Octoparse.

  • Para cargar completamente los listados aquí, necesitamos desplazar la página hacia abajo de manera continua. Así que configuraremos "Desplazar hacia abajo" para el botón Ir a la página web:
  • Marque la casilla "Desplácese hacia abajo hasta la parte inferior de la página cuando termine de cargar"
  • Establezca "Tiempos de desplazamiento" como "20" e "Intervalo" como "3" segundos (Esto es para demostración, y puede establecer los números según sus necesidades)
  • Seleccione "Desplazarse hacia abajo hasta la parte inferior de la página" como "Desplazamiento" y haga clic en el botón "Aceptar"

 

"Intervalo" es el intervalo de tiempo entre cada dos pergaminos. Teóricamente, cuanto mayor sea el número que ingresamos para "Tiempos de desplazar”, más datos podemos extraer.

Set up scroll down for the Go To Web Page button.

  • Haga clic en el primer elemento de la página de listado

Click on the first item of the listing page.

  • Haga clic en el segundo elemento.

 elementos

Los "Consejos de acción" ahora dicen "21 elementos seleccionados", por lo que podemos seleccionar "Extraer texto de los elementos seleccionados".

 extraer datos

Luego, se generará automáticamente un "Elemento de bucle" y se agregará al flujo de trabajo. De forma predeterminada, Octoparse extrae automáticamente del elemento seleccionado, también podemos eliminarlo y agregar los campos de datos que necesitamos.Delete the unwanted data fields.

Ahora, puede comenzar a pedir sus platos.

pedir datos

Después de eso, podemos cambiar el nombre del campo de datos e iniciar la extracción.

Rename the data field and start the extraction.

Esta es una muestra de los datos extraídos:

Sample output of the extracted data.

 

Según la demostración anterior, ahora podemos concluir los pros y los contras de la codificación con Python y Octoparse.

1. Costo de aprendizaje: Octoparse tiene un costo de aprendizaje más bajo en comparación con Python. Para crear un rastreador con Python, no solo debe estar familiarizado con diferentes bibliotecas y técnicas de codificación, sino también comprender bien la estructura web y reconocer las técnicas de anti-scraping. Sin embargo, en Octoparse, los desarrolladores ya han considerado todo tipo de situaciones para usted y todo lo que necesita es hacer varios clics y todos los datos están listos.
 
2. Establecimiento rápido: De la demostración anterior, parece que ambos métodos son simples y fáciles de usar. Sin embargo, el proceso que lleva más tiempo no es construir el rastreador. En realidad, es cuando se realiza un análisis inicial en los sitios web antes de comenzar a construir el rastreador. Diferentes sitios web aplican diferentes métodos de desarrollo y técnicas anti-scraping. Necesitaremos más tiempo para analizar sitios web si elegimos codificar y obtener los datos. Sin embargo, los desarrolladores de Octoparse ya han considerado la mayoría de las situaciones y simplemente puede obtener acceso a sus datos sin analizar los sitios web.

3.Flexibilidad: Python tiene mejor flexibilidad que Octoparse. Podríamos manipular el comportamiento de nuestros rastreadores simplemente cambiando algunos de los códigos. E incluso podríamos importar algunas bibliotecas potentes o API para acceder a los datos con solo varios códigos. Incluso algunas de las técnicas anti-scraping más difíciles, como Captcha or reCaptcha, podrían resolverse ahora con algunos métodos de aprendizaje profundo utilizando Python.

Honestamente, Python y Octoparse tienen sus puntos fuertes. Octoparse es más adecuado para personas sin habilidades de codificación, mientras que Python podría proporcionar una gran flexibilidad para los expertos. Si cree que sería difícil aprender tal codificación de Python, ¡contáctenos! Octoparse podría proporcionar un servicio de datos y ayudarlo a extraer datos con solo varios clics.

¡No dude en contactarnos cuando necesite una poderosa herramienta de raspado web para su negocio o proyecto!

Guía-descargar

Recursos relacionados

9 Desafíos de Web Scraping que Debes Conocer

Cómo Scrapear Datos de una Web a Gran Escala

9 Raspadores Web GRATIS que No Te Puedes Perder en 2021

25 Maneras de Web Scraping Técnicas para Crecer Negocio

10 Malentendidos sobre el Web Scraping

20 Herramientas de Web Scraping para Extraer Datos Rápidamente

¡Descarga Octoparse para comenzar con el web scraping o contáctanos para cualquier
pregunta sobre el web scraping!

Contactarnos Descargar
Usamos cookies para mejorar tu experiencia de navegación. Lee sobre cómo usamos las cookies y cómo puedes controlarlas haciendo clic en la configuración de cookies. Si continúas utilizando este sitio, acepta nuestro uso de cookies.
Aceptar Rechazar