undefined
Blog > Colleccíon de datos > Post

Herramientas para Análisis de Sentimientos de Twitter

Monday, January 18, 2021

En este artículo, quiero compartir cómo rastrear Twitter a través de la API o con un rastreador web y manejar los datos para el análisis de sentimientos.

 

#Paso1: Cómo Recopilar Datos de Twitter

Cuando hablamos de Análisis de Sentimientos, lo primero que nos viene a la mente es dónde y cómo podemos scrapear océanos de datos.

Tomemos como ejemplo uno de los sitios web de redes sociales más populares, Twitter. Hay varios métodos con los que podemos scrapear datos de Twitter - Crear un rastreador web por nuestra cuenta mediante programación o elegir un rastreador web automatizado, como Octoparse, Import.io, etc. También podemos utilizar las API públicas proporcionadas por ciertos sitios web para obtener acceso a su conjunto de datos.

 

 

Extraer los datos con API

Primero, se sabe que Twitter proporciona API públicas para que los desarrolladores lean y escriban tweets cómodamente. La API REST identifica las aplicaciones y los usuarios de Twitter utilizando OAuth. Por lo tanto, podemos utilizar las API REST de Twitter para obtener los tweets más recientes y populares.

Twitter4j se importa para scrapear datos de Twitter a través de la API REST de Twitter. Los datos de Twitter se pueden scrapear según un intervalo de tiempo específico, una ubicación u otros campos de datos. Los datos rastreados se devolverán en formato JSON. Ten en cuenta que los desarrolladores de aplicaciones deben generar cuentas de aplicaciones de Twitter para obtener el acceso autorizado a la API de Twitter.

Mediante el uso de un específico Token de Acceso, la aplicación realizó una solicitud al POST OAuth2 para intercambiar credenciales para que los usuarios puedan obtener acceso autenticado a la API REST. Este mecanismo nos permite extraer información de los usuarios del recurso de datos. Luego, podemos usar la función de búsqueda para rastrear estos tweets estructurados relacionados con temas universitarios.

Luego, generé un conjunto de consultas para rastrear tweets, que se muestra en la siguiente figura. Recopilé datos del ranking universitario de USNews 2016, que incluye 244 universidades y sus rankings. Luego, personalicé los campos de datos que necesito usar para rastrear tweets en formato JSON.

 

                                                     

 

                                                                                                  

En este caso, extraje 462,413 tweets en total. El número de tweets de la mayoría de las universidades rastreados es inferior a 2000.

                       

Extraer los datos con una herramienta de web scraping

API may not be familiar to everyone and could be tricky for someone without any coding skills. For your reference, I’d like to propose an automated web crawler tools that can help you crawl websites without any coding skills, like Octoparse

Es posible que la API no sea familiar para todos y podría ser complicada para alguien sin conocimientos de codificación. Para tu referencia, me gustaría proponer herramientas de rastreador web automatizadas que pueden ayudarte a rastrear sitios web sin conocimientos de codificación, como Octoparse.

Si necesitas ayuda para recopilar datos de Twitter con Octoparse:

> Experiencia de scraping compartida por nuestros usuarios

> Scraping Twitter Use Guide

                

 

 

 

#Paso2: Twitter Análisis de Sentimiento 

Volvamos al Ranking Universitario de mi aplicación diseñada. La tecnología de clasificación en mi aplicación es analizar los tweets rastreados de Twitter y luego clasificar los tweets relacionados de acuerdo con su relevancia para una universidad específica. Quiero filtrar los tweets altamente relacionados (topK) para hacer el Análisis de sentimiento, lo que evitará tweets triviales que hacen que nuestros resultados sean inexactos.

Puedes clasificarlos según la similitud de TF-IDF, el resumen de texto, los factores espaciales y temporales, o puede elegir el método de clasificación de aprendizaje automático. Incluso Twitter proporciona un método basado en el tiempo o la popularidad. Sin embargo, necesitamos un método más avanzado que pueda filtrar la mayor parte del spam y los tweets triviales.

 

Para medir la confianza y la popularidad de un tweet, utilizo las siguientes funciones de los tweets: número de retweets, número de seguidores y número de amigos. Suponiendo que un usuario de confianza debe publicar un tweet de confianza. Y un usuario de confianza debe tener suficientes amigos y seguidores, entonces un tweet popular debe tener un alto número de retweets.

Construyo un modelo que combina confianza y popularidad (TP Score) para un tweet. Luego clasifico esos tweets según la puntuación TP. Ten en cuenta que las noticias de informes suelen tener una gran cantidad de retweet, y este tipo de puntuación será inútil para nuestro Análisis de Sentimiento. Por lo tanto, asigné un peso relativamente menor a esta parte al calcular la puntuación TP. La fórmula diseñada se muestra a continuación. Los tweets que rastreamos se filtran por palabras de consulta y tiempo de publicación. Todo lo que necesitamos es considerar el número de retweets, el número de seguidores y el número de amigos.

                                       

Hago el ranking universitario de acuerdo con la reputación pública que está representada por la puntuación de sentimiento. Sin embargo, la reputación pública es solo uno de los factores que deben tenerse en cuenta al evaluar una universidad. Por lo tanto, quiero presentar una clasificación general que combina tanto la clasificación comercial como nuestra clasificación.

Hay tres tipos principales de textos de tweets:

 

                                             

 

Puntuación de Sentimiento: la Puntuación de Sentimiento se calcula para la reputación pública. La tasa positiva de cada universidad se utilizó como puntaje de sentimiento para el ranking de reputación pública. La siguiente fórmula define la tasa positiva. Ten en cuenta que la polaridad negativa no se considera ya que es igual a cero.

                                                                         

Donde n es el número total de tweets de cada universidad; Y representa la polaridad positiva de un tweet, 4.

Después de completar el Análisis de Sentimiento, procedería a crear un clasificador para el Análisis de Sentimiento utilizando un algoritmo de aprendizaje automático. Hablaré del clasificador de Máxima Entropía más adelante en otro artículo.

 Contact us

 

 

Recursos relacionados

 How to Extract Data from Twitter Without Coding

Top 5 Social Media Scraping Tools for 2020

Scrape video information from YouTube

Scrape public posts from Facebook

 

¡Descarga Octoparse para comenzar con el web scraping o contáctanos para cualquier
pregunta sobre el web scraping!

Contactarnos Descargar
Usamos cookies para mejorar tu experiencia de navegación. Lee sobre cómo usamos las cookies y cómo puedes controlarlas haciendo clic en la configuración de cookies. Si continúas utilizando este sitio, acepta nuestro uso de cookies.
Aceptar Rechazar