Blog > Big Data > Poste

Guía para Principiantes: Cómo Convertirse en Analista de Datos

Sunday, May 24, 2020

 

Cada día se generan más de 2.5 quintillones (1018) bytes de datos. Dada la gran cantidad de datos, la necesidad de análisis de datos nunca ha sido más clara. Aporta ímpetu a los analistas de datos. Indeed.com informó que la tasa de crecimiento de esta profesión había alcanzado más del 4,000 por ciento. Esta guía le muestra cómo comenzar a familiarizarse con los datos, especialmente para aquellos que desean seguir una carrera en análisis de datos.

 

 

¿Qué es el analista de datos?

El análisis de datos es una parte fundamental de cada industria. Como tal, un analista de datos tiene una amplia trayectoria profesional en diferentes industrias.

 data analyst career path

fuente: PayScale

 

 

Algunas industrias tienen una gran demanda de analistas de datos de la siguiente manera:

Analista de investigación de mercado: realiza investigaciones para analizar el panorama actual del mercado. Recogen comportamientos de consumo, hábitos de compra, etc. Luego estiman la demanda del producto para ayudar a las empresas a optimizar las ventas. El salario inicial es de $51,000 a $65,000.

 

Analista financiero: trabaja con datos financieros para proporcionar modelos y pronósticos. Las industrias de inversión, como la inversión bancaria, dependen en gran medida de los datos para explorar oportunidades de inversión. El salario inicial es de $54,700 a $69,000

 

Analista de negocios: convierte los datos en información comercial accionable. Requiere amplias habilidades en Excel, Power BI y SQL. El salario inicial es de $52,700 a $66,000

 

¿Qué habilidades tecnológicas necesitas para tener éxito?

  1. SQL: El lenguaje de consulta estructurado está diseñado para acceder, administrar y manipular la base de datos. Este es el requisito básico para un analista de datos.
  2. Excel: Para un análisis de datos más ligero y rápido, se requieren habilidades avanzadas de Excel como escribir Macro y búsqueda de VBA.
  3. Programación estadística: R, MATLAB y SAA son lenguajes estadísticos para explorar grandes conjuntos de datos y mostrar en gráficos elegantes para una mejor comprensión.
  4. Visualización de datos: La capacidad de presentar y describir el resultado también es esencial. Herramientas como Power BI y Tableau se consideran herramientas analíticas estándar.

 

 

Además de todo esto, debe crear un grupo de datos que le permita realizar análisis.

El web scraping no puede reemplazar todas las habilidades analíticas, sino complementarlas. La mayoría de las veces, los analistas de datos deben hacer frente a los datos desordenados a menos que conozca una mejor manera de localizar y extraer datos estructurados. Afortunadamente, hay una manera rápida de comenzar usando una herramienta de raspado web como Octoparse. También hay muchas otras opciones. Aquí hay una lista rápida como referencia práctica.

 

Da un ejemplo de scraping

Tomemos un ejemplo para dar sentido al análisis de datos utilizando el web scraping, Excel y Tableau juntos. El objetivo final aquí es examinar la relación entre el PIB per cápita de un país y su tasa de crecimiento de usuarios de Internet.

 

 

 

 

Extracción de Datos

Para hacer esto necesitamos datos de dos datos:

  1. GDP per cápita (https://www.cia.gov/library/publications/the-world-factbook/)
  2. Tasa de crecimiento de usuarios de Internet (https://www.internetworldstats.com/top20.htm)
     

Luego, necesitamos configurar un crawler usando Octoparse para cada sitio web. Te recomiendo que veas este video y aprendas a crear un crawler si aún no lo has probado.

 

Esta es una vista previa del flujo de trabajo completo. Octoparse le permite interactuar con la página web y extraer la información deseada a través de apuntar y hacer clic. El workflow es visual y puede editar mediante arrastrar y soltar.

 

octoparse_workflow

 

fuente: Octoparse

 

 

Después de terminar de configurar el crawler, haga clic en el botón "iniciar extracción". Octoparse trabajará en su magia y obtendrá los datos por usted. La mejor parte es que los datos extraídos están estructurados. Significa que solo se ahorra toneladas de tiempo limpiando los datos como lo haría antes de conocer Octoparse.
 
Para esta extracción, hice una pequeña edición con la herramienta de expresión regular incorporada. Nuevamente, no necesita pasar tiempo escribiendo el Modelo de expresión regular con Javascript.

 

regextool_Octoparse

fuente: Octoparse

 

 

Scrape los datos y los puse en hojas de cálculo, bienvenidos a practicar con ellos.


Excel para buscar los valores

A continuación, necesitamos usar el índice y el formato de coincidencia para unificar y los valores correspondientes de dos hojas de cálculo separadas (tasa de crecimiento de usuarios de Internet y PIB per cápita)

 

ÍNDICE (columna para devolver un valor, MATCH (valor de búsqueda, columna para buscar, 0))


Primero, necesitamos usar el formato Match para buscar el "país" de la Hoja 2 y devolver la posición de la hoja 2

Luego, usamos el formato de Índice para buscar la "posición" y devolver el valor correspondiente de la Hoja 1

worksheet

 

Data1 y Data 2 es el rango de búsqueda que nombré de Sheet1.Esto se debe a que estamos haciendo referencias cruzadas de dos tablas. Es más fácil llamar en lugar de escribir el rango de celdas.

 

formula

 

Con esta fórmula, buscará la posición del país (DATA2) devuelta por la función Match y devolverá el valor correspondiente de GDP_per_capita (DATA1). Después de escribir el formato, arrastre el signo más en la esquina derecha de la celda.

 

 

Visualización de Datos

Una vez que terminemos de hacer coincidir los valores, podremos visualizar los datos. Tableau es fácil de recoger. Simplemente podemos arrastrar los valores deseados al tablero. Se parece a la siguiente tabla.

 

octoparse_data analysis

 

Puedes interpretar el resultado:

Existe una fuerte correlación negativa entre la tasa de crecimiento de Internet% y el PIB per cápita para un país. Eso podría significar que cuanto más rápido aumenten los usuarios de Internet, menor será el PIB per cápita. Tiene sentido ya que los países de alto PIB generalmente están más desarrollados con un espacio limitado para crecer. Mientras que los países de bajo PIB tienen todo el potencial para aumentar la infraestructura de Internet. Por lo tanto, la tasa de crecimiento general de Internet aumenta más rápido que las naciones avanzadas.

 

En conclusión: si planea seguir una carrera en análisis de datos. será mejor que planifique la carrera profesional ya que cada industria tiene una definición única del título del trabajo. A continuación, perfeccionar las habilidades básicas mencionadas anteriormente. Hay abundantes recursos gratuitos disponibles en línea. Además, el web scraping puede ser un punto brillante en su currículum, ya que aumenta significativamente la eficiencia del análisis de datos, ya que le ahorra tiempo desde la recopilación de datos y la limpieza de datos.

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier pregunta sobre el extracción de datos!

Contáctenos Descargarse