Blog > Conocimiento > Poste

Visualizando la progresión del brote de coronavirus

Tuesday, February 18, 2020

Cómo empezar


Primero, empiezo con el web scraping para extraer los datos de la Comisión Nacional de Salud de China y uso Tableau para visualizar espacialmente la progresión del brote. También creo un dashboard donde podríamos alternar fácilmente entre las fechas y las provincias para una mirada más cercana.

Coronavirus ProgressionPor Ashley de Tableau Public

 

 

Descargo de responsabilidad:

Tenga en cuenta que los datos que he recopilado son hasta el 11 de febrero. Al leer este artículo, los datos pueden estar fuera de lugar y no pueden reflejar la situación actual de este brote. Explicaré que hay una manera fácil de mantenerse al día con los datos en vivo más adelante en el artículo. Utilicé web scraping tool para extraer datos en lugar de codificar, ya que puede transmitir los datos a un formato factible sin limpieza de datos.

 

Elija una fuente de datos:


Si busca datos de coronavirus en Google, estoy seguro de que encontrará muchos recursos. Fuentes como Kaggle y WHO  son datos secundarios recopilados por otros que van a la zaga de los últimos datos de la fuente primaria, como el sitio web oficial de salud de China. Si es un analista de datos que tiene estándares estrictos con respecto a la precisión y la oportunidad, debe evitar sacar conclusiones con los datos secundarios. Entonces, ¿qué fuente deberías usar? Los datos primarios son los que eliges. En este punto, elegí  Coronavirus Update Source (la Fuente de actualización de Coronavirus), ya que se guarda como JSON, lo que nos permite transmitir los datos de ciudades individuales a nuestro sistema a través de una tubería API. (Lea esta guía de un archivo JSON

 

JSON scraping_Octoparse

Octoparse web scraping JSON

 

 

Plantilla de Scraping
Otra forma de extraer los datos en vivo es usar una plantilla de scraping como hice en el último artículo. Es una solución simple para las personas que no pueden codificar (vea este video para obtener detalles). Puede configurar un programador de tareas para obtener datos actualizados. Aquí están data que he recopilado y no dude en jugar con ellos.

 

 

Visualización de datos con Tableau


Después de obtener un gran volumen de datos, podemos subirlo a Tableau. Primero creo una capa de mapa simplemente arrastrando la Provincia/Estado a los campos de colocación. Después de eso, agrego series de tiempo y acumulo valores para dar una visión completa de las tendencias de datos en cada provincia. Extraigo la provincia de Hubei, ya que puedo cuidar especialmente su tendencia de datos. El mapa muestra una propagación histórica del coronavirus en los últimos 20 días desde el 22 de enero. A partir del 11 de febrero, el número de infecciones confirmadas solo en Hubei llegó a 33.366.

outbreak

 

Outbreak Progression Hubei VS. Others

 

 

Podemos decir que además de Hubei, este brote también tiene un gran impacto en Guangdong, Zhejiang, Hunan y Henan.

 

Coronavirus Effect

 

Caso reportado en cada provincia

 

Observe que los casos reportados de Hubei son significativamente mayores que todos los demás combinados. Creo un grupo y los divido en dos categorías: Hubei y otros. Para tener una mejor idea de a dónde conduce este brote, también agrego líneas de tendencia para analizar la situación actual. Y puede notar que tanto Hubei como otros comienzan a deslizarse por debajo de la línea de tendencia, lo que indica una tendencia a disminuir en los casos confirmados. Sin embargo, el número de muertos no muestra un cambio positivo ya que los números todavía están por encima de la línea de tendencia.

 

Coronavirus Trendline_Octoparse

 

Casos confirmados de Hubei VS. Otros

 

Coronavirus Death Toll_Octoparse

 

Número de muertos de Hubei VS. Otros

 

 

La tasa de recuperación entre las provincias además de Hubei parece ser una noticia alegre, ya que la línea de tendencia es más rígida con el tiempo, y más lugares se mueven hacia arriba con una indicación de un aumento en el impulso de recuperación. La tasa de recuperación continuará creciendo a medida que las personas ahora están tomando medidas inmediatas para vencer al virus.

 

Coronavirus Recovery _Octoparse

 

 

Pensamientos finales:


Hice una animación, ya que es una excelente manera de comprender el panorama general en el que podemos ver la progresión de este brote. Una vez que visualizamos los datos, se vuelve mucho más fácil de analizar. El mayor desafío en el análisis de datos es la recopilación de datos. Por lo general, invertiría la mayor parte del tiempo en trabajo sin sentido. A menudo, también necesito reparar el formato de datos manualmente. Descubrí que una herramienta de web scraping puede elevar en gran medida la productividad. Sin embargo, no recomendaría abusar y raspar excesivamente ningún sitio web. Esto llevaría a graves consecuencias legales. Consulte este artículo para obtener más información: ¿Es legal el web scraping?

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier pregunta sobre el extracción de datos!

Contáctenos Descargarse