Blog > Conocimiento > Poste

Web Scraping: Cómo obtener Coronavirus (COVID-19) Datos

Tuesday, May 19, 2020

Desde el estallido del nuevo coronavirus contagioso en el aire, la vida de millones de personas se ha visto afectada y las noticias relevantes han explotado en todas las plataformas.

En esta situación, pensamos que sería necesario recopilar datos en tiempo real de fuentes oficiales y no oficiales para que el público pueda tener una comprensión imparcial de este brote de epidemia con fuentes de datos transparentes.

 

 

Para obtener datos de estas fuentes, puede aprovechar las herramientas de web scraping como Octoparse, ya que hemos creado web scraping templates para extraer datos sobre el informe del gobierno de China. Esto puede mantenerlo actualizado con la información más reciente. Ahora echemos un vistazo a cómo usar la plantilla para extraer datos en vivo.

Paso 1: Inicie Octoparse en su computadora y cree una tarea de scraping haciendo clic en "Task Template".

 

task template

 

 

Aviso: Hay un número de "recetas" de scraping que van desde sitios web de comercio electrónico hasta canales de redes sociales. Estos son rastreadores preformateados que se pueden usar para extraer datos de sitios web de destino directamente. Puede consultar este artículo para tener una mejor idea de qué es una plantilla de web scraping.

Paso 2: En la categoría "Tiempo Real", elija "comisión nacional de salud".

 

national health commision templates

 

 

Verás dos plantillas. Una es para extraer noticias y anuncios del gobierno. El otro es el website de noticias Tencent, que está directamente conectado con la Comisión de Salud central y local de China. Hasta ahora, este es el método más rápido para obtener datos en vivo, incluidos los casos confirmados, la recuperación, el número de muertos y la tasa de mortalidad en cada ciudad de China.

 

tencent news coronavirus real time data

 

 

Paso 3: Haga clic en "datos en tiempo real 2019-nCov", ya que queremos recopilar datos en vivo.

No hay necesidad de configuración. Simplemente inicie la extracción y Octoparse automáticamente raspará los datos a gusto. Puede exportar los datos a muchos formatos, como Excel, JSON, CSV, y a su propia base de datos a través de API. Así es como se ve la salida de datos en Excel.


sample coronavirus data

 

También puede extraer información en tiempo real en los canales de redes sociales. Hay plantillas que cubren plataformas populares como Facebook, Twitter, Instagram y YouTube.


Por ejemplo, si desea extraer los últimos tweets sobre el virus y ver cómo reaccionan las personas, puede aprovechar la plantilla de "últimos tweets". Está diseñado para recopilar los últimos tweets que contienen la palabra clave de búsqueda que ingresó. Le permite extraer web page URL, tweet URL, los controladores, posts, etc.


twitter template

 

Ahora ejecutemos esta plantilla.

Paso 1: Abra Twitter, escriba "coronavirus" y haga clic en la pestaña "más reciente".Copie la URL y péguela en el primer parámetro.

 

twitte coronavirus live page

 

 

Paso 2: Ingrese un número en el segundo parámetro.

Twitter aplica una técnica de desplazamiento infinito, lo que significa que tenemos que establecer "scrolling number" hasta que obtengamos el número deseado de publicaciones. Puede establecer cualquier número que desee de 1 a 10,000. Esta idea es para cargar la página completamente. Por ejemplo, si ingresa el número 10, el bot se desplazará 10 veces.

 

 

Paso 3: Ejecute el scraper haciendo clic en "save and run" y obtendrá los resultados al instante.

latest tweets coronavirus data

 

 

En este video hemos cubierto cómo usar plantillas de web scraping para recopilar datos en tiempo real sobre el coronavirus. Si también desea construir su propio scraper para extraer artículos de portales de noticias como Wall Street Journal, New York Times y Reuters, puede ver este video.

 

 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier pregunta sobre el extracción de datos!

Contáctenos Descargarse