“Octoparse hizo un gran trabajo no solo en la extracción de datos, sino también en comprender los proyectos y las necesidades del centro. Los datos recopilados de los espacios en línea habrían sido inútiles a menos que Octoparse entendiera el propósito completo del proyecto.”
— Jinho Jung, Investigador Asociado, Centro de Análisis de Demanda y Sostenibilidad de Alimentos, Universidad de Purdue

Sobre el Cliente
El Centro de Análisis de Demanda y Sostenibilidad de Alimentos (CFDAS) es un centro de investigación dentro de la Facultad de Agricultura de la Universidad de Purdue. Su misión es mejorar el flujo de datos sobre los consumidores y los mercados de alimentos mediante el web scraping a gran escala, ayudando a los consumidores a tomar decisiones alimentarias más informadas y permitiendo a las empresas agrícolas, los responsables políticos y los agricultores mejorar el sistema alimentario.
El Reto: Crear un Observatorio de Precios
CFDAS necesitaba recopilar datos de más de 2 millones de productos de supermercado de 20 cadenas en línea, todos los días. Esto requería servidores más rápidos, mayor almacenamiento de datos y transferencia de datos en tiempo real a escala. El centro también necesitaba agregar todos los datos recopilados en un panel interactivo para que el público pudiera monitorear los precios de los alimentos diariamente, en todas las regiones y categorías de productos.
Hacer esto manualmente o con frágiles extractores personalizados no era una opción. Necesitaban una solución confiable y escalable que pudiera seguir el ritmo de sus demandas de investigación.
La Solución: Un Pipeline de Datos Eficiente
CFDAS se asoció con Octoparse para manejar sus necesidades diarias de web scraping a gran escala. Octoparse ahora extrae datos de 20 cadenas de supermercados en línea en 5 categorías de productos y aproximadamente 342 códigos postales cada día, agregando hasta 2.3 millones de productos diariamente. El depósito de datos del centro está conectado directamente al almacenamiento de datos de Octoparse, lo que permite la transferencia de datos en tiempo real sin demoras.
Por Qué Octoparse para Casos de Uso de Big Data
Servidores más rápidos y mayor almacenamiento para inteligencia de precios
El centro necesitaba recopilar datos de 20 cadenas de supermercados en línea en 5 categorías de artículos de supermercado y alrededor de 342 códigos postales todos los días, agregando hasta 2.3 millones de productos diariamente. La infraestructura de Octoparse manejó la escala sin compromisos.
Datos detallados y bien estructurados
Octoparse desarrolló un programa de extracción para obtener información detallada de los supermercados, como artículos, categorías y ubicaciones geográficas. Con los datos extraídos, el panel del centro ayuda a los productores, empresas agrícolas y responsables políticos a tomar decisiones que mejoran el sistema alimentario, así como a guiar la investigación sobre nutrición e innovaciones vegetales.
Gestión diaria de datos más eficiente
La plataforma Octoparse vincula su almacenamiento de datos con el depósito de datos del centro para transferir los datos extraídos todos los días, lo que permite al centro gestionar los datos de manera más oportuna, sin necesidad de intervención manual.
Mirando Hacia el Futuro
CFDAS ahora proporciona a las empresas agrícolas, agricultores y responsables políticos datos e información oportuna y accesible sobre los precios de los alimentos, la producción y el suministro de alimentos, el gasto de los consumidores y las preferencias de los consumidores. Al aprovechar el web scraping a gran escala, el centro está construyendo un sistema alimentario que funciona mejor para todos.



