Este artículo ofrecerá una guía completa para scrapear datos de Yelp fácilmente sin necesidad de conocimientos de codificación. Si usted desea descargar conjuntos de datos de forma masiva de Yelp (incluidos datos comerciales, números de contacto, sitios web, comentarios, etc.), siga leyéndolo y encontrará la forma que le más convenga.
Telp Web Scraping
Hablando sobre el Yelp scraping, es posible que le interese esto: entre Top 10 Sitios Web Más Scrapeados en 2023, Yelp ocupó el cuarto puesto en la lista de los sitios web más raspados por los usuarios de Octoparse. La mayoría intenta recopilar datos comerciales locales, como el nombre comercial, el número de contacto, la dirección y el horario. Muchos otros coleccionan comentarios de los clientes.
Como agregador de negocios locales y plataforma de opinión de clientes, Yelp es muy útil si desea:
- Generar leads de comercios locales de varias industrias
- Saber qué están heciendosus competidores y qué están ofreciendo
- Investigar una industria específica
Cualquier dato de Yelp que esté buscando, siempre que esté visible en la página web, estará disponible para el web scraping. Entonces, vayamos al grano, ¿cómo se raspan los datos de Yelp?
3 métodos sencillos para scrapear datos de Yelp
Aquí, presentaremos Octoparse, la herramienta de web scraping diseñada para personas que no son programadores. Le mostraremos cómo obtener su propio Yelp scraper (tal vez su primer web scraper) en solo 5 minutos.
Hay 3 formas de scrapear datos de Yelp con Octoparse, una es construir un crawler de forma gratuita y las otras dos son utilizar plantillas prediseñadas de Yelp scraping por nuestros desarrolladores, cargadas en nuestro software y listas para usar de inmediato. Puede elegir cualquiera de los métodos según sus necesidades.
Antes de comenzar, debe descargar e instalar Octoparse en su dispositivo Mac o Windows y registrarse para obtener una cuenta gratuita.
Método 1: Crear un crawler para obtener datos de YelpMétodo 1: Crear un crawler para obtener datos de Yelp
Este método le ayuda a extraer cualquier dato público de Yelp, incluidas las calificaciones, los comentarios de los clientes, las ubicaciones, etc. Puede configurar la paginación y el elemento de bucle para personalizar su proceso de scraping. Siga los sencillos pasos a continuación o la guía detallada sobre cómo Scrapear información comercial de Yelp.
Paso 1: Copie el enlace de la página de Yelp que necesita scrapear y péguelo en Octoparse. Entrará en el modo de detección automática rápida de forma predeterminada.
Paso 2: Cree un flujo de trabajo y personalice el campo de datos haciendo clic o usando Xpath simple. Asegúrese de tener todos los datos en la vista previa de datos.
Paso 3: Ejecute el Yelp crawler, el proceso finalizará muy pronto. Descargue el archivo scrapeado en Excel, CVS u otros formatos a sus dispositivos locales.
Método 2: Scrapear los datos comerciales de Yelp por ubicación y categoría
Octoparse ofrece scrapers prediseñados no solo para Yelp, sino también para muchos otros sitios web. Siempre que intente buscar el nombre del sitio web en el software, le dirá de inmediato si hay plantillas disponibles.
Paso 1: Encuentre el Yelp scraper (resultado de búsqueda de palabras clave Yelp (Python))
Busque “Yelp” en Octoparse y veremos una plantilla llamada “Keyword Search Result Yelp (Python)” y otros scrapers de Yelp. Elija uno que desea usar. “Keyword Search Result Yelp (Python)” es el que vamos a usar aquí.


Cuando haga clic en el scraper de plantillas, verá una breve guía que explica qué hace esta plantilla específica, cómo usarla (descripción), qué tipo de parámetros debe ingresar (parámetros) y qué datos puede obtener (vista previa de datos y muestra).

Está bien si usted no quiere leerlo todo. Simplemente haga clic en el pequeño botón azul “¡Probarla!” arriba para comenzar a configurar el scraper.

Paso 2: Ingrese los parámetros en su scraper
Ahora usted es el comandante para decidir lo que su Yelp scraper va a hacer. Hay tres espacios en blanco que debe completar aquí:
Keywords: qué tipo de datos comerciales desea extraer, como restaurantes o algo más específico: pizza.
PageSize: cuántas páginas de datos necesita raspar
Locations: la ubicación que desea buscar, por ejemplo, Barcelona

Ojo:
· En Keywords, ingrese una palabra cada línea. Puede introducir hasta 10000 palabras clave. No deje una línea vacía en el cuadro de texto o también se contará como un parámetro.
· En Locations, también ingrese una palabra cada línea. Puede introducir hasta 10 palabras clave.
· Introduzca el número de páginas que desea raspar. Ten en cuenta que el número máximo de páginas que Yelp muestra públicamente es 24.
Paso 3: Ejecute el scraper y exporte los datos cuando se complete
Esta plantilla de Yelp en particular solo se puede ejecutar en la nube (para que el scraper pueda raspar datos con la rotación de IP para evitar el bloqueo), debe suscribirse a Octoparse y desbloquear los servicios en la nube.
Si aún no lo ha hecho, haga clic en el botón “Guardar y ejecutar” para ejecutar el scraper en la nube, y el scraper funcionará diligentemente para que usted descargue los datos de Yelp.

En el “Dashboard“, encontrará todos los scrapers (tareas) que ha creado y verá si la tarea se ha completado. La tarea que creamos debe llamarse “Keyword Search Result Yelp (Python)” (igual que el nombre de la plantilla) de forma predeterminada. Haga clic para ver los datos, y esto es lo que parece:

Podrá exportar los datos extraídos a todos tipos de formatos como Excel, CSV, JSON y HTML. Alternativamente, también puede exportar los datos a su base de datos o herramientas de visualización de datos a través de las API de Octoparse.
Consejos:
El sitio web puede cambiar su estructura en secreto de vez en cuando, lo que puede afectar los resultados de los datos obtenidos por el scraper. Contáctenos enviando correos a support@octoparse.com si encuentra que una plantilla no lo hace feliz. Estaremos encantados de ayudarlo a actualizarla antes posible.
Método 3: Scrapear datos comerciales de Yelp por páginas de detalles
El proceso es muy parecido al que hemos visto anteriormente. Los pasos son casi iguales y lo único diferente consiste en usar una plantilla diferente. Así que no vamos a explicar los procesos en detalle como los anteriores. No se preocupe. La siguiente guía basta para guiarlo.
Paso 1: encuentre el Yelp scraper (la plantilla llamada “URL Detail Information Yelp”)
Paso 2: ingrese los parámetros en su scraper
Paso 3: ejecute el scraper y exporte los datos cuando se complete
La única diferencia aquí es el parámetro que ingresará en los espacios en blanco. Esta vez, ingrese las URL de los resultados de búsqueda reales de los que desea extraer datos. Puede ingresar una o más URL según sus requisitos específicos. Por ejemplo,
https://www.yelp.com/search?find_desc=cafeter%C3%ADa&find_loc=Madrid es la URL de la página de resultados de búsqueda que obtenemos cuando buscamos cafetería en Madrid.

Por lo tanto, obtendrá datos estructurados similares a los anteriores. Si no ha usado o construido ningún Yelp scraper, ¡pruébelo!
Data Scraping en aplicaciones de entrega de comida a domicilio
Los servicios de entrega de comida a domicilio han desarrollado rápidamente (con una competencia feroz), especialmente desde la pandemia de 2020, porque el encierro o cuarentena afectó mucho la vida de personas. Los datos de la aplicación de entrega de alimentos están populares en los últimos días. Cuando maneja Octoparse, puede extraer datos de sitios web como Grubhub, Doordash y Uber Eats con los mismos pasos del Método 1.
Aprender algo nuevo desde cero siempre requiere la fe: convencernos de que podemos hacerlo y que no es tan difícil como se esperaba. Bueno, ¿así no es la vida? Sigue probando cosas nuevas y no se deje vencer.
Por eso, estamos trabajando duros para crear una herramienta de web scraper sin códigos para todos los que quieran aprovechar al máximo los datos web. Pasaron los días en los que el web scraping era solo para los programadores. Todo lo que Octoparse hace es brindarle una experiencia de scraping más fluida y confiable.