undefined
Blog > Web Scraping > Post

Cómo extraer coordenadas de Google Maps: una Guía Paso a Paso

Tuesday, March 03, 2020

¿Alguna vez has pensado que puedes ganar dinero sabiendo cuántos restaurantes hay en una milla cuadrada? No hay almuerzo gratis, sin embargo, si sabe cómo usar Google Maps, puede extraer y recopilar el GPS del restaurante y almacenarlos en su propia base de datos. Con esa información disponible y algunos cálculos matemáticos, puede crear un servicio en línea de Big Data.

 

En este artículo, le mostraré cómo extraer las coordenadas de Google Maps rápidamente las coordenadas de Google Maps con un método simple y fácil.

 

Puedes ver este video de YouTube primero.

 

 

 

Es complicado notar que las coordenadas en realidad están ocultas dentro de las URL. En este caso, necesitamos extraer las URLs y usar Expresión Regular para encontrar la cadena de texto coincidente exacta que estamos buscando. Tomemos como ejemplo el hito de Space Needle en Seattle.

 

Primero, abre Google Maps en su navegador y escriba Space Needle en la barra de búsqueda

space needle

 

Una vez que la página termine de cargarse, busque las coordenadas en la URL. Las coordenadas se encuentran detrás del signo "@".

 

coordinates

 

A continuación, podemos comenzar a extraer la URL. La herramienta que utilizamos es Octoparse. Puede usar cualquier herramienta que le resulte cómoda. Octoparse es la best web scraping tool que he encontrado ya que su interfaz de usuario intuitiva es muy fácil de aprender, especialmente para principiantes. Sería mejor si ya lo tienes en tu computadora, o puedes descargarlo aquí.


1. Cree una nueva tarea con el Modo avanzado haciendo clic en el signo "+"

2. Ingrese la URL en el cuadro https://www.google.com/maps/place/Space+Needle/@47.6205099,-122.3514661,17z/data=!4m5!3m4!1s0x5490151f4ed5b7f9:0xdb2ba8689ed0920d!8m2!3d47.6205063!4d-122.3492774 

3. Haga clic en "Guardar URL" para continuar.

 

Ahora hemos creado una nueva tarea con éxito. El caso es que Google Maps no se carga correctamente dentro de su navegador incorporado. ¿Por qué? Esto se debe a que Google Maps no se adapta al agente de usuario del navegador actual. Para resolver este problema, haga clic en el icono. Encuentre el User-agent Switcher. Elija Firefox 45.0 y haga clic en guardar. Octoparse volverá a cargar la página web en sí.

 

Una vez que la página web termina de cargar, podemos comenzar la extracción con solo apuntar y hacer clic en el navegador incorporado. Haga clic en el nombre, el panel "Consejos de acción" mostrará las opciones que puede tomar. Seleccione "Extraer texto del elemento seleccionado"

 

click space needle

 

 

Ahora debe notar que la extracción se ha creado y agregado correctamente al flujo de trabajo a continuación. Podemos editar el nombre del campo desde el área de configuración en el área superior derecha escribiendo el nombre deseado.

 

workflow

 

 

Vaya al campo de extracción y busque "Add predefined field" en la parte inferior. Haga clic para abrir el menú desplegable, seleccione "Add current page information" y seleccione "Web page URL".

 

web page url

 

 

Ahora la URL de la página web se ha agregado al campo de datos con éxito. ¡Esto es genial! Por supuesto, necesitamos editar el formulario de URL para elimitar el exceso y extraer las coordenadas exactas.

 

advance setting

 

 

Presiona el ícono "Customize" (lápiz pequeño)customizey personaliza en la parte inferior. Seleccione "Refine extracted data". Luego haga clic en el botón add step .  Esto lo lleva en a una lista de funciones donde puede elegir la limpieza de datos. En este caso, seleccionamos "Match with regular expression".

Deberías llegar aquí.

regex

 

Esto le permite editar los datos de la manera que desee escribiendo Expresión regular. Una expresión regular es una cadena de texto especial para describir un patrón de búsqueda. Teniendo en cuenta que la mayoría de las personas tienen dificultades para escribir la expresión, podemos usar la herramienta RegEx incorporada para ayudarnos. Haga clic en el botón "Probar herramienta RegEx".

 

Tenga en cuenta que queremos extraer la parte después del signo "@" pero antes de la segunda coma. Marque la casilla "Start With" e ingrese "@". Esto le dice al RegEx que desea la parte después del signo. Idénticamente, marque la casilla "End With" e ingrese ", 1". Como hay dos comas detrás de la "@", mejor definimos qué coma queremos. Simplemente agregue el número detrás de la coma, en este caso, agregue el número "1" Esto le dice al RegEx que desea la parte antes de la coma y el número 1. Haga clic en el botón "Generate", la expresión regular debería poder mostrarse en la caja.

 

Ahora solo confirme si lo configuramos correctamente haciendo clic en el botón "Match". Genera la expresión correspondiente a la derecha. ¡Auge! Esto es exactamente lo que queremos. Ahora continúe y haga clic en "Apply" y luego haga clic en "OK" para confirmar.

 

regex

 

¡Eso es! Todo listo. Ejecutemos el rastreador y veamos si funciona. Haga clic en "Start Extraction" y seleccione "Local Extraction".

 

 local extraction

 

 

 

Ahora, ¿qué pasa si tiene 1000 direcciones para buscar? No se preocupe, Octoparse le permite ingresar más de 10,000 URL cuando configura la tarea. Es tan simple como parece.

Si tiene alguna pregunta para configurar un rastreador, comuníquese con support@octoparse.com. Octoparse está diseñado profesionalmente para guiarlo a través del viaje desde un principiante hasta un experto en web scraping. Estamos aquí para ayudarlo a convertirse en un maestro artesano en el arte del raspado web.

¡Descarga Octoparse para comenzar con el web scraping o contáctanos para cualquier
pregunta sobre el web scraping!

Contactarnos Descargar
Usamos cookies para mejorar tu experiencia de navegación. Lee sobre cómo usamos las cookies y cómo puedes controlarlas haciendo clic en la configuración de cookies. Si continúas utilizando este sitio, acepta nuestro uso de cookies.
Aceptar Rechazar