undefined
Blog > Colleccíon de datos > Post

Web Scraping Simple con Google Sheets (2021 actualizado)

Thursday, April 01, 2021

Tabla de Contenidos

 Google-Sheets

imagen de lenovo.es 

¿Qué es Google Sheets?

Google Sheets es una aplicación basada en la web que permite a los usuarios crear, actualizar y modificar hojas de cálculo y compartir los datos en línea en tiempo real.

El producto de Google ofrece características típicas de las hojas de cálculo, como la capacidad de agregar, eliminar y ordenar filas y columnas. Pero a diferencia de otros programas de hojas de cálculo, Google Sheets también permite a varios usuarios dispersos geográficamente colaborar en una hoja de cálculo al mismo tiempo y chatear a través de un programa de mensajería instantánea integrado. Los usuarios pueden cargar hojas de cálculo directamente desde sus computadoras o dispositivos móviles. La aplicación guarda todos los cambios automáticamente y los usuarios pueden ver los cambios de otros usuarios a medida que se realizan.

Una herramienta de web scraping puede automatizar el proceso de copia y pegado repetitivos. En realidad, las hojas de Google pueden considerarse un web scraping básico. Puedes usar una fórmula especial para extraer datos de una página web, importar los datos directamente a las hojas de Google y compartirlos con tus amigos.

En este artículo, primero te mostraré cómo construir un web scraping simple con Hojas de cálculo de Google. Luego lo compararé con Octoparse web scraping automático. Después de leerlo, tendrás una idea clara sobre qué método funcionaría mejor para tus necesidades específicas de web scraping.

 

Opción#1: Crear un web scraping sencillo con ImportXML en Google Spreadsheets

Paso 1: Abramos una nueva hoja de Google.


Paso 2: Abramos un sitio web de destino con Chrome. En este caso, elegimos ’Games sales’. Hacemos clic derecho en la página web y aparecerá un menú desplegable. Luego seleccionamos "inspeccionar". Presionamos una combinación de tres teclas: "Ctrl” + "Shift" + "C" para activar "Selector". Esto permitiría al panel de inspección obtener la información del elemento seleccionado dentro de la página web.

 Opción-1

 

Paso 3: Copiamos y pegamos la URL del sitio web en la hoja.

 

Opción#2: Intentar obtener datos de precios con una fórmula simple: ImportXML

Paso 1: Copiamos el Xpath del elemento. Seleccionamos el elemento de precio y hacemos clic con el botón derecho para que aparezca el menú desplegable. Luego seleccionamos "Copiar", elegimos "Copiar XPath".

 Opción-2

 

Paso 2: Escribimos la fórmula en la hoja de cálculo.

=IMPORTXML(“URL”, “XPATH expression”) 


Tengamos en cuenta que la "expresión Xpath" es la que acabamos de copiar de Chrome. Reemplazamos la comilla doble "" dentro de la expresión Xpath con una comilla simple ''.

 Opción-2.2


Opción#3: Hay otra fórmula que podemos usar:

=IMPORTHTML(“URL”, “QUERY”, Index)

Con esta fórmula, extraemos toda la tabla.

Opción-3

 

Ahora, veamos cómo se puede lograr la misma tarea de raspado con un rastreador web, el Octoparse.

Paso 1: Abramos Octoparse, creamos una nueva tarea seleccionando "+ Tarea" en el "Modo avanzado"


Paso 2: Elegimos un grupo de tareas preferido. Luego ingresamos la URL del sitio web de destino y hacemos clic en "Guardar URL". En este caso: sitio web de Game Sale http://steamspy.com/


Paso 3: Se nota el sitio web de Game Sale se muestra en la sección de vista interactiva de Octoparse. Necesitamos crear una lista de bucles para que Octoparse revise los listados.

1. Hacemos clic en una fila de la tabla (podría ser cualquier archivo dentro de la tabla). Octoparse detectará elementos similares y los resaltará en rojo.

2. Necesitamos extraer por filas, así que elegimos "TR" (Fila de Tabla) desde el panel de control.

3. Después de seleccionar una fila, elegimos el comando "Seleccionar todos los subelementos" en el panel Consejos de acción.
Elegimos el comando "Seleccionar todo" para seleccionar todas las filas de la tabla.

 Opción-4

 

Paso 4: Elegimos "Extraer datos en el bucle" para extraer los datos.

Podemos exportar los datos a Excel, CSV, TXT u otros formatos deseados. Las hojas de cálculo requieren que se copie y pegue, pero Octoparse automatiza el proceso. Además, Octoparse tiene más control sobre sitios web dinámicos con AJAX o reCaptcha.

 

Si estás buscando un servicio de datos para tu proyecto, el servicio de datos de Octoparse es una buena opción. Trabajamos estrechamente contigo para comprender tus necesidades de datos y asegurarnos de que te ofrecemos lo que deseas. Habla ahora con un experto en datos de Octoparse para discutir cómo los servicios de raspado web pueden ayudarte a maximizar tus esfuerzos. 

 

Guía-descargar

Recursos relacionados

9 Desafíos de Web Scraping que Debes Conocer

Cómo Scrapear Datos de una Web a Gran Escala

9 Raspadores Web GRATIS que No Te Puedes Perder en 2021

25 Maneras de Web Scraping Técnicas para Crecer Negocio

10 Malentendidos sobre el Web Scraping

20 Herramientas de Web Scraping para Extraer Datos Rápidamente

¡Descarga Octoparse para comenzar con el web scraping o contáctanos para cualquier
pregunta sobre el web scraping!

Contactarnos Descargar
Usamos cookies para mejorar tu experiencia de navegación. Lee sobre cómo usamos las cookies y cómo puedes controlarlas haciendo clic en la configuración de cookies. Si continúas utilizando este sitio, acepta nuestro uso de cookies.
Aceptar Rechazar