undefined

Step-by-step tutorials for you to get started with web scraping

Download Octoparse

Scrape la información de Yahoo Finance

Friday, March 13, 2020

En este tutorial, le mostraremos cómo obtener información de Yahoo Finance.

Para Yahoo Finance, puede visitar nuestra "Plantilla de tareas" fácil de usar en la pantalla principal de la herramienta de raspado Octoparse. Todo lo que necesita es escribir varios parámetros y la tarea está lista para comenzar. Para más detalles, puede consultarlo aquí: Plantillas de Tareas external-link-symbol-1.png

 

Para continuar, es posible que desee utilizar esta URL en el tutorial:

https://finance.yahoo.com/cryptocurrencies?count=50&offset=0
https://finance.yahoo.com/cryptocurrencies?count=50&offset=50
https://finance.yahoo.com/cryptocurrencies?count=50&offset=100

Es difícil crear paginación en Yahoo Finance. Sin embargo, cuando recorremos las páginas, siempre podemos encontrar algunos patrones de esas URL de diferentes páginas y convertir el problema de paginación como un problema de entrada por lotes.

En este caso, después de agregar "?count=50&offset=0" detrás de la URL original del sitio web (https://finance.yahoo.com/cryptocurrencies), podemos abrir la página con las primeras 50 líneas de información.

Rasparemos datos como el Símbolo y el Nombre del gráfico de criptomonedas con Octoparse.

 

Estos son los pasos principales de este tutorial: [Descargar el archivo de tareas aquí ]

  1. "Ir a la página web" - para abrir la página web objetivo
  2. Cree un "Elemento de bucle" para extraer en bucle cada elemento en cada fila
  3. Extraer datos - para seleccionar los datos para la extracción
  4. Guardar e iniciar extracción - para ejecutar la tarea y obtener datos

 

1. "Ir a la página web" - para abrir la página web objetivo

  • Haga clic en "+ Tarea" para comenzar una nueva tarea
  • Pegue la URL en el cuadro "URL de extracción" y haga clic en "Guardar URL" para continuar

 

open.gif


¡Consejos!

Octoparse puede generar las URL con el mismo formato automáticamente con la función
"Generar por lotes":
mceclip0.png
Consulte este tutorial para obtener más detalles: Entrada de URL de lote

 

 

2. Cree un "Elemento de bucle" para extraer en bucle cada elemento en cada fila.

  • Haga clic en el nombre del "Bitcoin USD" en la primera línea.
  • Haga clic en el icono en el panel "Consejos de acción"

 

Octoparse seleccionará automáticamente el elemento. El elemento seleccionado se resaltará en verde mientras que otros elementos con la misma estructura se resaltarán en rojo.

Los datos presentes en forma de tabla. Por lo tanto, queremos extraer por filas en lugar de por columnas. Expandir el área nos ayudará a seleccionar las filas.

  • Haga clic en "Seleccionar todos los subelementos" y luego haga clic en "Seleccionar todo" para crear una lista de bucles

Octoparse detectará todos los subelementos con estructuras similares.

  • Haga clic en "Extraer datos en el bucle"

extract.gif

 

 

3. Extraer datos - para seleccionar los datos para la extracción

Después de hacer clic en "Extraer datos en el bucle", Octoparse extraerá todos los elementos seleccionados en la misma fila.

  • Edite el nombre seleccionando el nombre de los nombres de lista predefinidos o cree por su cuenta

Edite el nombre seleccionando el nombre de los nombres de lista predefinidos o cree por su cuenta
Aquí hay una muestra de los nombres de los campos.

 sample_data.png

 

 

 

4. Guardar e iniciar extracción - para ejecutar la tarea y obtener datos

  • Haga clic en "Iniciar extracción" en el lado superior izquierdo
  • Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Extracción en la nube" para ejecutar la tarea en la nube (solo para usuarios premium)

 

get.png

 

Aquí está la salida de muestra:

sample_output.png

Download Octoparse to start web scraping or contact us for any
question about web scraping!

Contact Us Download
Usamos cookies para mejorar tu experiencia de navegación. Lee sobre cómo usamos las cookies y cómo puedes controlarlas haciendo clic en la configuración de cookies. Si continúas utilizando este sitio, acepta nuestro uso de cookies.
Aceptar Rechazar