undefined

Step-by-step tutorials for you to get started with web scraping

Download Octoparse

Scraping los datos de JSON con Octoparse

Thursday, April 16, 2020

En la versión 7.2, ahora puede usar la extracción JSON para una extracción de datos más rápida y confiable. Le mostraremos exactamente cómo usar esta función en este tutorial.

 

mceclip1.png

¿Qué es el JSON?


JSON significa JavaScript Object Symbol. JSON es un formato de intercambio de datos liviano que se usa ampliamente porque es más pequeño, más rápido, más fácil de analizar y leer que XML, lo que mejora efectivamente la eficiencia de transmisión de la red.

 

 

¿Por qué deberías usar la extracción JSON?

  1. Extracción de datos más rápida ya que Octoparse no tiene que cargar imágenes y otra información
  2. Menos restricciones anti-extracción en algunos sitios web

 

 

¿Cómo utilizar la extracción JSON en Octoparse?


En este tutorial, scrape datos de una página de lista en Walmart usando la extracción JSON con Octoparse como un ejemplo simple.

1. Primero, necesitaremos identificar la URL correcta que contiene el archivo JSON que nos gustaría scrape

  • Abra la página web en el navegador Chrome.
  • Haga clic derecho en la página y seleccione "Inspeccionar"
  • Haga clic en "Red" y seleccione "XHR"



json_gif_1.gif

 

  • Actualice la página, verifique si la URL cargada y mostrada en "XHR" contiene un archivo JSON
    Si una URL contiene un archivo JSON, encontrará "json" en el "tipo de contenido" en "Encabezados".

mceclip0.png

 

  • Encuentre el archivo JSON que contiene los datos que queremos scrape
    Puede seleccionar "Vista previa" para obtener una vista previa de los datos JSON. En este caso, nos gustaría scrape la información del producto y, por lo tanto, queremos el archivo JSON con la información del producto.mceclip1.png
  • Copie la URL que contiene el archivo JSON de destino

    mceclip2.png

     

  • El URL es "Request URL" in "Headers", which is: https://www.walmart.com/search/api/wpa?el=sponsored-container-bottom-1&type=product&min=2&max=20&placementId=1145x345_B-C-OG_TI_2-20_HL-BOTTOM&platform=desktop&bucketId=&moduleLocation=bottom&zipCode=94066&isZipLocated=true&sMode=0&pageType=search&customerId=2DC7B9C9052A1369-60000104C00000E4&vtc=WDA-vOofwJ8UtA5N-A1r9M&uid=6ed59512-38e3-409c-ac96-cccdc745720f&rviItems=32703709%2C11070434%2C16674418&itemsAddedToCart=0&viewportHeight=507&viewportWidth=1920&userLoggedIn=false&showBrand=false&pageId=na&pageNumber=1&keyword=pens&taxonomy=6735581_4705218&persistControls=true&isTwoDayDeliveryTextEnabled=true&mloc=bottom&module=wpa

 

Echemos un vistazo a cómo identificar la URL correcta en acción.

json_gif_2.gif

 

 

2. Abra la URL que contiene el archivo JSON de destino en Octoparse

  • Copie y pegue la URL que contiene el archivo JSON en modo avanzado
  • Seleccione la casilla para "Extraer de JSON" y haga clic en "Aceptar" para actualizar la página en Octoparse
    Puede ver los datos JSON en una estructura de árbol, que se puede expandir o contraer según sea necesario.

 

json_gif_3.gif

 

3. Seleccione los datos para la extracción y comience la extracción.

  • Seleccione los datos en la estructura de árbol.
    "productId" y "productName" se seleccionan como ejemplo.
  • Haga clic en "Extraer datos" y Octoparse generará automáticamente un elemento de bucle para scrape todos los "productId" y "productName" en el árbol
  • Haga clic en "Iniciar extracción" en el lado superior izquierdo
  • Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Cloud Extraction" para ejecutar la tarea en la nube (solo para usuarios premium)

 

json_gif_4.gif

 

¡Consejos!

Si desea configurar la solicitud JSON, primero marque "Extraer de JSON" y luego se remita las opciones en la parte inferior.

mceclip0.png

Download Octoparse to start web scraping or contact us for any
question about web scraping!

Contact Us Download
Usamos cookies para mejorar tu experiencia de navegación. Lee sobre cómo usamos las cookies y cómo puedes controlarlas haciendo clic en la configuración de cookies. Si continúas utilizando este sitio, acepta nuestro uso de cookies.
Aceptar Rechazar