Todas las colecciones
Cursos Integrados de Octoparse
Scraping los datos de JSON con Octoparse
Scraping los datos de JSON con Octoparse
Actualizado hace más de una semana

Ahora puede usar la extracción JSON para una extracción de datos más rápida y confiable. Le mostraremos exactamente cómo usar esta función en este tutorial.

¿Qué es el JSON?


JSON significa JavaScript Object Symbol. JSON es un formato de intercambio de datos liviano que se usa ampliamente porque es más pequeño, más rápido, más fácil de analizar y leer que XML, lo que mejora efectivamente la eficiencia de transmisión de la red.

¿Por qué deberías usar la extracción JSON?

  1. Extracción de datos más rápida ya que Octoparse no tiene que cargar imágenes y otra información

  2. Menos restricciones anti-extracción en algunos sitios web

¿Cómo utilizar la extracción JSON en Octoparse?


En este tutorial, scrape datos de una página de lista en Walmart usando la extracción JSON con Octoparse como un ejemplo simple.

1. Primero, necesitaremos identificar la URL correcta que contiene el archivo JSON que nos gustaría scrape

  • Abra la página web en el navegador Chrome.

  • Haga clic derecho en la página y seleccione "Inspeccionar"

  • Haga clic en "Red" y seleccione "XHR"

  • Actualice la página, verifique si la URL cargada y mostrada en "XHR" contiene un archivo JSON
    Si una URL contiene un archivo JSON, encontrará "json" en el "tipo de contenido" en "Encabezados".

  • Encuentre el archivo JSON que contiene los datos que queremos scrape
    Puede seleccionar "Vista previa" para obtener una vista previa de los datos JSON. En este caso, nos gustaría scrape la información del producto y, por lo tanto, queremos el archivo JSON con la información del producto.

  • Copie la URL que contiene el archivo JSON de destino

    El URL es "Request URL" in "Headers" aquí ENLACE

Echemos un vistazo a cómo identificar la URL correcta en acción.

2. Abra la URL que contiene el archivo JSON de destino en Octoparse

  • Copie y pegue la URL que contiene el archivo JSON en modo avanzado

  • Seleccione la casilla para "Extraer de JSON" y haga clic en "Aceptar" para actualizar la página en Octoparse
    Puede ver los datos JSON en una estructura de árbol, que se puede expandir o contraer según sea necesario.

3. Seleccione los datos para la extracción y comience la extracción.

  • Seleccione los datos en la estructura de árbol.
    "productId" y "productName" se seleccionan como ejemplo.

  • Haga clic en "Extraer datos" y Octoparse generará automáticamente un elemento de bucle para scrape todos los "productId" y "productName" en el árbol

  • Haga clic en "Iniciar extracción" en el lado superior izquierdo

  • Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Extraction en la nube" para ejecutar la tarea en la nube (solo para usuarios de pago)

Nota:

Si desea configurar la solicitud JSON, primero marque "Extraer de JSON" y luego se remita las opciones en la parte inferior.

¿Ha quedado contestada tu pregunta?