Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Modo Asistente

Wednesday, March 11, 2020

¿Qué es el modo asistente?

 

El Modo Asistente es una forma simple de raspar basado en una serie de plantillas preconstruidas. Puede ser especialmente útil para cualquier persona nueva en el web scraping. Con sus asistentes / plantillas incorporados, se le guiará paso a paso para configurar la tarea de raspado según sus requisitos específicos. El Modo Asistente tiene como objetivo hacer que el 'web scraping' sea más fácil y rápido al predefinir los procesos generales de raspado para algunas estructuras web comunes. En cuanto a los sitios web con estructuras más complejas, como los que requieren inicio de sesión o búsqueda con palabras clave, se recomienda utilizar el Modo Avanzado que le permite configurar el flujo de trabajo con más flexibilidad.

 

En este tutorial, le mostraremos cómo aplicar los 3 tipos de extracción en el Modo Asistente para raspar datos web fácilmente.

1)  Raspe de "Lista o tabla" - extraiga una lista o tabla de una sola página o de varias páginas

2)Raspe de "Lista y Detalle" - extraiga la información de la página haciendo clic en los enlaces de una lista 

3) Raspe desde "Una página" - extraiga datos de una sola página web

1) Raspe de "Lista o tabla" - extraiga una lista o tabla de una sola página o de varias páginas

1. Crear una tarea en Modo Asistente

  ·    Haga clic en "+ Tarea"

· Ingrese la URL y haga clic en "Siguiente"

 

2. Seleccione el tipo de extracción

  ·   Seleccione "Lista o tabla", luego haga clic en "Siguiente"

Ahora que ha seleccionado el tipo de extracción, Octoparse procederá a definir cada paso del flujo de trabajo. El progreso general se puede ver en la parte superior derecha de la interfaz.

 

3. Definir lista: especifique la lista que contiene los datos de destino

  · Haga clic en un elemento de la lista, luego haga clic en otro de la misma lista. Octoparse identifica todos los elementos automáticamente y los agrega al cuadro de texto.

  · Haga clic en "Siguiente" para continuar con el siguiente paso del proceso: Definir campo

 

 

 

¡Consejos!

Al seleccionar elementos de la lista, es importante asegurarse siempre de que todos los campos de datos deseados estén seleccionados/resaltados. En este ejemplo, pretendemos extraer 3 campos de datos de cada elemento.

 

4. Definir campo: especifique qué campos de datos capturar

   · Haga clic en los datos de destino, luego se mostrará en "Campo de datos"

   · Editar el nombre del campo

   · Haga clic en "Siguiente" para ingresar al siguiente paso: Paginación

5. Paginación: dígale a Octoparse si necesita raspar desde una sola página o varias páginas

Con el Modo Asistente, la paginación está deshabilitada de manera predeterminada. Si está eliminando datos de una sola página, haga clic en "Siguiente" para continuar.

Si necesita raspar desde varias páginas, seleccione "Utilizar paginación", luego defina el botón "Página siguiente" haciendo clic en él.

 

Ahora haga clic en "Siguiente" en la barra de navegación para continuar con el siguiente paso.

 

6. Completo

La configuración de la tarea ahora está completa, puede ejecutar la tarea mediante Local Extracción  or Extracción de Cloud .

2) Raspe de "Lista y Detalle": extraiga la información de la página del elemento haciendo clic en los enlaces de una lista
1. Crear una tarea en modo asistente

   · Haga clic en "+ Tarea"

· Ingrese la URL y haga clic en "Siguiente"

2. Seleccione el tipo de extracción

   · Seleccione "Lista y detalle", luego haga clic en "Siguiente"

 

Ahora Octoparse continuará usando contenido específico para definir más cada paso en el flujo de trabajo. El progreso general se puede ver en la esquina superior derecha de la interfaz.

 

3. Define list: specify the list of items that can enter into the detail page

· Click an item on the list, then click another one on the same list. Octoparse identifies all items automatically and adds them to the text box.

· Click "Next" to enter into the next step in the process: Pagination

 

 

4. Paginación: dígale a Octoparse si necesita raspar desde una sola página o varias páginas.

   · Página única: Octoparse deshabilita la paginación de forma predeterminada en el Modo Asistente. Entonces puede hacer clic en "Siguiente" para continuar.

· Varias páginas: seleccione "Utiliza paginación", luego defina el botón "Página siguiente" haciendo clic en él.

Ahora puede hacer clic en "Siguiente" en la barra de navegación para continuar con el siguiente paso.

 

5. Definir campo: especifique el campo de datos para extraer

A diferencia del scrape directo de "Lista o Tabla", Octoparse hará clic en cada enlace de la lista y lo llevará a la página detallada.

   · Haga clic en los datos de destino, luego se mostrará en "Campo de datos"

   · Editar el nombre del campo

   · Haga clic en "Siguiente" para completar el proceso

 

6. Complete:

La tarea ahora está completada, puede ejecutarla mediante Extracción local or Extracción de Cloud

 

3) Raspe desde "Página única": extraiga datos de una sola página web

1. Crear una tarea en modo asistente

   · Haga clic en "+ Tarea"

 

 

· Ingrese la URL y haga clic en "Siguiente"

2. Seleccione el tipo de extracción

   · Seleccione "Página única", luego haga clic en "Siguiente"

 

3. Definir campo:

   · Seleccione los datos de destino

   · Editar el nombre del campo

   · Haga clic en Siguiente"

 

 

La configuración de la tarea ahora está completa, puede ejecutar la tarea en Extracción local or Extracción de Cloud .

 

¡Consejos!

1. ¿Se puede usar el modo asistente para extraer tipos de datos distintos del texto?? 

Sí. Puede seleccionar los tipos de datos para capturar haciendo clic en la lista desplegable para "Tipo de datos".

 

Por lo general, los datos se pueden extraer en forma de texto, HTML interno y HTML externo.

 

For pictures, Wizard Mode also supports scraping "src" of it.

 

2. ¿Se puede modificar XPath o volver a formatear los datos con el Modo Asistente?

La respuesta es no. El modo asistente no admite el formateo de datos ni la modificación de XPath.

Si necesita modificar XPath para mejorar la precisión de la captura o volver a formatear los datos, cambie al Modo avanzado.

Obtenga más información sobre la ubicación de elementos con XPath  and el formateo de datos extraídos  .

3. Cómo cambiar al modo avanzado?

Hay dos enfoques para cambiar al modo avanzado.

- Después de completar el flujo de trabajo y antes de ejecutar la tarea, puede cambiar al Modo avanzado haciendo clic en "Editar con modo avanzado".

- En el Platilla, las tareas creadas con el Modo asistente se anotan   con esto y las tareas creadas usando el Modo Avanzado se anotan con esto.

 

- Para cambiar al modo avanzado, haga clic en "Más acciones" en el extremo derecho de la tarea, seleccione "Tarea" y podrá ver la opción "Editar con modo avanzado".

 

Artículos relacionados:

Modo Avanzado 

Localizar elementos con XPath 

Reformatear datos etraídos 

Extracción local 

Extracción  de Cloud 

Crea tareas con Octoparse 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse