Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Batch URL input

Thursday, April 16, 2020

Extraer datos de una lista de URL   es definitivamente una de las formas más eficientes y poderosas de lograr el raspado de datos a gran escala con Octoparse. En momentos en que la lista de URL es grande, Octoparse admite la importación de URL por lotes/masiva desde archivos locales (texto u hoja de cálculo), desde otra tarea o incluso genera las URL en función de algunos patrones predefinidos. A través de estas características, Octoparse tiene como objetivo reducir aún más la tediosa carga de trabajo asociada con las extracciones de datos a gran escala.

 

 

Hay tres formas de importar URL por lotes a cualquier task/crawler (hasta un millón de URL)

 1. Importar URL de lotes desde archivos locales

2. Importar URL de lotes desde otra tarea

3. Generar URL por lotes en función de un patrón predefinido

 

 

 ¡Consejos!

Una vez que el número de URL importadas/generadas alcanza el límite de 1 millón, Octoparse dejaría de importar/generar de inmediato.

 

 

1. Importar lotes de URL de archivos

Ahora puede importar URL de cualquiera de los formatos de archivo a continuación,

- CSV

- TXT

- Excel (.xlsx y .xls)


· Seleccione "Modo avanzado" y haga clic en "+ Tarea" para crear una nueva tarea

· Seleccione "Entrada del archivo"

 

 

· Haga clic en "Seleccionar archivo" y luego elija el archivo que contiene las URL para la importación

Octoparse identifica e importa automáticamente todas las URL del archivo. Tenga en cuenta que solo se mostrarán las primeras 100 URL con fines de vista previa.

· Haga clic en "Guardar URL" para completar la importación

 

 

 

2. Importar URL de lotes desde otra tarea

Esta característica hace posible integrar sin problemas dos tareas cuando la extracción de URL debe hacerse por separado de otra tarea. No es necesario exportar e importar URL adicionales.


· Seleccione "Modo avanzado" y haga clic en "+ Tarea" para crear una nueva tarea

· Seleccione "Entrada de tarea"

 

 

· Seleccione la tarea que contiene las URL de destino y luego especifique el campo de datos adecuado

· Haga clic en "Guardar URL" para completar la importación

Tenga en cuenta que la tarea seleccionada (una que contiene las URL necesarias para más rastreo) se denomina tarea principal y la nueva tarea que se configurará se convierte en la tarea secundaria. Dos tareas se asociarán automáticamente y se pueden ejecutar en asociación con una tarea.

Cuando se selecciona una tarea como tarea principal, Octoparse recuperará automáticamente todos los datos extraídos para la tarea seleccionada (cloud and local ).

 

 

También puede seleccionar una tarea que no se haya ejecutado y no haya obtenido ninguna URL como tarea principal; simplemente ingrese una URL de muestra en el cuadro de texto y continúe configurando las tareas secundarias.

  

- Carrera asociada

Cuando una tarea secundaria está configurada para ejecutarse, puede especificar los criterios para comenzar la extracción.

· Haga clic en "Iniciar extracción" en la interfaz de configuración de la tarea u "Opciones" desde el Tablero

· Seleccione "Configuración de tarea principal" / "Configuración con inicio"

 

 

Hay cuatro opciones para seleccionar-

· Seleccione "Ejecutar tarea tan pronto como se inicie su tarea principal" si desea ejecutar la tarea secundaria tan pronto como se recupere cualquier URL a la tarea principal.

 

¡Consejos!

1. Si configura una ejecución asociada seleccionando cualquier opción de la configuración de la tarea principal, ambas tareas se ejecutarán en la nube a través del Cloud Service   de Octoparse. La ejecución asociada no está disponible para Local Extraction .

2. Cuando se configura una ejecución asociada, la programación de tarea   no está disponible para ejecutar la tarea secundaria.

 


3. Genere lotes de URL de acuerdo con un patrón predefinido

Con la función URL Batch Generate, puede generar fácilmente una gran cantidad de URL siguiendo patrones específicos modificando varios parámetros de una URL determinada.

Esta característica sería especialmente útil para eliminar un gran número de páginas diferentes de un sitio web en particular. Use el generador de URL para generar rápidamente todas las URL de la página y raspar todas las páginas simultáneamente. No es necesario pasar por las páginas una por una.

· Seleccione "Modo avanzado" y haga clic en " Tarea" para crear una nueva tarea

· Seleccione "Generar lote"

 

 

· Ingrese la URL como base para generar lotes

· Resalte el parámetro URL seleccionado y haga clic en "Agregar parámetro"

· Seleccione entre las cuatro opciones de Tipo  de parámetro para definir el patrón que necesita

· Haga clic en "Guardar URL" para guardar la lista

 

 

- Cuatro opciones de tipo de parámetro

- Tipo 1: Números

 

- Tipo 2: Letras

 

- Tipo 3: Fecha

 

- Tipo 4: lista personalizada

 

 

 

Artículos relacionados:

Extraer datos de una lista de URL 

Ejecutar/Programar tareas en la nube 

Ejecute tareas en la máquina local 

¿Qué hay de nuevo en Octoparse 7.1? 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse