undefined

Step-by-step tutorials for you to get started with web scraping

Download Octoparse

Acelere el scraping utilizando la lista de URL

Friday, April 24, 2020

Con el modo de bucle "Lista de URL", Octoparse no tiene que lidiar con algunos pasos como "Hacer clic para paginar" o "Hacer clic en el elemento" para ingresar a la página del elemento. Como resultado, la velocidad de extracción será más rápida, especialmente para Cloud Extraction . Cuando una tarea creada con "Listas de URL" está configurada para ejecutarse en la nube, la tarea se dividirá en subtareas que luego se configurarán para ejecutarse en varios servidores en la nube simultáneamente.

  1. Acelere la paginación utilizando la lista de URL
  2. Acelere el scraping de páginas de detalles utilizando la lista de URL

 

 

1. Acelere la paginación utilizando la lista de URL

Si su tarea de scraping necesita extraer datos de miles de páginas múltiples, puede usar la lista de URL para scrape en lugar de "hacer clic para paginar" uno por uno. Esto puede ayudar a que su tarea se ejecute de una manera más eficiente.

Tomemos la URL a continuación como ejemplo:

https://www.ratemyprofessors.com/search.jsp?query=&queryoption=HEADER&stateselect=&country=&dept=&queryBy=teacherName&facetSearch=&schoolName=&offset=0&max=20

Este sitio web tiene un número total de 83,663 páginas para paginación. Cada página tiene 20 artículos listados. Al observar las URL de cada página, puede encontrar que comparten la misma estructura. En este caso, puede usar "Generación por lotes" para generar automáticamente las URL de cada página.

 

 

mceclip0.png  

mceclip3.png

Estos son los pasos que puede seguir:

  • Seleccione "Generar por lotes" en "URL de entrada"
  • Pegue la URL en "formato de URL"
  • Seleccione el número "0" y luego haga clic en "Agregar parámetro"
  • Para la "Configuración de parámetros", depende de los diferentes sitios web. En este caso, podemos establecer:
    • Start value: input 0 
    • Acción: seleccione "aumentar" e ingrese 20 (porque cada página tiene 20 elementos en la lista)
    • Condición final: ingrese 83663 para el "Artículo" (ya que el total de este sitio web tiene 83663 páginas)
        • No es necesario ingresar "Valor final". Cuando hace clic en "Aceptar", generará automáticamente un valor final.
  • Luego puede ver la vista previa de 100 filas de URL autogeneradas. Haga clic en "Guardar URL"
  • Ahora, puede ver que tiene un total de 83663 URL para el "Elemento de bucle"

 

batch_generate.gif

 


¡Consejos!

Hay tres formas de importar por lotes URL a cualquier tarea / rastreador (hasta un millón de URL):

Importar URL de lotes desde archivos locales
Importar lotes de URL de otra tarea
Generar por lotes URL basadas en un patrón predefinido
Consulte este tutorial Batch URL input external-link-symbol-1.png para obtener más detalles.

 
 

 

2. Acelere el scraping de páginas de detalles utilizando la lista de URL

Cuando necesita hacer clic en los elementos de la lista y scrape sus páginas de detalles correspondientes, lleva un tiempo hacer clic en todos los elementos uno por uno. En este caso, es aconsejable scrape las URL de todos los elementos enumerados primero. Después de obtener todas las URL de las páginas de detalles, puede comenzar una nueva tarea ingresando todas las URL raspadas de la tarea anterior.

Aquí hay un tutorial de caso que aplica esta técnica: Scrape la información del producto de Sam's Club external-link-symbol-1.png 

 

 

¡Consejos!

En Octoparse, hay dos formas de crear un bucle de "Lista de URL".

 
 

Artículos relacionados:

Extraer datos de una lista de URL external-link-symbol-1.png

Scrape la información del producto de Amazon external-link-symbol-1.png

¿Qué es "división de tareas" en Cloud Extraction? (Acelerar la extracción de nubes) external-link-symbol-1.png

 

¿Te resultó útil este artículo Contáctenos  en cualquier momento si necesita nuestro apoyo.

Download Octoparse to start web scraping or contact us for any
question about web scraping!

Contact Us Download
Usamos cookies para mejorar tu experiencia de navegación. Lee sobre cómo usamos las cookies y cómo puedes controlarlas haciendo clic en la configuración de cookies. Si continúas utilizando este sitio, acepta nuestro uso de cookies.
Aceptar Rechazar