Los sitios web, como el portal de noticias o los foros, suelen tener nuevos contenidos agregados rápidamente, si no dinámicamente. Para mantenerse actualizado con dichos sitios web, la extracción incremental de Octoparse le permite omitir las páginas extraídas en otras palabras, solo scrape las nuevas.

 

¿Cuándo quieres usar extracción incremental?

Considere habilitar la extracción incremental si se cumplen los siguientes requisitos:

1. Necesita datos actualizados de cualquier sitio web con bastante frecuencia

2. La nueva información aparece como nuevas páginas web con nuevas URL (differente de la nueva información que se agrega / actualiza a las páginas web existentes).

 

Entonces, un ejemplo perfecto será CNN.com. Imagínese si necesita recibir noticias de CNN.com casi en tiempo real. Es importante programar y ejecutar la tarea/rastreador con la frecuencia necesaria para que todo lo que se agregue al sitio pueda extraerse. Entonces, se cumple el criterio (1). Obviamente, cada artículo de noticias en CNN.com tendrá una URL diferente que se puede identificar fácilmente; también se cumplen los criterios (2).

Suponiendo que tiene una tarea configurada para el trabajo, pero realmente no tiene sentido volver a scrape aquellos artículos que ya se han scraped en ejecuciones anteriores. Con la extracción incremental, puede verificar fácilmente las URL primero para asegurarse de que aún no se hayan extraído, y solo capturar las que son realmente nuevas.

 

 

¿Cómo identifica la extracción incremental los datos "nuevos"?

La extracción incremental solo funcionará si los datos recién agregados se pueden identificar con nuevas URL. Durante el proceso de extracción, Octoparse verifica cada URL para juzgar si se ha rastreado antes. Si una URL se identifica como una del scraping anterior, se omitirá automáticamente cuando se ejecute con extracción incremental.
Si la URL se identificó como una URL en el scraping anterior, se omitirá automáticamente cuando se ejecute con extracción incremental.

¿Cómo configurar la extracción incremental?

Puede habilitar fácilmente la extracción incremental siguiendo los pasos a continuación:

1. Primero, asegúrese de que el paso Extraer datos del flujo de trabajo esté seleccionado, haga clic en Configuración

Setting.png

2. Marque Habilitar extracción incremental

Tick.png

3. Elija identificar por URL completa por URL parcial

choose.png

 

Identificar por la URL completa

Con esta opción, Octoparse usará la URL completa para que coincida con la actual. Incluso la más mínima diferencia lo identificará como una "nueva" URL.

Identificar por parte de la URL

En muchos casos, las URL se componen de varios atributos, por ejemplo, la URL para eBay incluye atributos "_from", "_trksid", "_nkw" y "sacat" (generalmente todo lo que viene antes del signo "=").

Cuando se ejecuta con Extracción Incremental, Octoparse detecta los atributos automáticamente y los pone a disposición como parámetros. Con uno o más atributos seleccionados como parámetros para la coincidencia, le está diciendo a Octoparse que compare la URL actual en función de los atributos seleccionados, si alguno de ellos es el mismo, omítalo, de lo contrario, scrape la página.

 

Consejos:


1. La extracción incremental solo está disponible para Cloud Extraction y para tareas con solo una
Acción "Extraer datos".

2. Si no se muestran parámetros cuando elige "identificar por parte de la URL" y "Extraer
datos "está seleccionada, significa que la URL no contiene ningún parámetro, solo puede seleccionar
"identificar por la URL completa".

3. Cuando se seleccionan múltiples parámetros, Octoparse identificará la URL actual como "nueva"